ایک بنیادی اردو اور رومن اردو فہرستِ الفاظ کی تیاری

دوست نے 'اردو سپیچ پراسیسنگ' کی ذیل میں اس موضوع کا آغاز کیا، ‏اگست 7, 2017

  1. دوست

    دوست محفلین

    مراسلے:
    12,645
    جھنڈا:
    Germany
    موڈ:
    Fine
    مندرجہ بالا کام کے لیے انٹرنیٹ سے جھاڑو پھیر کر ایک فہرست تیار کر رہا ہوں بذریعہ سافٹویئر۔ اس دوران مختلف مراحل پر نظرثانی کی ضرورت ہو گی، اگر احباب وقت دے سکیں تو بسم اللہ۔
    تعداد الفاظ: اندازاً بیس ہزار پلس
    نظرثانی کی نوعیت: اسی تا نوے فیصد کام پروگرام کرے گا، حتمی صورت دینے کے لیے سیمی سپرویژن کی طرز پر نظرثانی درکار ہو گی۔
    ممکنہ مسائل: تعداد کافی کم ہے۔ الفاظ ڈکشنری سے ہیں، نادرالاستعمال الفاظ کی کثرت۔ گردان کی صورتوں کی کمی، لیا، لی، لینے، کی بجائے صرف لینا یعنی بیس فارم کی کثرت اور تکرار۔
     
    • زبردست زبردست × 7
    • پسندیدہ پسندیدہ × 4
  2. محمد تابش صدیقی

    محمد تابش صدیقی مدیر

    مراسلے:
    10,849
    جھنڈا:
    Pakistan
    موڈ:
    Breezy
    • پسندیدہ پسندیدہ × 1
    • دوستانہ دوستانہ × 1
  3. نبیل

    نبیل منتظم

    مراسلے:
    16,011
    جھنڈا:
    Germany
    موڈ:
    Depressed
    جزاک اللہ شاکر۔ تم نے بہت اہم کام کا بیڑا اٹھایا ہے۔ یقینا ایک طویل عرصے سے اس انتہائی اہمیت کے پراجیکٹ کو نظر انداز کیا جاتا رہا ہے۔ میں حتی المقدور اس سلسلے میں تمہارا ساتھ دینے کی کوشش کروں گا۔ ایک مرتبہ طریقہ کار مدون ہو جائے تو فورم پر یقینا مزید لوگ اس میں شریک ہونے کو تیار ہو جائیں گے۔

    بیس ہزار الفاظ کی ڈکشنری اگر کارآمد ثابت ہو سکتی ہے لیکن تعداد کچھ بڑھ سکے تو بہتر رہے گا۔ اسی فورم کے ہی ایک رکن شمزا فطامی نے ذکر کیا تھا کہ انہوں نے ایک لاکھ الفاظ کے قریب ڈکشنری تیار کر لی تھی۔ میرے خیال میں یہ اب بھی ممکن ہونا چاہیے۔ یہ شمزا ہی تھے جنہوں نے اردو سپیچ ریکگنیشن کی یہ راہ دریافت کی تھی۔ اگر مینول طریقے اور کچھ سوفٹویر کے ذریعے آٹومیشن کا استعمال کیا جائے تو کچھ عرصے میں اچھے نتائج سامنے آ سکتے ہیں۔

    حوالہ جات:

    آپ اردو بولیے یہ سافٹ وئر لکھتا جائے گا ۔ ڈریگن نیچرلی سپیکنگ

    اردو حروف والفاظ کے رومن متبادل بنانے میں اپنا حصہ ڈالیے


    کسی زمانے میں میں نے اسی کام کے لیے ایک طریقہ وضع کیا تھا، اگرچہ اس پر عمدرآمد کی نوبت نہیں آ سکی تھی۔ سب سے پہلے تو ایک اردو مفردات کی ایک فہرست درکار ہے۔ میں نے ایک زمانے میں میں فاتح اور ابن سعید سے اس بارے میں گزارش بھی کی تھی لیکن وہ اس جانب توجہ نہیں دے سکے۔ ایک مرتبہ پھر اس جانب توجہ دلا رہا ہوں۔ اگر مجھے درست یاد پڑ رہا ہے تو 90 ہزار سے ایک لاکھ مفردات کی لسٹ ان کی پاس جمع ہو گئی تھی۔ دروغ بر گردن راوی۔ :)

    الفاظ یا مفردات کی لسٹ ایک مرتبہ حاصل ہو جائے تو اس کے بعد رومن کنورژن کے لیے بنیادی طریقہ تو مینول ہی رہے گا۔ میرے ذہن میں اس کو سپیڈ اپ کرنے کا ایک طریقہ موجود ہے۔ انٹرنیٹ پر رومن اردو مواد پر کئی سائٹس موجود ہیں۔ اگر ان سائٹس کا ڈیٹا ویب سکریپنگ کے ذریعے حاصل کر لیا جائے تو رومن سے اردو کنورژن قدرے آسان پراسیس ہے اور اس کے لیے کچھ ٹولز موجود ہیں۔ سعود نے اس کے لیے ایک سکرپٹ تیار کی ہوئی ہے اور میں نے بھی اس کا ایک طریقہ دریافت کیا تھا۔
    حوالہ جات:

    رومن اردو سے تحریری اردو میں تبدیلی کے لیے ایک ٹول

    رومن سے اردو مبدل


    اگر بالا کا طریقہ کارآمد ثابت ہو جائے تو اس سے ایک صحت مند سائز کی رومن ٹو اردو ڈکشنری حاصل کی جا سکتی ہے۔ اور اگر ایسا ممکن ہو جائے تو اسی ڈکشنری کو دوسری سمت میں، یعنی اردو ٹو رومن کنورژن میں مدد کے لیے استعمال کیا جا سکتا ہے اور اس طرح یہ پورا پراسیس کافی تیز رفتار ہو سکتا ہے۔ اس طریقے کو رو بہ عمل لانے کے لیے ذیل کی ضرورت پیش آئے گی:

    1۔ رومن اردو پر مبنی ویب سائٹس کی فہرست
    2۔ ویب سکریپنگ کے لیے ٹول یا کسٹم سکرپٹس جن سے ان ویب سائٹس سے ڈیٹا حاصل کیا جا سکے۔
    3۔ حاصل کردہ ڈیٹا کو پراسیس کرنے کے لیے پروگرام/سکرپٹس
    4۔ حاصل کردہ ڈکشنری کی درستگی کے لیے اس پر نظرثانی کا مرحلہ
     
    • زبردست زبردست × 4
    • پسندیدہ پسندیدہ × 3
  4. ٹرومین

    ٹرومین محفلین

    مراسلے:
    258
    یہاں اس پر تجمل حسین کی تحریک پر کچھ کام ہوا ہے اور اس کے لنک بھی ابتدائی مراسلہ میں دیے گئے ہیں۔:)
     
    • معلوماتی معلوماتی × 1
    • متفق متفق × 1
  5. دوست

    دوست محفلین

    مراسلے:
    12,645
    جھنڈا:
    Germany
    موڈ:
    Fine
    آئی جنون، اردو ورڈ اور ہماری ویب سے سکریپ ہو گا۔
    اردو اور رومن کلمات کو سپیس کی بنیاد پر الگ کر کے مفرد ترسیموں یا الفاظ کی فہرست تیار ہوگی۔
    جہاں دونوں کالمز میں الفاظ کی تعداد برابر نہ ہوئی، اس فہرست پر زیادہ توجہ دینی ہوگی۔ حل: پائپ سائن سے اردو کلمات کی حدود متعین کی جائیں اور سافٹویئر اسے سپلٹ کر کے پرانی فہرست اپڈیٹ کر دے۔
     
    • معلوماتی معلوماتی × 1
  6. نبیل

    نبیل منتظم

    مراسلے:
    16,011
    جھنڈا:
    Germany
    موڈ:
    Depressed
    اسی بارے میں عرض کر رہا تھا کہ پہلے پتا کر لیں۔ میری معلومات کے مطابق کئی سائٹس سے ڈیٹا پہلے ہی حاصل کیا جا چکا ہے۔
     
    • معلوماتی معلوماتی × 1
  7. دوست

    دوست محفلین

    مراسلے:
    12,645
    جھنڈا:
    Germany
    موڈ:
    Fine
    اس وقت کوئی بھی فہرست چند سو الفاظ سے زیادہ نہیں۔ ڈیٹا کہاں ہے، اتنی ادھوری کاوشوں کے دوران سامنے کیوں نہیں لایا گیا؟
    میرا کام کا طریقہ یہ ہے کہ کوئی ساتھ نہ بھی دے تو خود کر لیتا ہوں۔ اس سے کمیونٹی کا فائدہ اضافی چیز ہے، اصلاً میری اپنی ضرورت سے مسئلہ شروع ہوتا ہے۔
     
    • پسندیدہ پسندیدہ × 1
  8. نبیل

    نبیل منتظم

    مراسلے:
    16,011
    جھنڈا:
    Germany
    موڈ:
    Depressed
    یہ ڈیٹا اکٹھا کرنے والے ہی بہتر بتا سکتے ہیں۔
    اپنی ضرورت اچھی motivation ہوتی ہے، اس سے کام کی پیشرفت جاری رہتی ہے۔
     
    • متفق متفق × 1
  9. دوست

    دوست محفلین

    مراسلے:
    12,645
    جھنڈا:
    Germany
    موڈ:
    Fine
    چلیں مزید پیش رفت اور ابتدائی فہرست تیار کر کے مہیا کرتا ہوں، مزید پر تب گفتگو ہو گی.
     
    • پسندیدہ پسندیدہ × 1
  10. محمد اسلم

    محمد اسلم محفلین

    مراسلے:
    657
    جھنڈا:
    India
    موڈ:
    Sleepy
    • دوستانہ دوستانہ × 2
  11. محمد اسلم

    محمد اسلم محفلین

    مراسلے:
    657
    جھنڈا:
    India
    موڈ:
    Sleepy
  12. محمد اسلم

    محمد اسلم محفلین

    مراسلے:
    657
    جھنڈا:
    India
    موڈ:
    Sleepy
    ان دنوں میں نے جو فائل اپلوڈ کی تھی،،،، بس وہیں رکا ہوا ہوں۔۔۔ بعد میں فرصت ہی نہیں ملی۔
    لیکن ایسا ہی کچھ اپلوڈ کرنے جیسا سسٹم ہو تو میں پھر کچھ کروں گا۔
     
    • پسندیدہ پسندیدہ × 1
  13. دوست

    دوست محفلین

    مراسلے:
    12,645
    جھنڈا:
    Germany
    موڈ:
    Fine
    پہلی قسط کا سورس کافی گندا تھا۔ اردو ورڈ، تقریباً پانچ ہزار الفاظ اور املاء کی غلطیاں۔ لیکن مرکبات ہیں، جملے نہیں، جیسا کہ اگلی قسط میں نظر آئے گا۔
    لنک
    ڈراپ باکس لاگن مانگ سکتا ہے۔
     
    • پسندیدہ پسندیدہ × 1
  14. دوست

    دوست محفلین

    مراسلے:
    12,645
    جھنڈا:
    Germany
    موڈ:
    Fine
    دو سورسز کو جمع کر کے تین فہرستیں تیار کی ہیں۔
    انفرادی الفاظ، ترسیمے۔ تقریباً اڑتیس ہزار مندرجات۔ زیادہ تر املاء کی غلطیوں اور اردو رومن جوڑے کی درستگی (رومن لفظ کسی اور اردو لفظ کا متبادل تو نہیں وغیرہ) کے لیے نظرثانی درکار ہو گی۔ رومن املاء جہاں ہے جیسے ہے کی بنیاد پر تسلیم کر لی جائے (تجویز)، ماسوائے جہاں آر بمقابلہ ڑ جیسے مسائل ہیں۔ ایسے جوڑے پروگرام سے الگ اور درست کیے جا سکتے ہیں۔ تاہم ایسے تمام کیسز کا تعین کرنا ہو گا (مزید کون سا جوڑا ڈریگن کے لیے مسئلہ پیدا کرتا ہے)۔ پہلے جو فہرست تیار کی جا چکی اسے اس فہرست سے ملایا جا سکتا ہے تاکہ ڈپلی کیشن سے بچا جا سکے، بہتر تجویز ہو تو مطلع کریں۔
    اردو لفظ طویل ہے۔ تقریباً ساڑھے بارہ سو مندرجات۔ کچھ املاء یا رموز اوقاف کی غلطیاں۔ اور کچھ اردو مرکبات جنہیں زیر بمقابلہ انگریزی ہایفن ای ہایفن سے لکھا گیا ہے۔ اردو مرکبات الگ کیے جائیں۔ لمبائی میں فرق کی وجہ بننے والا اردو لفظ نشان زد کیا جائے۔ کیسے اور اس کی درستگی کیا ہو گی، اس پر ابھی غور نہیں کیا۔
    رومن لفظ طویل ہے۔ تقریباً پانچ ہزار مندرجات۔ غالب اکثریت اردو مرکبات یا دو ترسیمہ الفاظ کی ہے۔ بہر صورت املاء کی غلطیوں کی نشاندہی، مرکبات الگ کرنا (ای والے مرکبات کے لیے ہائفن ای ہائفن کی تجویز ہے، اور یہ پروگرام سے باآسانی تبدیل ہو سکتا ہے بس مرکبات کی نشاندہی کرنا ہو گی)، اکلوتے اردو لفظ کے لیے انگریزی میں سپیس سے الگ دو یا زیادہ کے مرکبات کو بھی ہائفن سے ملانے کی تجویز ہے۔
    کرنا، بھرنا، آنا جیسے مصادر سے حال اور ماضی کی گردانیں (کرتے، کرتیں، کرتا، کرنے، کیا، کی، کیں۔۔۔) پروگرام سے بنائی جا سکتی ہیں، تاہم مصادر کی نشاندہی ضروری ہے۔ نا سے ختم ہونے والے تمام الفاظ کی فہرست بن جائے گی، لیکن اس پر نظرثانی درکار ہو گی۔
     
    • پسندیدہ پسندیدہ × 4
    • معلوماتی معلوماتی × 1
  15. دوست

    دوست محفلین

    مراسلے:
    12,645
    جھنڈا:
    Germany
    موڈ:
    Fine
    سکریپنگ کے لیے انگریزی الفاظ کی چھ گُنا بڑی فہرست لگا کر دوبارہ سے ڈاؤنلوڈ کر رہا ہوں۔ پچھلی اسی ہزار کی فہرست سے جو کچھ نکلا ہے، اس نئی سے دس پندرہ ہزار الفاظ کے اضافے کی توقع ہے۔ شاید دو تین دن ڈاؤنلوڈنگ میں لگ جائیں۔ ویب سائٹ آفلائن ہو جاتی ہے، کام رک جاتا ہے۔ اور ملٹی تھریڈنگ بھی ممکن نہیں، اس لیے پروگرام پیدل مسافت طے کر رہا ہے۔
     
    • پسندیدہ پسندیدہ × 1
    • معلوماتی معلوماتی × 1
  16. محمد امین صدیق

    محمد امین صدیق محفلین

    مراسلے:
    677
    موڈ:
    Cheerful
    • دوستانہ دوستانہ × 1
  17. محب علوی

    محب علوی لائبریرین

    مراسلے:
    10,893
    جھنڈا:
    Pakistan
    موڈ:
    Bookworm
    دوست اگر 38000 سے زائد رومن اردو الفاظ کی فائل تیار ہے یا مل جائے تو اردو کرنے والا کام میں شروع کر دیتا ہوں۔

    رومن الفاظ کی فہرست ملتی رہی تو سست روی سے ہی سہی مگر ایک فہرست بنتی چلی جائے گی اور یہ پراجیکٹ بھی زندہ رہے گا۔
     
    • پسندیدہ پسندیدہ × 1
  18. دوست

    دوست محفلین

    مراسلے:
    12,645
    جھنڈا:
    Germany
    موڈ:
    Fine
    انفرادی الفاظ و ترسیمے والی لسٹ پر نظرثانی شروع کریں. میں مزید ڈاؤنلوڈ کر رہا ہوں، شاید کل تک حتمی فہرست تیار ہو جائے، یعنی میرے بس میں بذریعہ پروگرامنگ جو کچھ ہے. اس کے بعد نظرثانی اور فائنلائز کر دیں گے.
     
    • پسندیدہ پسندیدہ × 2
  19. نبیل

    نبیل منتظم

    مراسلے:
    16,011
    جھنڈا:
    Germany
    موڈ:
    Depressed
    کن سائٹس سے ڈاؤنلوڈ کر ر ہے ہو؟
     
  20. دوست

    دوست محفلین

    مراسلے:
    12,645
    جھنڈا:
    Germany
    موڈ:
    Fine
    آئی جنون ہی بہتر لگی ہے۔ اردو ورڈ سے پانچ ہزار مندرجات جن میں غلطیاں بھی تھیں۔
     

اس صفحے کی تشہیر