'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

فلسفی نے 'اردو او سی آر پر تحقیق' کی ذیل میں اس موضوع کا آغاز کیا، ‏فروری 25, 2019

  1. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    7,401
    دوست بھائی بھی اکثر اس کا ذکر خیر کرتے رہتے ہیں۔ یہ ٹیکنیک سمجھنا پڑے گی۔ اور اگر اس سے اسپیسنگ کا مسئلہ حل ہو جاتا ہے تو بسم اللہ کریں۔
     
    • معلوماتی معلوماتی × 1
  2. دوست

    دوست محفلین

    مراسلے:
    12,947
    جھنڈا:
    Germany
    موڈ:
    Fine
    بالکل یہ اعراب اور نقطوں کے بغیر کشتیاں استعمال کر کے ٹریننگ کروائی گئی تھی، بس اتنا ہی یاد ہے اس پریزینٹیشن سے۔
     
    • معلوماتی معلوماتی × 2
  3. فلسفی

    فلسفی محفلین

    مراسلے:
    2,328
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    لیجیے حضرات ذرا اس تربیتی مواد پر نظر ڈالیے اور اپنی قیمتی رائے سے آگاہ کیجیے
    فائل ۱ --- تقریبا 39 ہزرا سطریں
    فائل ۲ --- تقریبا 61 ہزرا سطریں
    فائل ۳ --- تقریبا 12 ہزرا سطریں

    ٹیسریکٹ کے گوگل فورم پر سوال بھی لکھ دیا ہے۔ دیکھتے ہیں کیا جواب آتا ہے۔ آپ حضرات بھی دیکھ لیجیے اگر کوئی غلطی ہو تو نشاندہی کردیجیے۔
     
    • پسندیدہ پسندیدہ × 1
  4. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    7,401
    زبردست۔ میرے خیال میں ٹیزریکٹ ماہرین کو ان خاکوں سے مسئلہ سمجھ میں آجائے گا :
    [​IMG]
     
    • پسندیدہ پسندیدہ × 1
  5. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    7,401
    میری ابھی اس حوالہ سے ایک ایکسپرٹ سے کچھ بات چیت ہوئی ہے۔ ان کے مطابق مختلف الگوردھمز کے ذریعہ نستعلیق اسپیس کو الگ کیا جا سکتا ہے۔
    البتہ او سی آر سے اردو متن حاصل کرنے بعد پوسٹ پروسیس میں اسپیس الگ کرنا زیادہ بہتر طریقہ ہے۔
     
    • زبردست زبردست × 1
    • معلوماتی معلوماتی × 1
  6. فلسفی

    فلسفی محفلین

    مراسلے:
    2,328
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    ٹیکسریٹ کے اندر؟ یعنی ٹیکسریٹ کے کوڈ میں تبدیلی کر کے؟ مزید معلومات حاصل کی جا سکتی ہیں؟

    اس کے لیے تو اردو پروف ریڈر استعمال کر سکتے ہیں،
     
    • پسندیدہ پسندیدہ × 1
  7. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    7,401
    ٹھیک ہے۔ کچھ عرصہ ٹیزریکٹ ٹیم کے جواب کا انتظار کرتے ہیں۔ اور اگر وہاں سے کوئی پیش رفت نہیں ہوتی تو پھر اسی طریقہ پر چلنا پڑے گا۔
    فی الحال نمونہ جات کو دیکھتے ہوئے یہ چیز سامنے آئی ہے کہ کرننگ والےمقامات پر ٹیزریکٹ متعدد الفاظ کو ایک ہی لفظ سمجھ کر جوڑ دیتا ہے۔ گو کہ الفاظ کی ڈٹیکشن درست کرتا ہے۔
     
    • پسندیدہ پسندیدہ × 1
    • زبردست زبردست × 1
    • متفق متفق × 1
  8. دوست

    دوست محفلین

    مراسلے:
    12,947
    جھنڈا:
    Germany
    موڈ:
    Fine
    متن فائلیں تو بظاہر ٹھیک ہیں۔ ژ، اعراب اور دیگر علامات جیسے سن کی علامت ان میں ہیں؟ نمبر بھی، اردو انگریزی۔ لیکن اس سے تو مسئلہ آتا تھا۔
    سوال بہتر نہیں تھا کہ گٹ ہب ریپازیٹری میں بگ سیکشن کے تحت پوسٹ کیا جاتا؟
     
    • پسندیدہ پسندیدہ × 1
  9. فلسفی

    فلسفی محفلین

    مراسلے:
    2,328
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    "ژ" تو متن میں شامل ہے۔
    اعراب اور ہندسے میں نے فلٹر آوٹ کردیے تھے۔ مجھے یہی خدشہ تھا کہ شاید اس میں مسئلہ رہے گا کیونکہ اردو دائیں سے بائیں اور انگریزی ہندسے بائیں سے دائیں ہوں گے۔ اور اعراب کہ وجہ سے سادہ الفاظ کی تربیت میں بھی شاید مشکل ہو۔ میں دوبار سکرپٹ چلا کر اعراب کے ساتھ تربیتی مواد بنا کر اس سے تربیت کروا کر دیکھتا ہوں کہ کیا نتیجہ نکلتا ہے۔

    جی پہلے یہی سوچا تھا لیکن ایک دو سوال جو گٹ ہب پر پڑھے تھے اس میں ٹیسریکٹ والوں نے اعتراض کیا تھا کہ گٹ ہب والے سیکشن میں پوسٹ کسی مسئلے کی بنیاد پر کی جائے اگر استعمال سے متعلق سوال ہے تو وہ گوگل گروپ میں ہی لکھا جائے اس لیے وہاں لکھا تھا۔ کچھ دن میں جواب نہ آیا تو گٹ ہب پر کاپی پیسٹ کردوں گا۔ :)
     
    آخری تدوین: ‏اپریل 22, 2019
    • پسندیدہ پسندیدہ × 2
  10. عباس اعوان

    عباس اعوان محفلین

    مراسلے:
    2,135
    جھنڈا:
    Germany
    موڈ:
    Daring
    کیا انہوں نے کرننگ والا نستعلیق استعمال کیا تھا ؟
     
  11. عباس اعوان

    عباس اعوان محفلین

    مراسلے:
    2,135
    جھنڈا:
    Germany
    موڈ:
    Daring
    اگر کرننگ کے ساتھ سپیس درست طریقے سے ڈیٹیکٹ ہو رہی ہے تو پوسٹ پروسیسنگ اور لغت سے الفاظ کو درست کیا جا سکتا ہے۔
     
  12. شکیب

    شکیب محفلین

    مراسلے:
    1,553
    جھنڈا:
    India
    موڈ:
    Breezy
    پوسٹ پروسیسنگ میں لغت کا استعمال ناگزیر ہے۔ اور اسی کے استعمال سے بہتر نتائج حاصل ہو سکتے ہیں۔گوگل او سی آر میں لغت کا استعمال صاف نظر آتا ہے۔
    اگر حروف درست شناخت ہو پارہے ہیں تو یہ بڑا اچیومنٹ ہے۔ ٹریننگ ڈیٹا + پوسٹ پرسیسنگ پر اچھی محنت کی جائے، ان شاءاللہ کافی حد تک مطلوبہ نتائج مل جائیں گے۔
     
    آخری تدوین: ‏اپریل 23, 2019
    • پسندیدہ پسندیدہ × 3
    • معلوماتی معلوماتی × 1
    • متفق متفق × 1
  13. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    7,401
    اس کا سارا کریڈٹ فلسفی بھائی کو جاتا ہے۔ گو کہ ابھی کافی محنت کی ضرورت باقی ہے ۔ :)
     
    • پسندیدہ پسندیدہ × 2
    • دوستانہ دوستانہ × 1
    • متفق متفق × 1
  14. فلسفی

    فلسفی محفلین

    مراسلے:
    2,328
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    کرننگ والے فانٹ سے سپیس کا مسئلہ آرہا ہے۔ حروف الحمد للہ درست حاصل ہورہے ہیں لیکن الفاظ کے درمیان سپیس کی وجہ سے الفاظ آپس میں گڈ مڈ ہوجاتے ہیں۔

    ابھی تربیتی مواد اکھٹا کر رہا ہوں۔ تقریبا چار لاکھ سطریں اکھٹی کر کے اس پر تربیت کرواؤں گا۔ امید ہے نتائج اچھے ہوں گے۔ یہ او سی آر کے بعد لغت سے پروسیسنگ والے طریقہ کار پر ذرا وضاحت کیجے، تاکہ تربیت کے ساتھ ساتھ اس پر بھی کچھ کام ہوجائے۔ مثلا کوئی لغت یونیکوڈ میں استعمال کے لیے موجود ہے؟ اس کے بعد اس کو او سی آر والے متن میں استعمال کرنے کا کیا طریقہ کار ہونا چاہیے؟ جاسم محمد آپ کا کوئی آئیڈیا ہے اس بارے میں؟
     
  15. دوست

    دوست محفلین

    مراسلے:
    12,947
    جھنڈا:
    Germany
    موڈ:
    Fine
    سی ایل ای کے پاس نوری نستعلیق ہونے کی توقع ہے مجھے جس سے انہوں نے ان پیج سے امیجز جنریٹ کی ہوں۔
    جمیل نوری نستعلیق کی صورت میں کرننگ والا 2014 میں دستیاب ہو گیا تھا؟
     
    • معلوماتی معلوماتی × 1
  16. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    7,401
    مجھے ڈیٹا کلیکشن اور پارسنگ سے متعلق کوئی آئیڈیا نہیں ہے۔ یہاں ابن سعید الف عین دوست زیادہ بہتر رہنمائی کر سکتے ہیں :)
     
    • معلوماتی معلوماتی × 1
  17. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    7,401
    نہیں۔ کرننگ والا 2016 میں ریلیز ہوا تھا۔
     
  18. عباس اعوان

    عباس اعوان محفلین

    مراسلے:
    2,135
    جھنڈا:
    Germany
    موڈ:
    Daring
    یہ بہت عمدہ اور خوش کُن خبر ہے۔
    میرے خیال میں اب تمام تر دستیاب مواد کے ساتھ ٹریننگ شروع کر دینی چاہیے۔ اخبارات اور کتابوں کے علاوہ اردو محفل پر بھی بہت سارا مواد موجود ہے۔
    میرے خیال میں لغت کا استعمال ناگزیر ہے۔ جیساکہ شروع میں، میں نے یہاں بھی کہا تھا:
    اورجہاں تک میرا خیال ہے، ہمارے پاس یونی کوڈ لغت موجود ہے/ہیں۔
    محترم استاد الف عین صاحب سے گزارش ہے۔
     
    • معلوماتی معلوماتی × 1
  19. عباس اعوان

    عباس اعوان محفلین

    مراسلے:
    2,135
    جھنڈا:
    Germany
    موڈ:
    Daring
    لغت کو استعمال کرتے ہوئے ٹیکسٹ پارسنگ کرنا کچھ زیادہ مشکل نہیں ہو گا، کچھ گھنٹوں میں ایک یوٹیلیٹی تیار ہوجانی چاہیے۔
     
    • پسندیدہ پسندیدہ × 1
  20. دوست

    دوست محفلین

    مراسلے:
    12,947
    جھنڈا:
    Germany
    موڈ:
    Fine
    املاء کی درستی کے لیے ایک عدد فہرست ہی درکار ہو سکتی ہے۔ سپیل چیکر پروگرام بھی موجود ہے، ہن سپیل کے لیے ایک لسٹ بھی بنائی تھی جو اس دھاگے کے آغاز کے کسی پیغام میں لنک کی تھی کسی نے، اس کے علاوہ عمومی اغلاط کی درستی کے لیے ریگولر ایکسپریشن پر مشتمل ایک فہرست پر بھی یہیں کام ہو چکا ہے۔
    لیکن اس کام کے لیے دیکھنا تو یہ ہے کہ کس قسم کی غلطیاں ہوتی ہیں متن میں، اس کے مطابق ہی پوسٹ پروسیسنگ ہو گی۔ ایکدوتینچارپانچچھساتآٹھ ایک تا آٹھ اس گنتی کو دیکھ لیں، اسے کیسے الگ کیا جا سکتا ہے؟ بنیادی طور پر سپیس ڈالنی ہے، پھر وہ حروف ہیں جو اگلے حرف کو ساتھ جڑنے کی اجازت نہیں دیتے، اور پھر مفرد الفاظ ہیں، آخر میں ترسیمے ہیں۔ جیسے الفاظ میں الفا اور ظ دو ترسیمے لیکن ایک مفرد لفظ ہے۔ مرکب الفاظ میں سپیس سے الگ الگ دو یا زیادہ حصے ہوں گے۔ فی الوقت کیونکہ کی مثال یاد آ رہی ہے، کیوں کہ، یا کونسا یا کون سا۔ جس میں موخر الذکر (کون سا) لکھنا بہتر ہے۔ چلیں "موخر الذکر" ہی دیکھ لیں، مرکب لفظ ہے دو مفرد گروپس کے ساتھ جس میں کم از کم پانچ ترسیمے ہیں: مو، خر، ا، لذ، کر۔
    الگورتھم ایسا ہو کہ الفاظ کی فریکوئنسی (پرابے بیلٹی) کی بنیاد پر لینئر پراسیسنگ (سٹرنگ کے آغاز سے اختتام تک ایک ہی پراسیس) کے تحت حروف سپیل چیکر کی فہرست میں موجود الفاظ یا حروف کے کمبینیشنز سے میچ کرتا چلا جائے، اور سپیس شامل کرتا چلا جائے۔ سادہ ترین حل تو یہی نظر آتا ہے۔
     
    • پسندیدہ پسندیدہ × 3
    • زبردست زبردست × 1
    • معلوماتی معلوماتی × 1

اس صفحے کی تشہیر