'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

فلسفی نے 'اردو او سی آر پر تحقیق' کی ذیل میں اس موضوع کا آغاز کیا، ‏فروری 25, 2019

  1. عباس اعوان

    عباس اعوان محفلین

    مراسلے:
    2,215
    جھنڈا:
    Germany
    موڈ:
    Amused
    میری تجویز بھی تقریباً یہی تھی۔
    ہمارے پاس بہت سی کتابیں اور دیگر مواد یونی کوڈمیں موجود ہے، ان کا متن رینڈر کر کے امیج اور ڈیٹا کا جوڑا حاصل کیا جا سکتا ہے۔
    اس تکنیک کے کچھ فوائد مندرجہ ذیل ہیں:
    • ڈیٹا: ہمارے پاس بہت کم وقت میں کافی سارا ڈیٹا دستیاب ہو گا۔
    • درستی: امیج اور ڈیٹا آپس میں عین مطابقت رکھتے ہوں گے، بغیر کسی اغلاط کے۔
    • وقت اور محنت کی بچت: اس تکنیک سے ہمارے پاس بہت کم وقت اور محنت سے بہت سارا ڈیٹا دستیاب ہو گا۔
    • مختلف فونٹس کی سہولت: یونی کوڈ ڈیٹا کو ہم اپنی مرضی کے کسی بھی فونٹ میں رینڈر کر سکتے ہیں، یوں ہمارا ماڈل بیک وقت کئی فونٹس کو سپورٹ کرے گا۔
    • متن کا بگاڑ: ہم اپنے ڈیٹا کو مصنوعی طریقے سے بگاڑ کر رینڈر کر سکتے ہیں، مثلاً لکھائی کا مدہم ہونا، متن کا بیک گراؤنڈ میں ضم ہونا، دھندلا متن، صفحے پر چائے کافی کے نشانات، صفحے کا یوں نظر آنا جیسے سکین کرتے ہوئی صفحہ ہِل گیا ہو، وغیرہ وغیرہ
     
    • پسندیدہ پسندیدہ × 2
    • معلوماتی معلوماتی × 1
  2. دوست

    دوست محفلین

    مراسلے:
    12,975
    جھنڈا:
    Germany
    موڈ:
    Fine
    میرے حساب سے اگر تصدیق ہو جاتی ہے کہ ٹریننگ ڈیٹا سطر بہ سطر ٹیکسٹ اور امیج فائلیں ہی ہیں، تو پیچھے صرف ایک کام ہے: ایک عدد سافٹویئر جو اردو ٹیکسٹ فائلیں لے، متن کو جملوں میں توڑے (ریگولر ایکسپریشن) اور ہر ٹکڑے کو ٹِف (ٹی آئی ایف) امیج بنا دے جس میں ٹیکسٹ جمیل نوری نستعلیق میں رینڈر کیا گیا ہو۔ ہر ٹکڑا اور متعلقہ امیج کا نام ایک باقاعدہ انداز میں بنتا چلا جائے اور ایک آؤٹ پٹ ڈائریکٹری میں محفوظ ہو جائے۔
     
    • معلوماتی معلوماتی × 2
    • پسندیدہ پسندیدہ × 1
  3. عباس اعوان

    عباس اعوان محفلین

    مراسلے:
    2,215
    جھنڈا:
    Germany
    موڈ:
    Amused
    اپنے فائنل نتائج کو مزید بہتر بنانے کے لیے ہم یہ کر سکتے ہیں کہ آخری متن کو سپیل چیکر سےگزار کر ایک عدد لغت کے ذریعے مزید نکھار دیا جائے۔
     
    • معلوماتی معلوماتی × 1
  4. دوست

    دوست محفلین

    مراسلے:
    12,975
    جھنڈا:
    Germany
    موڈ:
    Fine
    ہاں جی یہی قابلِ اعتماد حل لگ رہا ہے۔ اس کے بعد ماڈل ٹریننگ کے لیے ایک مشین سیٹ اپ کرنا ہو گی۔
    لاہوری نستعلیق کے لیے نفیس نستعلیق اور اگر متلاشی کا زیرِ تعمیر فونٹ بھی ہو جائے تو نستعلیق میں کافی ورائٹی مل سکتی ہے۔ چونکہ متلاشی والا فونٹ دستیاب نہیں تو ان کو پروگرام (جو لکھا جائے گا اور جس میں فونٹ سلیکشن کی سہولت میسر ہو گی) مہیا کر کے حاصل شدہ ٹریننگ ڈیٹا واپس کرنے کی استدعا کی جا سکتی ہے۔
    نسخ فونٹ کی ضرورت ہو گی؟
     
    • معلوماتی معلوماتی × 2
    • پسندیدہ پسندیدہ × 1
  5. دوست

    دوست محفلین

    مراسلے:
    12,975
    جھنڈا:
    Germany
    موڈ:
    Fine
    اعجاز اختر صاحب کی تدوین کردہ کتب کو سپیل چیکر کی ضرورت نہیں پڑے گی انشاءاللہ۔
     
    • معلوماتی معلوماتی × 1
  6. دوست

    دوست محفلین

    مراسلے:
    12,975
    جھنڈا:
    Germany
    موڈ:
    Fine
    سب سے زیادہ مسئلہ دستی کتابت سے ہو گا، پرانی کتب پر او سی آر جواب دے جائے گا۔ لیکن دستی کتابت کو جنرلائز کرنا بھی ایک سیاپا ہے۔
     
    • متفق متفق × 1
  7. عباس اعوان

    عباس اعوان محفلین

    مراسلے:
    2,215
    جھنڈا:
    Germany
    موڈ:
    Amused
    میری مراد آؤٹ پٹ سے تھی، جو او سی آر سے نکل کر آئے گی۔
     
    • پسندیدہ پسندیدہ × 1
  8. دوست

    دوست محفلین

    مراسلے:
    12,975
    جھنڈا:
    Germany
    موڈ:
    Fine
    یہ سہولت ٹیسرکٹ میں ہے یا نہیں، یہ دیکھنا پڑے گا۔ سپیل چیکر ایک بنایا تھا کبھی۔
     
    • معلوماتی معلوماتی × 1
  9. عبید انصاری

    عبید انصاری محفلین

    مراسلے:
    2,455
    جھنڈا:
    Pakistan
    موڈ:
    Cool
    شاکر بھائی آپ کی بات سے میں کچھ اس قسم کا کام سمجھا ہوں۔
    اگر ٹریننگ ڈیٹا کی کچھ اس قسم کی شکل ہے تو میرے پاس بہت سی تصویری کتب ایسی موجود ہیں جن کا او سی آر شدہ متن بھی کمپوز شدہ ہے۔ اور یہ ہزاروں صفحات ہیں۔
    صرف اس کی ضرورت ہوگی کہ سطر بہ سطر ان میجز کو ٹکڑے کرکے ان کی الگ الگ فائلز بنالی جائیں۔ اور ان کے مطابق او سی آر شدہ متن الگ کرلیا جائے۔
    اور مطلوبہ فارمیٹ میں اسے کنورٹ کرلیا جائے۔ کیا میں ٹھیک سمجھ رہا ہوں؟
    فلسفی بھائی آپ کہاں تک پہنچے؟
     
    • زبردست زبردست × 2
    • معلوماتی معلوماتی × 1
  10. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    بھائی، پہلے سے لوگوں نے کافی کام کر رکھا ہے اس لیے میں صرف ریڈنگ موڈ میں ہوں۔ ویسے مجھے ایک ٹول ملا ہے میں ذرا اس پر ہاتھ صاف کر رہا ہوں۔ جس کے ذریعے ٹف فائلز اور متن دونوں تیار ہوسکتے ہیں۔ پھر انھیں فائلز کے ذریعے باکس فائلز اور دوسری ضروری فائلز بھی تیار ہوجاتی ہیں جو او سی آر انجن کے ٹرینگ ڈیٹا تیار کرنے کے لیے ضروری ہیں۔ فائنل ٹرینگ فائل بھی یہی ٹول تیار کردیتا ہے۔ سب سے مزے کی بات یہ ہے کہ یہ سارا کام ونڈوز پر آسانی سے ہوسکتا ہے۔ لیکن جب تک میں ایک مکمل تجربہ نہ کر لوں دعوے سے کچھ کہنا مناسب نہیں۔ اس لیے میں اپنے کام میں لگا ہوں اور باقی حضرات کی قیمتی آراء بھی سمجھنے کی کوشش کررہا ہوں۔
     
    • پسندیدہ پسندیدہ × 3
  11. دوست

    دوست محفلین

    مراسلے:
    12,975
    جھنڈا:
    Germany
    موڈ:
    Fine
    عبید انصاری میرا خیال ہے یہ دستی کتابت والی فائلیں بھی ایک الگ ماڈل بن سکتی ہیں۔ اگرچہ ٹف فائل اور متن فائل جنریٹ کرنا اچھا خاصا کام ہو گا۔
    فلسفی ونڈوز 10 پر لینکس سب سسٹم شاید ٹیسرکٹ ٹریننگ کے حوالے سے مددگار ہو سکے۔
     
    • پسندیدہ پسندیدہ × 2
  12. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    13,244
    یہ کام بھی کوئی تین سال قبل مکمل کر کے پبلک کیا جا چکا ہے۔ فلسفی بھائی ٹیسٹنگ کے دوران ان پر زور آزمائی کر سکتے ہیں۔ یہاں نوری نستعلیق کی ۲۴ اور ۱۲۰ پوائنٹ سائز میں امیجز بمع متن دستیاب ہیں
    urduweb/UrduOCR
     
    • پسندیدہ پسندیدہ × 1
    • زبردست زبردست × 1
    • معلوماتی معلوماتی × 1
  13. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    ونڈوز پر تربیتی مواد تیار کرنے کے لیے serak-tesseract-trainer ٹول ہے جو ڈاٹ نیٹ میں لکھا گیا ہے۔ اس کا سورس کوڈ بھی گٹ ہب پر موجود ہے۔ اس کا یوزر مینویل بہت بہترین ہے۔ اس میں تربیتی مواد بنانے کا پورا طریقہ لکھا ہوا ہے۔ میں نے ابھی فی الحال ایک لائن یعنی ایک امیج سے استعمال شدہ تربیتی مواد کی فائل بنائی ہے۔ لیکن مسئلہ میرے پاس یہ آرہا تھا کہ اس ٹول کے ذریعے تربیت والا سٹیپ مکمل کر کے "normproto" نام کی ایک فائل تیار نہیں ہورہی تھی۔ تھوڑی بہت تلاش کے بعد یہ پتہ چلا کہ اگر ڈیٹا باکس فائل میں ہے تو یہ فائل تیار نہیں ہوگی۔ لہذا ڈاٹ نیٹ کا کوڈ ڈاونلوڈ کر کے اس میں "normproto" والی لائن کمنٹ کرکے تربیتی مواد کی فائل "urd.traineddata" تیار کی۔ لیکن دوسرا مسئلہ یہ آرہا تھا کہ ونڈوز پر جو انسٹالیشن میں نے "tesseract" کی کی تھی اس پر یہ تربیتی مواد کام نہیں کررہا تھا۔ میں نے اوریجنل تربیتی مواد کی فائل حاصل کر کے دیکھی وہ بھی کام نہیں کر رہی تھی۔

    خیر اس سب سے پہلے میں نے ایک ورچول مشین پر لنکس انسٹال کر لیا تھا اور اس پر ٹیسریکٹ بھی انسٹال کر چکا تھا۔ لہذا اپنی بنائی ہوئی تربیتی مواد کی فائل کو وہاں لے جا کر ٹیسٹ کی تو الحمداللہ وہ کام کرگئی۔ گو ایک لائن کی وجہ سے نتیجہ درست نہیں لیکن کم از کم یہ معلوم ہو گیا کہ اس طریقے سے تربیتی مواد بنایا جا سکتا ہے۔ آپ حضرات میں سے جو دلچسپی رکھتے ہیں وہ بھی تھوڑا ہاتھ صاف کرسکتے ہیں ان ٹولز پر۔

    میری دوسری کوشش یہ ہوگی کہ "jtessboxeditor" والے کام کو آٹومیٹ کردیا جائے۔ اس سے تھوڑے وقت میں متن کے ذریعے ٹف اور باکس فائلز بنائی جاسکتی ہیں۔ ایسا ہوجائے تو فقط مناسب متن (ایک ایک لائن میں، جو پروگرام کے ذریعے کیا جاسکتا ہے) کے ذریعے تربیتی متن کے لیے تمام لوازمات تیار کی جاسکتی ہیں۔

    یہ ابھی تک کی میری کاروائی ہے، اپنی تھوڑی بہت معلومات کی بنیاد پر۔ آپ حضرات میں سے اگر کوئی تصحیح کرنا چاہے تو مہربانی کرے کے راہنمائی ضرور فرمایے گا۔ آج کے لیے اتنا ہی، کچھ اور ضروری کام ہیں۔ کل ان شاءاللہ اس کو مزید دیکھوں گا۔
     
    • پسندیدہ پسندیدہ × 4
    • زبردست زبردست × 1
  14. MindRoasterMirs

    MindRoasterMirs محفلین

    مراسلے:
    163
    جھنڈا:
    Pakistan
    موڈ:
    Daring
    وہ تو اے پی آئے ہے نظر نہیں آتا ہے کہ کیسے کرتے ہیں لیکن یہ ٹیسا رکٹ جب سے ایچ پی نے اوپن سورس کیا ہے گوگل اس کو مینیج کر رہا ہے ۔ ظاہری سی بات ہے گوگل نے اس کے ڈیٹا اور تکنیک کو اپنی اے پی آئی میں استعمال کیا ہو گا۔
     
  15. MindRoasterMirs

    MindRoasterMirs محفلین

    مراسلے:
    163
    جھنڈا:
    Pakistan
    موڈ:
    Daring
    اگر اس کا طریقہ کار ایک ویڈیو کی صورت میں واضح کر کے اسلحہ فراہم کیا جائے تو یہ کلک وغیرہ والا کام خاکسار انجام دے سکتا ہے ۔
     
  16. MindRoasterMirs

    MindRoasterMirs محفلین

    مراسلے:
    163
    جھنڈا:
    Pakistan
    موڈ:
    Daring
    خاکسار اس سلسلے میں پیسوں کے بغیر خدمات سر انجام دے سکتا ہے ۔ کرنا کیا ہے ؟
     
  17. MindRoasterMirs

    MindRoasterMirs محفلین

    مراسلے:
    163
    جھنڈا:
    Pakistan
    موڈ:
    Daring
    یہ سب کام ایک ہی بندہ کر سکتا ہے ؟ مجھے لگتا ہے مشکل ہی ہے
     
  18. دوست

    دوست محفلین

    مراسلے:
    12,975
    جھنڈا:
    Germany
    موڈ:
    Fine
    یہی بنیادی کام ہے۔ ٹف اور باکس فائلز بنانے کے لیے ٹول ہے یا خود سے بنایا جائے۔ امیج پراسیسنگ کا میرا تجربہ تو صفر ہے۔ سی شارپ اور آر میں کچھ شدھ بدھ ہے، امیج میجک لائبریری سے کام تو ہو سکتا ہے۔
     
  19. ناصر محمود 313

    ناصر محمود 313 محفلین

    مراسلے:
    198
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    یہ صرف نسخ فونٹس پر ٹرین کیا گیا ڈیٹاہے اور ان پر بخوبی کام کرتا ہے، اس کو نستعلیق فونٹس پر ٹرین کرنے کی ضرورت ہے۔
    اردو کی ٹریننگ کے لیے یہ ڈیٹا اور یہ فونٹس استعمال کیے گئے اور تقریباََ تمام نسخ فونٹس کو درست شناخت کیا جا سکتا ہے۔
    اگر اسی طرح نستعلیق فونٹس اور بہتر ڈیٹا استعمال کیا جائے تو امید ہے نستعلیق کے لیے قابل استعمال نتائج حاصل ہوں گے۔
     
    آخری تدوین: ‏فروری 26, 2019
    • معلوماتی معلوماتی × 3
  20. دوست

    دوست محفلین

    مراسلے:
    12,975
    جھنڈا:
    Germany
    موڈ:
    Fine
    میرا خیال ہے فونٹ اور ذرا بندے کے پُتروں والا ڈیٹا یعنی کتب کا ڈیٹا استعمال کر کے یہ کام کر لیا جائے۔ لینکس پر کمانڈ لائن میں باآسانی ہو جائے گا۔ الگ سے باکس فائل وغیرہ بنانے کی ضرورت نہیں ہے۔ کاش میرے پاس لینکس سسٹم ہوتا، میں تے انھی پا دینی تھی۔ ورچوئل مشین انتہائی ذلالت والا کام ہے، فائل ٹرانسفر کا سیاپا ہی حل نہیں ہوتا مین سسٹم اور ورچوئل مشین میں۔ اگے امب کرنا
    فرہنگ:
    انھی پا دینا: اندھیر نگری مچا دینا
    امب: آم
     
    آخری تدوین: ‏فروری 26, 2019
    • پر مزاح پر مزاح × 3
    • معلوماتی معلوماتی × 1
    • متفق متفق × 1

اس صفحے کی تشہیر