'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

فلسفی نے 'اردو او سی آر پر تحقیق' کی ذیل میں اس موضوع کا آغاز کیا، ‏فروری 25, 2019

  1. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    میری کوشش تھی کہ کوئی آفلائن اوپن سورس لائبریری اس کام کے لیے دستیاب ہوتی۔ (tesseract) کو ٹیسٹ کیا تھا۔ (iron ocr) میں اردو کی سپورٹ موجود نہیں۔ (Apache Tika) یا اور دوسری لائبریریز کو چیک کروں گا اگر کوئی کامیابی ملی تو وہ اس کی بنیاد پر بھی پروگرام میں ردوبدل کیا جاسکتا ہے۔ فی الحال فوری طور پر گوگل والی اے پی آئی ہی بآسانی اور مناسب طور پر دستیاب محسوس ہوئی اس لیے اس کو شامل کردیا۔

    سی ایل ای والے پہلے (CRULP) کے نام سے کام کرتے تھے۔ یہ تحقیاتی شعبہ پہلے لاہور کی فاسٹ یونیورسٹی میں موجود تھا جس کی سربراہی غالبا ڈاکٹر سرمد کرتے تھے۔ میں جب گریجویشن سے فارغ ہوا تو اس وقت فونٹ اور اردو او سی آر کا بھوت سوار ہوا تھا۔ اس وقت کرلپ والوں نے تازہ تازہ فونٹ ریلیز کیا تھا۔ جس کی خطاطی کا کام محترم جمیل صاحب جو میرے شیخ (حضرت نفیس شاہ صاحب رحمہ اللہ، استاد الخطاط) کے بھانجے ہیں، نے انجام دیا تھا۔ اس وقت شیخ حیات تھے لیکن عمر رسیدہ، ہم نے شیخ سے بھی فونٹ بنانے کا ذکر کیا تھا، تب شیخ نے بتایا تھا کہ فونٹ کے لیے پہلے بھی کراچی کی کوئی کمپنی (شاید پاک ڈیٹا والے) شیخ کا خطاطی کا کام لے کر گئے تھے لیکن شیخ کے مطابق اس کو نہ ڈھال سکے۔ خیر ان دنوں ہم نے جمیل صاحب سے بھی ملاقات کی اور فاسٹ یونیورسٹی بھی گئے، ڈاکٹر سرمد صاحب سے ملاقات تو نہ ہوسکی البتہ تحقیقی ادارے کا تفصیلی دورہ کیا (جو غالبا اس وقت وہیں کے طالب علم جو فراغت کے بعد اس تحقیقاتی ادارے میں کام کر رہے تھے، نے کروایا، غالبا عاطف نام تھا ان کا)۔ وہیں یہ بات معلوم ہوئی کہ او سی آر پر کام ابھی ابتدائی مرحلے میں ہے۔

    اپنا او سی آر بنانے کے لیے یو ای ٹی کی لائبریری تک بھی پہنچے جہاں سے ایک فائنل ائیر کے پروجیکٹ کی کاپی بھی نکلوائی جو اردو او سی آر پر بالکل ابتدائی تحقیق تھی۔ ارادہ یہ تھا کہ اس کی بنیاد پر آگے کام کیا جائے۔ لیکن ۔۔۔۔ آہ
    فکرِ معاش نے مجھے برباد کردیا
    ورنہ میں ہوتا ایک بڑا مشہور آدمی

    فاسٹ یونیورسٹی کے دورے کے دوران ہمارے شیخ سے تعلق رکھنے والے ریاضی کے شعبے کے پروفیسر تھے غالبا ڈاکٹر بلال نام تھا، ان سے ملے تھے تو ان کے الفاظ ابھی بھی یاد ہیں۔ انھوں نے پوچھا تھا کہ یہ کام مشکل ہے تمہارے پاس سرمایہ کتنا ہے۔ ہم (میں اور میرا دوست) ایک دوسرے کی شکل دیکھنے لگے کہ بھائی جیب میں موٹرسائیکل کے پٹرول کے لیے پیسے نہیں آپ سرمائے کی بات کر رہے ہیں۔ انھوں نے کہا کے سرمائے کے بغیر مشکل ہے لیکن خیر اللہ تعالیٰ آپ کی مدد فرمائے۔ پھر وہی ہوا کہ ساری تحقیق دھری کی دھری رہ گئی اور ہم روزگار کی تلاش میں سرگرداں۔

    طوالت کے لیے معذرت، اصل میں آپ حضرات کی گفتگو سے کچھ پرانی یادیں تازہ ہو گئیں، اس لیے بھڑاس نکال لی۔ خیر میں دیکھتا ہوں کہ اس ضمن میں مزید کیا بہتری لائی جاسکتی ہے۔

    جی ان شاءاللہ اگلی ریلیز میں خیال رکھوں گا۔
     
    • پسندیدہ پسندیدہ × 2
  2. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    13,149
    میرے خیال میں خالی آف لائن لائبریری سے کام نہیں چلے گا۔ اسے کارآمد بنانے کیلئے بیش بہا ڈیٹا بھی فراہم کرنا ہوگا۔میں نے ٹیسٹنگ کےطور پر بہت سے آف لائن انگریزی او سی آرز چیک کر رکھے ہیں۔ سب میں ہی یہ پریشانی ہے کہ ان کو ڈیٹا خود فیڈ کرنا پڑتا ہے۔ انگریزی کے چونکہ حروف زیادہ نہیں اس لئے یہ کام جلدی ہو جاتا ہے۔ اردو میں یہ کام کیسے ہوگا؟
    گوگل کلاؤڈ ویژن کا کم از کم یہ آرام ہے کہ وہ یہ ڈیٹا کلیکشن کا کام بیک اینڈ میں کر چکے ہیں۔ اور آپ کے پروگرام سے اے پی آئی کال کر کے بہترین نہ سہی قابل استعمال نتائج تو حاصل کئے جا سکتے ہیں۔
    آداب :)
     
    • معلوماتی معلوماتی × 1
  3. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    میں تو خریدنے کے موڈ میں ہوں لیکن

    کسی نے خریدا ہے ابھی تک؟
     
  4. عبید انصاری

    عبید انصاری محفلین

    مراسلے:
    2,453
    جھنڈا:
    Pakistan
    موڈ:
    Cool
    محفل کے رکن ذیشان بھائی اس کے ابتدائی خریداروں میں سے ہیں۔
     
    • معلوماتی معلوماتی × 1
  5. MindRoasterMirs

    MindRoasterMirs محفلین

    مراسلے:
    163
    جھنڈا:
    Pakistan
    موڈ:
    Daring
    دوسرا
     
  6. MindRoasterMirs

    MindRoasterMirs محفلین

    مراسلے:
    163
    جھنڈا:
    Pakistan
    موڈ:
    Daring
    ہمت مرداں مدد خدا
     
  7. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    "Tesseract" اوپن سورس ہے۔ اس میں اردو اور عربی کی سپورٹ بھی موجود ہے۔ اس کا اردو کا ڈیٹا تقریبا آٹھ ایم بی کا ہے۔ لیکن نتائج ۔۔۔۔ آپ خود ہی دیکھ لیجیے

    [​IMG]

     
    • معلوماتی معلوماتی × 1
  8. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    جہاں تک میری ناقص معلومات ہیں بہت سے کمرشل (شاید گوگل بھی) ٹیسرکٹ کے انجن کو ہی استعمال کر رہے ہیں۔ اصل مسئلہ اس کے ٹرینگ ڈیٹا کا ہے۔ ذرا وقت نکالنا پڑے گا اس کے لیے، یا تو پہلے سے موجود ڈیٹے کو بہتر کیا جائے یا نئے سرے سے ٹرینگ ڈیٹا بنایا جائے۔ میرے خیال میں انجن ٹھیک ہے اگر کسی طرح ٹرینگ ڈیٹا تیار ہو جائے تو ایک اچھا آف لائن او سی آر تیار کیا جاسکتا ہے۔ جو بلاشبہ ایک کارآمد پروگرام ہو گا۔
     
    آخری تدوین: ‏فروری 25, 2019
    • پسندیدہ پسندیدہ × 2
  9. دوست

    دوست محفلین

    مراسلے:
    12,975
    جھنڈا:
    Germany
    موڈ:
    Fine
    ٹریننگ ڈیٹا تیار کرنے کے لیے سرمایہ کاری ہونی چاہیئے۔ اس سلسلے میں یہاں اگر کوئی سلسلہ شروع کیا جائے تو میں بساط بھر حصہ ڈالنے کے لیے تیار ہوں۔
     
    • پسندیدہ پسندیدہ × 2
  10. عبید انصاری

    عبید انصاری محفلین

    مراسلے:
    2,453
    جھنڈا:
    Pakistan
    موڈ:
    Cool
    فلسفی بھائی ٹریننگ ڈیٹا کس نوع کا درکار ہوگا؟
    ڈکشنری کے الفاظ کا ان پٹ؟
    یا لگیچرز اور الفاظ کے نمونہ جات وغیرہ؟
    یا ان کی کوڈنگ وغیرہ؟
     
    آخری تدوین: ‏فروری 25, 2019
  11. عباس اعوان

    عباس اعوان محفلین

    مراسلے:
    2,213
    جھنڈا:
    Germany
    موڈ:
    Amused
    یہ ایک بہت عمدہ پروجیکٹ ہو گا۔
    میں بھی مقدور بھر حصہ ڈالوں گا، ان شاء اللہ تعالیٰ
     
    • پسندیدہ پسندیدہ × 3
    • دوستانہ دوستانہ × 1
  12. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    بھائی سرمایہ کاری سے زیادہ شاید وقت درکار ہو۔ میرے خیال میں محفلین میں مجھ سمیت ایسے حضرات ہیں جو خوشی سے بنا کسی لالچ کے یہ کام کرنا چاہیں گے۔ پھر بھی اگر سرمایہ ہی ضروری ہے تو میں وقت کے ساتھ ساتھ سرمایا لگانے کو بھی تیار ہوں۔ مقصد صرف یہ کہ جو بھی نتیجہ نکلے وہ بلامعاوضہ سب کے لیے ہو یعنی مفت :)
    بھائی تفصیل تو میں خود ابھی پڑھ رہا ہوں۔ لیکن مسئلہ یہ ہے کہ یکسوئی میسر نہیں ۔۔۔ آہ اب کیا بتائیں کہاں کہاں ٹاںگ پھنسا رکھی ہے۔ خیر یہ لنک دیکھیے شاید آپ بھی کچھ مدد کرسکیں۔

    ابھی تک جو میں سمجھا ہوں اس میں دو طریقہ کار ہو سکتے ہیں۔ ایک جو پہلے سے موجود ڈیٹا ہے اس کو ایڈٹ کیا جائے یا نئے سرے سے ٹرینگ ڈیٹا تیار کیا جائے، میرے خیال سے اس کے ٹول موجود ہیں۔ فی الحال میری معلومات بہت ابتدائی نوعیت کی ہیں۔ میں شاید آہستہ آہستہ ہی تفصیل پڑھ سکوں۔ اگر کسی اور بھائی کے پاس وقت ہے اور وہ تفصیل بتا سکتا ہے تو کام کو تقسیم کر کے جلدی مکمل کیا جاسکتا ہے۔
     
    • پسندیدہ پسندیدہ × 2
  13. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    13,149
    فلسفی اگر آف لائن اردو او سی آر پر سنجیدگی سے کام کرنا ہے تو اپنی ریسرچ مکمل کرنے کے بعد اس پر ایک نیا دھاگہ بنا لیں۔ یہاں فی الحال ریختہ اور اس سے منسلکہ گوگل او سی آر پر گفتگو کرنا بہتر رہے گا۔ وگرنہ بات اصل موضوع سے ہٹ جائے گی۔
     
    • متفق متفق × 1
  14. عباس اعوان

    عباس اعوان محفلین

    مراسلے:
    2,213
    جھنڈا:
    Germany
    موڈ:
    Amused
    ایک غیرمتعلق لڑی میں آف لائن اردو او سی آر پر بات چلی تو اس پر الگ لڑی کھولنے کی تجویز دی گئی، لہٰذا لڑی حاضر ہے۔
    مذکورہ مراسلہ جات کو یہاں منتقل کیا جائے گا۔
     
    • پسندیدہ پسندیدہ × 3
  15. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    • پسندیدہ پسندیدہ × 2
  16. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    ٹیسرکٹ کا لنک
    tesseract-ocr

    اس او سی آر انجن کو ایچ پی نے 2005 میں اوپن سورس کردیا تھا۔ 2006 سے گوگل اس پروجیکٹ کو سپورٹ کر رہا ہے۔

     
    • معلوماتی معلوماتی × 1
  17. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    اردو کا تربیتی مواد اس لنک پر موجود ہے۔ جس کو بہتر بنانا ہے۔ امید ہے کہ تربیتی مواد کو بہتر بنا کر اس او سی آر انجن سے بہتر نتائج حاصل کیے جاسکتے ہیں۔

    نئے ورژن (4) میں تربیتی مواد کو تیار یا بہتر بنانے کے حوالے سے تفصیل اس لنک پر موجود ہے۔ جو حضرات اس میں دلچسپی رکھتے ہیں وہ کچھ تفصیل کا مطالعہ فرما لیں اور اپنی تجاویز اسی لڑی میں باقی حضرات سے ضرور شئیر کریں۔
     
    • پسندیدہ پسندیدہ × 2
  18. عباس اعوان

    عباس اعوان محفلین

    مراسلے:
    2,213
    جھنڈا:
    Germany
    موڈ:
    Amused
    یہ کہتے ہیں کہ ان لوگوں نے لاطینی نسل کی زبانوں کے لیے چار لاکھ سطروں کے ساتھ ماڈل کو ٹرین کیا ہے۔
    یہ کام لاطینی زبانوں کے لیے تو آسان ہے، اردو کے لیے کچھ مشکل پیش آئے گی۔
    بہرحال، میرے ذہن میں ایک تجویزہے، جو کہ اردو کے ٹریننگ ڈیٹا اور فیڈ بیک کو دیکھنے کے بعد پیش کروں گا۔
     
    • معلوماتی معلوماتی × 2
  19. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    13,149
    میرے خیال میں پہیا ہر بار دوبارہ ایجاد کرنے کی بجائے یہیں محفل پر موجود ماضی کے کئی او سی آر دھاگوں سے پہلے استفادہ کر لیا جائے تو کام زیادہ تیزی سے آگے بڑھ سکے گا:
    ٹیسیریکٹ او سی آر - عربی سپورٹ - اور اردو؟؟؟
    اردو او سی آر پر کام
    نستعلیق حرف شناس (OCR) ڈیسک ٹاپ ورژن ریلیز کر دیا گیا
    اردو او سی ۔ ایک اہم پیش رفت
    اردو میں کوئی شناخت برائے بصری الفاظ Ocr کا سوفٹویئر موجود ہے؟؟؟
    "اردو نستعلیق حرف شناس" -- ایک نیا اردو او سی آر نظام
    خیال رہے کہ محفل پر ڈیٹا کلیکشن، کمپیوٹر ویژن اور سگنل پراسیسنگ میں ماسٹرز و پی ایچ ڈیز موجود ہیں۔ اس آف لائن او سی آر پراجیکٹ کو اگر سنجیدگی اور ثابت قدمی کے ساتھ پایہ تکمیل تک پہنچانا ہے تو ان مقامی ماہرین سے رہنمائی لی جا سکتی ہے۔
    ابن سعید زیک سید ذیشان
     
    آخری تدوین: ‏فروری 25, 2019
    • معلوماتی معلوماتی × 3
  20. زیک

    زیک محفلین

    مراسلے:
    37,399
    جھنڈا:
    UnitedStates
    موڈ:
    Amused
    ٹریننگ ڈیٹا کافی محنت طلب کام ہے۔

    ٹیسیریکٹ سے او سی آر کرانے سے پہلے امیج کو صحیح طور سے پراسس بھی کرنا پڑتا ہے۔ اس کے بغیر یہ اچھے نتائج نہیں دیتا۔
     
    • معلوماتی معلوماتی × 2
    • متفق متفق × 1

اس صفحے کی تشہیر