12 AbbyyFineReader Professional او سی آر پروگرام - تجربات اور مشکلات

زہیر عبّاس نے 'اردو او سی آر پر تحقیق' کی ذیل میں اس موضوع کا آغاز کیا، ‏اگست 14, 2016

  1. زہیر عبّاس

    زہیر عبّاس محفلین

    مراسلے:
    972
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    پچھلے دنوں ڈیجیٹل لائبریری آف انڈیا کے بارے میں معلوم ہوا کہ وہاں پر 32,000 ہزار سے زائد مختلف موضوعات پر اردو میں کتب دستیاب ہیں۔کتابوں کے نام رومن اردو میں دیئے گئے ہیں لہٰذا کتاب کو ڈھونڈنا بہت مشکل ہے ۔ بڑی شدت سے خواہش ہوئی کہ کاش اگر کوئی اردو او سی آر موجود ہوتا تو تصویری متن کو تلاش کرنا کس قدر سہل ہوتا ۔اس لائبریری میں اردو کا خزانہ موجود ہے لیکن اپنی پسند کی چیز کو تلاش کرنا جوئے شیر لانے سے کم نہیں ۔
    بہرحال اردو محفل میں او سی آر کا متعلقہ زمرہ دیکھا اور ایک ایک لڑی کو پڑھنا شروع کیا ۔ایک دو لڑیاں کام کی ملیں ۔ جس میں سے ایک اردو او سی ۔ ایک اہم پیش رفت میں Abbyy Finereader کے بارے میں امجد علوی صاحب نے اپنا تجربہ بیان کیا تھا۔
    اس لڑی کو مکمل پڑھنے کے بعد اس سافٹ ویئر کو ڈاؤن لوڈ کرنے کا ارادہ کیا اور ڈیجیٹل لائبریری آف انڈیا سے ڈاؤن لوڈ کی گئی ایک کتاب کے ایک صفحے کے کچھ حصّے کو مذکورہ بالا لڑی میں بتائے گئے طریقے سے ٹرین کرنا شروع کیا۔

    [​IMG][/URL
    ]


    اس صفحے کا نتیجہ کچھ اس صورت میں ظاہر ہوا


    [​IMG][/URL]



    اس تصویر میں دیکھا جاسکتا ہے کہ عام فہم اور الفاظ جیسے لفظوں کو اس نے ٹھیک طرح سے تو شناخت کرلیا لیکن الفاظ کو الٹا دیا خاص طور پر پہلی سطر کے آخری دو الفاظ دیکھیں "تعلق کا"کو بالکل ٹھیک شناخت کیا ہے لیکن الٹا ۔ یہ بات مذکورہ بالا لڑی میں بھی بتائی گئی تھی جس کا
    طریقہ انہوں نے ایک میکرو کی صورت میں نکالا تھا۔ میں نے یہ میکرو استعمال کرکے دیکھا لیکن مجھے اس کا نتیجہ کچھ زیادہ بہتر نہیں ملا ۔ خاص طور پر جب ایک سے زیادہ لیگیچر پر مشتمل الفاظ کو ٹرین کروایا جائے تو یہ آدھا تیتر آدھا بٹیر کردیتا ہے۔ کم از کم میرے تجربے میں تو ایسا ہی ہوا تھا۔
    اس صورتحال سے نمٹنے کے لئے میں نے الفاظ کو الٹا کر ٹرین کروایا ۔
    ابتدائی ٹریننگ کے لئے میں نے اسی ہاتھ کی خطاطی والی کتاب کے 13 صفحات کو ٹرین کروانے کا منصوبہ بنایا۔



    [​IMG]



    سب سے پہلے مجھ سے یہ اوپر والا صفحہ نمبر 9 ٹرین ہوا ۔
    اس کا نتیجہ مجھے کچھ یوں حاصل ہوا :



    [​IMG][/URL]



    اس کے بعد میں نے صفحہ نمبر 1 سے لے صفحہ نمبر 13 تک کے باقی صفحات ترتیب کے ساتھ ٹرین کرنے شروع کئے ۔
    ان میں سے کچھ صفحات آپ یہاں دیکھ سکتے ہیں :



    [​IMG][/URL]




    یہاں پر سرخ نشان زدہ حصّہ وہ ہے جس کو اس نے تصویر کے طور پر ہی شناخت کیا ہے۔

    ایک اور صفحے کا نتیجہ دیکھئے:



    [​IMG][/URL]



    ان نتائج سے سب سے بڑا مسئلہ جو مجھے لگ رہا ہے وہ "اسپیس" کا ہے ۔ او سی آر ریڈر اردو کے "اسپیس" کو ٹھیک سے شناخت نہیں کررہا اس لئے الفاظ کے مابین "اسپیس" نہ دینے سے الفاظ ایک دوسرے سے جڑ رہے ہیں۔

    اس سے پہلے میں نے اردو کے لئے ایک ہی او سی آر استعمال کرنے کی کوشش کی تھی اور وہ ٹیسیریکٹ تھا۔اس کے علاوہ آن لائن اردو حروف شناس کو بھی استعمال کرنے کی کوشش کی تاہم نتیجہ بالکل صفر ہی نکلا ۔
    ایک بات خاص طور پر نوٹ کرنے کی یہ ہے کہ ان تصاویر کو میں نے براہ راست پی ڈی ایف سے ایم ایس پینٹ میں لے جاکر پیسٹ کیا اور بغیر ڈی پی آئی کو چھیڑے استعمال کیا ہے۔
    بہرحال نتائج کیونکہ حوصلہ مند تھے لہٰذا امید بندھی کہ کم از کم کمپیوٹر سے کی گئی کتابت کو او سی آر کے لئے ٹرین کرنا نسبتاً آسان ہوگا ۔اسی لڑی"
    اردو او سی ۔ ایک اہم پیش رفت' میں موجود ایک مراسلے میں سے لیگیچرکی فہرست ملی۔ اس کو ڈاؤنلوڈ کرکے تصویری صورت میں محفوظ کیا اور ڈی پی آئی 600 میں تبدیل کرکے ٹریننگ کا آغاز کیا ۔
    یہاں ٹریننگ دیتے ہوئے معلوم ہوا کہ اگر پہلے کسی لیگیچر کو ٹرین کروایا ہوا ہے اور نئے لیگیچر کو ٹرین کروانا چاہ رہے ہوں اور وہ لیگیچر پہلے والے سے بڑا ہو تو ریڈر اس ٹریننگ کو خاطر میں نہیں لاتا اور بڑے لیگیچرکو بھی چھوٹا سمجھ کر غلط شناخت کرلیتا ہے۔
    مثال کے طور پر "ئینگے" اور "ئینگر" میں سے اگر موخرالذکر کو پہلے ٹرین کروایا گیا تو اول الذکر کو ریڈر نے " ئینگر" ہی شناخت کرنا ہے۔ چاہئے آپ کتنی مرتبہ بھی "ئینگے" کو کیوں نہ ٹرین کروا لیں ۔ بہرحال اس کا طریقہ یہ نکالنے کی کوشش کی کہ لیگیچر کو طوالت کے ساتھ ترتیب دے کر پہلے بڑے لیگیچر کو ٹرین کرواؤں اس کے بعد چھوٹوں کو۔ یہ جگاڑ اس صورت میں تو چل گئی جہاں ایک لیگیچر کے حروف دوسرے سے مختلف ہیں تاہم اگر ایک جیسے دکھائی دینے والے لیگیچر ایک جتنے حروف پر ہی مشتمل ہوں تو جس لیگیچر کو آپ نے پہلے ٹرین کروایا ہوگا وہی شناخت میں آئے گا اور دوسرا غلط طور پر شناخت ہوگا۔
    لیگیچر کو مینوئلی ٹرین کروانا بہت دقت طلب گدھا مزدوری والا کام ہے۔ میں 16,000 لیگیچر میں سے صرف 100 کے قریب کو تین دن میں ٹرین کروا سکا ہوں۔ یہ تمام ٹریننگ کو ایک پیٹرن ایڈیٹر میں محفوظ کرتا ہے ۔
    اس کو یہاں دیکھا جاسکتا ہے:



    [​IMG][/URL]



    ریڈر اس پیٹرن کو ".fbt" کی فائل میں محفوظ کرتا ہے۔ لیکن اس کو حاصل کرنے کے لئے خود سے پیٹرن کو سیو کرنا پڑتا ہے ورنہ وہ پیٹرن کی فائل الگ سے نہیں بناتا۔ یہاں تمام ٹرین شدہ لیگیچر یا حروف تصویری صورت میں محفوظ ہوتے ہیں اور ان تصاویر کا نام لیگیچر یا ٹرین کردہ الفاظ پر ہی مشتمل ہوتا ہے۔



    میں کمپیوٹر کا ایک بہت ہی عام سا صارف ہوں اور کمپیوٹر سافٹ ویئر اور پروگرامنگ کی پیچدگیوں سے بالکل نابلد ہوں۔ اس لئے مجھے نہیں معلوم کہ لیگیچر کی پیٹرن ٹریننگ گدھا مزدوری کرکے مینوئل کرنا پڑے گی یا یہ کام کسی اطلاقیہ کی مدد سے ہوسکتاہے۔
    اگر کسی طرح سے ".fbt" فائل کو ایڈٹ کیا جاسکے تو کام بہت آسان ہوسکتا ہے۔ ترسیمہ جات کو تصویری صورت میں محفوظ کرکے ان کو اسی لیگیچر کا(الٹا کرکے) نام دے دیا جائے اور پھر اس کو اسی ".fbt" ایکسٹینشن کی فائل میں محفوظ کردیا جائے۔
    میں نے انٹرنیٹ پر کافی کوشش کی ہے کہ کسی طرح سے ".fbt" ایکسٹینشن کی فائل کو ایڈٹ کرنے کی صورت مل جائے تاہم مطلوبہ علم و مہارت نہ رکھنے کی وجہ سے ناکامی ہوئی۔ صرف اتنا معلوم ہوسکا ہے کہ شاید یہ فائل "XML" فارمیٹ میں ہے۔

    اگر کوئی میرے بنائے ہوئے پیٹرن کو استعمال کرنا چاہئے تو وہ ان کو یہاں سے ڈاؤنلوڈ کرکے خود سے استعمال کرکے دیکھ سکتا ہے :
    ہاتھ کی خطاطی والی کتاب کے مقدمہ کی ٹریننگ
    لیگیچرکی ٹریننگ

    ان لیگیچرزکی تصویری فائلز یہاں سے ڈاؤنلوڈ کی جاسکتی ہیں جن کو میں نے ابھی تک ٹرین کیا ہے ۔


     
    • زبردست زبردست × 6
    • پسندیدہ پسندیدہ × 2
  2. arifkarim

    arifkarim معطل

    مراسلے:
    29,828
    جھنڈا:
    Norway
    موڈ:
    Happy
    اردو او سی آر کے حوالہ سے متعدد دھاگے محفل پر پہلے ہی موجود ہیں۔ کافی احباب نے اس فیلڈ میں تھیوریٹکل مقالے لکھے ہیں البتہ اردو نستعلیق جیسے پیچیدہ خط کیلئے قابل استعمال او سی آر بنانا کوئی آسان کام نہیں۔
    سب سے پہلے تو ہمیں اردو متن میں موجود حروف، لگیچر اور الفاظ کی درست سیگمینٹیشن کی ضرورت ہوگی جو خاص طور پر نستعلیق خط کیلئے اوپٹی مائزڈ ہو۔ اسکے بعد انکی ٹریننگ کا آغاز کیا جا سکتا ہے۔
    باقی ایکس ایم ایل کیساتھ چھاڑ سے متعلق کمپیوٹر ویژن و پروگرامر ایکسپرٹ حضرات کی رائے درکار ہوگی کہ اسے کیسے کیا جائے۔ زیک سید ذیشان ابن سعید
     
    • زبردست زبردست × 1
  3. زہیر عبّاس

    زہیر عبّاس محفلین

    مراسلے:
    972
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    جی میرے خیال میں نئے سرے سے او سی آر بنانا شاید کافی مشکل ہو ۔ میں کوئی ٹیکنیکل ماہر تو نہیں ہوں لیکن AbbyyFineReader اردو زبان کو سپورٹ کئے بغیر کافی اچھے نتائج دے رہا ہے۔ یعنی اس کا مطلب یہ ہوسکتا ہے چاہئے کسی اور زبان کو ذہن میں رکھ کر اپنا پروگرام بنایا ہو لیکن یہ اردو کے بھی کافی مسائل حل کرتا نظر آرہا ہے ۔ میری تو صرف اتنی سی عرض ہے کہ اگر ہم اس میں موجود کم از کم تین خامیوں کو کسی طرح سے ٹھیک کرلیں تو یہ اردو کے لئے کام چلاؤ او سی آر بن سکتا ہے ۔
    پہلی خامی تو الفاظ کے مابین اسپیس کو ٹھیک سے شناخت نہ کرنے کی ہے۔
    دوسری خامی ایک جیسے نظر آنے والے ترسیمہ جات کو ٹھیک طرح سے شناخت نہ کرنے کی ہے۔
    تیسری خامی اس کے پیٹرن ایڈیٹر کو مینوئل ٹریننگ کروانے کی ہے
     
    • متفق متفق × 1

اس صفحے کی تشہیر