گوگل کی جانب سے اردو سمیت 200 سے زائد زبانوں میں او سی آر یعنی آپٹیکل کیریکٹر ریکگنیشن کا اعلان

آج گوگل کے ریسرچ بلاگ پر "پیپر ٹو ڈیجیٹل ان 200+ لینگوئیجیز" کے عنوان سے بڑے پیمانے پر گوگل ڈرائیو میں بے شمار زبانوں میں او سی آر یعنی آپٹیکیل کیریکٹر ریکگنیشن کا اعلان کیا گیا۔ اس تکنیک کی مدد سے تصویری عبارتوں مثلاً اسکین کردہ مواد کو متن کی صورت میں تبدیل کرنا ممکن ہو جاتا ہے۔ اس مقصد کے لیے گوگل نے آرٹیفیشئیل انٹیلیجینس کی ایک مشہور تکنیک ایچ ایم ایم یا ہیڈین مارکوو موڈل کا استعمال کیا جس میں متن کو چھوٹے چھوٹے ٹکڑوں میں توڑ کر سمجھنے کے بجائے شکلوں کا پورا سلسلہ ایک ساتھ سمجھنے کی کوشش کی جاتی ہے جس کے لیے کافی ٹریننگ ڈیٹا کی ضرورت ہوتی ہے۔ خوش کن بات یہ ہے کہ ان سوا دو سو زبانوں کی فہرست میں اردو بھی موجود ہے۔ افسوسناک بات یہ ہے کہ ہمارے تجربے میں بہت ہی حوصلہ شکن نتائج سامنے آئے ہیں۔ ہم نے سب سے پہلے نور اللغات سے ایک زردی مائل صفحے کا انتخاب کیا جو کہ دو کالمی لے آؤٹ پر مبنی تھا، گو کہ صفحے پر اچھا خاصہ متن موجود تھا، لیکن او سی آر انجن سے فقط ایک لفظ "العتاب" جو کہ اس صفحے پر کہیں بھی موجود نہیں۔ اس کے بعد ہم نے اردو ویب ڈیجیٹل لائبریری کے لیے اسکین کیے گئے نسبتاً زیادہ واضح لکھے ہوئے سفید کاغذ والے صفحے کو او سی آر انجن کی نذر کیا تو نتیجے میں صفر متن حاصل ہوا۔ پھر ہم نے محفل میں موجود اپنی ایک بے پر کی کو جمیل نوری نستعلیق اور ایریل خطوط میں منتقل کر کے پی ڈی ایف فائل بنا کر پراسیس کرنے کی کوشش کی جس کے نتیجے میں نستعلیق کے جواب میں بے حد لا یعنی متن حاصل ہوا جبکہ نسخ خط میں صورتحال بہتر تھی، البتہ تمام حروف الٹے رخ پر حاصل ہوئے تھے، مثلاً "کھانا" الٹ کر "اناھک" بن گیا تھا، وضح رہے کہ نسخ میں الٹی ترتیب کے ساتھ بھی نتائج صد فیصد درست نہ تھے۔ نستعلیق اور نسخ میں کچھ ایسی ہی صورتحال محفل میں پوسٹ کردہ ہمارے ایک خط کی بھی ہوئی جس میں بے پر کی کی نسبت زیادہ متن موجود تھا۔ بعد ازاں ہم نے بڑے فونٹ سائز کے ساتھ مختصر متن "سعود عالم ابن سعید" پر نسخ اور نستعلیق میں تجربے کیے اور نتیجہ ویسا ہی ملا یعنی نسخ میں درست مگر الٹے رخ پر جبکہ نستعلیق میں لا یعنی الفاظ۔ ہمارے تجربات کی فائلیں اس ربط پر ملاحظہ فرمائی جا سکتی ہیں۔ ہر انپٹ فائل کے مقابل ایک فائل اسی نام سے مگر "OCR-" کے سابقے کے ساتھ موجود ملے گی جس میں اصلی تصویری متج کے بعد اس کا ما حصل موجود ہوگا۔ :) :) :)

اس سہولت کا استعمال کرنے کے لیے کسی تصویر یا پی ڈی ایف فال ہو گوگل ڈرائیو میں اپلوڈ نے کے بعد متعلقہ فائل پر رائٹ کلک کر کے "اوپن ود" > "گوگل ڈاکس" کو منتخب کریں۔ تھوڑے وقفے کے بعد تصویر ایک علیحدہ فائل میں شامل ہو جائے گی اور اس کے نیچے ما حصل متن موجود ہوگا۔ :) :) :)

گوگول کے او سی آر انجن میں زبان کی تخصیص ضروری نہیں کیونکہ زبان کی خود کار شناخت انجن کے خواص میں شامل ہے۔ اس لحاض سے دیکھ جائے تو دائیں سے بائیں رخ پر لکھی جانے والی زبانوں میں حروف کی الٹی ترتیب عارضی مسئلہ ہے جو کہ معمولی سی کوشش کے بعد درست کیا جا سکتا ہے اور امید ہے کہ مستقبل قریب میں یہ مسئلہ حل کر دیا جائے گا۔ البتہ نستعلیق خط کی شناخت درست نہ ہونا زیادہ افسوسناک امر ہے کیونکہ اس کے بغیر ہم پرانی کتابوں کے اسکین کو ڈیجیٹائز کرنے میں کوئی مدد حاصل نہیں کر سکتے۔ گوگل نے اپنے بلاگ میں لکھا ہے کہ عمومی طور پر استعمال ہونے والے خط میں اچھی ریزیولیوشن کی صاف ستھری تصاویر کے نتائج بہتر آتے ہیں۔ گو کہ کتابی اردو نستعلیق خط میں ہی عام ہے لیکن اب بھی ڈیجیٹل اردو عموماً نسخ میں دیکھنے کو ملتی ہے، غالبا یہی وجہ ہے کہ نستعلیق کے نتائج ابھی اس او سی آر میں بہت حوصلہ افزا نہیں ہیں۔ گوگل نے یہ بھی لکھا ہے کہ وہ خراب معیار کی اسکین اور مشکل تحریری خاکوں پر کام کر رہے ہیں۔ :) :) :)
 

arifkarim

معطل
زبردست! ابن سعید آپکا فراہم کر دہ گوگل ڈرائیو کا لنک کام نہیں کر رہا۔
میرے خیال میں یہ او سی آر دیوناگری،لاطینی، عبرانی اور دیگر بغیر جوڑ کی لکھائی پر مبنی زبانوں کیلئے زیادہ کار آمد رہے گا۔ جہاں تک عربی طرز کی زبانوں کا سوال ہے تو یہاں نسخ، نستعلیق اور دیگر کمپلکس اسٹائلز کی وجہ سے مشکلات کا سامنا ہو سکتا ہے۔ 80 کی دہائی کے بعد سے لیکر آج تک تقریباً تمام اردو مواد نوری نستعلیق میں شائع ہو رہا ہے۔ اور اس خط کے اگر محض 25000 ترسیموں کی ٹریننگ کروادی جائے تو ہمارے خیال میں 99 فیصد متن کو ٹیکسٹ میں کنورٹ کرنا ممکن ہونا چاہئے۔ مطلب لفظ با لفظ کی بجائے ترسیمہ در ترسیمہ ٹریننگ کروانی چاہئے۔ اس ضمن میں گوگل والوں سے رابطہ کیا جا سکتا ہے۔
 
ہم نے ربط درست کر دیا ہے۔ :) :) :)

ترسیموں کی بنیاد پر اردو او سی آر کا تجربہ نیا نہیں ہے، اس پر بھی کافی لوگوں نے کوشش کی ہے۔ کرننگ کی وجہ سے ترسیموں کو علیحدہ کرنا بھی ایک بڑا مسئلہ ہوتا ہے ورنہ ترسیموں کی ٹریننگ کوئی بڑا مسئلہ نہیں۔ ترسیموں کی تختی کو علیحدہ کرنا اور بعد میں ان سے متعلقہ نقطوں کو ساتھ لے کر لغات اور این گرامز کی مدد سے کام کرنے پر بہتر نتائج آنے کی امید ہے لیکن ہمارا خیال ہے کہ گوگل کسی ایک زبان میں اضافی توانائی صرف کرنے کے بجائے ایسے طریقوں پر زیاہ توجہ دے گا جس میں درستگی کم سہی پر زیادہ زبانوں کو سمیٹا جا سکے، خاص کر تب جب وہ زبان ان کی ترجیحات میں صف اول میں نا شمار ہوتی ہو۔ :) :) :)
 

arifkarim

معطل
ترسیموں کی بنیاد پر اردو او سی آر کا تجربہ نیا نہیں ہے، اس پر بھی کافی لوگوں نے کوشش کی ہے۔ کرننگ کی وجہ سے ترسیموں کو علیحدہ کرنا بھی ایک بڑا مسئلہ ہوتا ہے ورنہ ترسیموں کی ٹریننگ کوئی بڑا مسئلہ نہیں۔
کیا ان میں Rectangle Box کی بجائے Parallelogram بطور سرچنگ باکس اپنانے کی کوشش کی گئی ہے؟ چونکہ نستعلیق ایک ترچھا خط ہے یوں روایتی ڈبہ سرچ ایریا کے طور پر کام نہیں کریگا :)
 

زیک

مسافر
نستعلیق کے لئے اردو والوں کو ہی او سی آر بنانا پڑے گا۔

بہرحال گوگل کا یہ اقدام بہت اچھا ہے اور امید ہے کہ وقت کے ساتھ ساتھ اس کے نتائج رومن حروف کے علاوہ بھی بہتر ہوں گے۔

عربی، فارسی، پشتو اور دوسری دائیں سے بائیں زبانوں جیسے عبرانی کو چیک کرنا چاہیئے کہ ان کے نتائج کیسے ہیں۔
 
کیا ان میں Rectangle Box کی بجائے Parallelogram بطور سرچنگ باکس اپنانے کی کوشش کی گئی ہے؟ چونکہ نستعلیق ایک ترچھا خط ہے یوں روایتی ڈبہ سرچ ایریا کے طور پر کام نہیں کریگا :)
بات صرف ترچھے پن کی نہیں، وہ تو تھوڑا سا شئیر فورس لگا کر مستطیل باکس میں لایا جا سکتا ہے، مسئلہ یہ ہے کہ نستعلیق خطوط کرننگ کی وجہ سے ایک دوسرے پر کچھ زیادہ ہی سوار ہوتے ہیں۔ :) :) :)
جو رسم الخط مستطیل ڈبوں میں قید ہو پاتے ہیں ان کو ڈبوں میں بند کرنے کے لیے فقط عمودی اور افقی کلر ہسٹوگرام تیار کرنا کافی ہوتا ہے۔ :) :) :)
 

سید عاطف علی

لائبریرین
نستعلیق کے لئے اردو والوں کو ہی او سی آر بنانا پڑے گا۔
بہرحال گوگل کا یہ اقدام بہت اچھا ہے اور امید ہے کہ وقت کے ساتھ ساتھ اس کے نتائج رومن حروف کے علاوہ بھی بہتر ہوں گے۔
عربی، فارسی، پشتو اور دوسری دائیں سے بائیں زبانوں جیسے عبرانی کو چیک کرنا چاہیئے کہ ان کے نتائج کیسے ہیں۔
کیا عبرانی دائیں سے بائیں لکھی جاتی ہے ؟ اردو عربی کی طرح ؟
 

arifkarim

معطل
عربی، فارسی، پشتو اور دوسری دائیں سے بائیں زبانوں جیسے عبرانی کو چیک کرنا چاہیئے کہ ان کے نتائج کیسے ہیں۔

عربی طرز کی زبانیں سوائے اردو کے زیادہ تر نسخ ہی میں لکھی جاتی ہیں تو انکا نتیجہ تسلی بخش ہونا چاہئے کیونکہ نسخ میں بہرحال کرننگ کی بلا سوار نہیں ہوتی۔
باقی رہ گئی عبرانی تو یہ اب آرامی خط میں لکھی جاتی ہے جسکو ریگانائز کرنا لاطینی زبانوں جیسا ہی ہے۔
DI_Express_6_Hebrew_Text_OCR.png

کیا عبرانی دائیں سے بائیں لکھی جاتی ہے ؟ اردو عربی کی طرح ؟
جی یہ زبان عربی کی طرح دائیں سے بائیں طرف لکھی جاتی ہے۔ البتہ خط عربی نہیں آرامی ہے:
hebrewc.gif
 

سید عاطف علی

لائبریرین
عربی طرز کی زبانیں سوائے اردو کے زیادہ تر نسخ ہی میں لکھی جاتی ہیں تو انکا نتیجہ تسلی بخش ہونا چاہئے کیونکہ نسخ میں بہرحال کرننگ کی بلا سوار نہیں ہوتی۔
باقی رہ گئی عبرانی تو یہ اب آرامی خط میں لکھی جاتی ہے جسکو ریگانائز کرنا لاطینی زبانوں جیسا ہی ہے۔
DI_Express_6_Hebrew_Text_OCR.png


جی یہ زبان عربی کی طرح دائیں سے بائیں طرف لکھی جاتی ہے۔ البتہ خط عربی نہیں آرامی ہے:
hebrewc.gif
واہ ۔مگر میم کا دو مرتبہ ہونا سمجھ نہیں آیا ۔ نون میں تو شاید غنہ وغیرہ کا کوئی ویرئیشن ممکن ہو ۔
 

زیک

مسافر
عربی طرز کی زبانیں سوائے اردو کے زیادہ تر نسخ ہی میں لکھی جاتی ہیں تو انکا نتیجہ تسلی بخش ہونا چاہئے کیونکہ نسخ میں بہرحال کرننگ کی بلا سوار نہیں ہوتی۔
باقی رہ گئی عبرانی تو یہ اب آرامی خط میں لکھی جاتی ہے جسکو ریگانائز کرنا لاطینی زبانوں جیسا ہی ہے۔
DI_Express_6_Hebrew_Text_OCR.png


جی یہ زبان عربی کی طرح دائیں سے بائیں طرف لکھی جاتی ہے۔ البتہ خط عربی نہیں آرامی ہے:
hebrewc.gif
چونکہ ابن سعید نے دائیں سے بائیں کے مسائل کا ذکر کیا تھا اس کے لئے عبرانی چیک کرنے سے بہتر اندازہ ہو سکتا ہے کہ کتنی سپورٹ ہے
 

زیک

مسافر
بات صرف ترچھے پن کی نہیں، وہ تو تھوڑا سا شئیر فورس لگا کر مستطیل باکس میں لایا جا سکتا ہے، مسئلہ یہ ہے کہ نستعلیق خطوط کرننگ کی وجہ سے ایک دوسرے پر کچھ زیادہ ہی سوار ہوتے ہیں۔ :) :) :)
جو رسم الخط مستطیل ڈبوں میں قید ہو پاتے ہیں ان کو ڈبوں میں بند کرنے کے لیے فقط عمودی اور افقی کلر ہسٹوگرام تیار کرنا کافی ہوتا ہے۔ :) :) :)
ترسیمہ میں تمام حروف جڑے ہوتے ہیں اس بات کو استعمال کر کے ترسیمے الگ کئے جا سکتے ہیں۔ اگلا مرحلہ نقاط کا ہو گا
 

نبیل

تکنیکی معاون
میرے ذہن میں کافی عرصے سے ٹیسریکٹ کو نوری نستعلیق کے ترسیمہ جات کے لیے ٹرین کرنے کا آئیڈیا موجود ہے۔ یہ شاید کسی حد تک ممکن بھی ہوگا لیکن میری دانست میں تصویری متن میں سے تحریر اخذ کرنے میں بڑا چیلنج متن میں سے سطور اور اس کے بعد الفاظ اور اور کے بعد ترسیمہ جات کو علیحدہ کرنا ہوگا۔ اس کی وجہ یہ ہے کہ کچھ حروف میں کشش کی وجہ سے الفاظ اور سطور اوور لیپ کرتے ہیں اور سادہ مستطیل کے ذریعے انہیں آئسولیٹ نہیں کیا جا سکتا۔ اس مقصد کے لیے امیج پراسیسنگ کی سپیشلائزیشن درکار ہے۔ زیک اس بارے میں بہتر معلومات فراہم کر سکتے ہیں۔
 

زیک

مسافر
میرے ذہن میں کافی عرصے سے ٹیسریکٹ کو نوری نستعلیق کے ترسیمہ جات کے لیے ٹرین کرنے کا آئیڈیا موجود ہے۔ یہ شاید کسی حد تک ممکن بھی ہوگا لیکن میری دانست میں تصویری متن میں سے تحریر اخذ کرنے میں بڑا چیلنج متن میں سے سطور اور اس کے بعد الفاظ اور اور کے بعد ترسیمہ جات کو علیحدہ کرنا ہوگا۔ اس کی وجہ یہ ہے کہ کچھ حروف میں کشش کی وجہ سے الفاظ اور سطور اوور لیپ کرتے ہیں اور سادہ مستطیل کے ذریعے انہیں آئسولیٹ نہیں کیا جا سکتا۔ اس مقصد کے لیے امیج پراسیسنگ کی سپیشلائزیشن درکار ہے۔ زیک اس بارے میں بہتر معلومات فراہم کر سکتے ہیں۔
کچھ عرصہ سے سوچ رہا ہوں کہ اردو او سی آر، سپیچ ریکگنشن اور ٹیکسٹ ٹو سپیچ پر کچھ کام کیا جائے۔ کچھ آئیڈیاز بھی ذہن میں ہیں۔

ان میں سے او سی آر کے لئے ڈیٹا سب سے آسان ہے۔ لہذا اس سے آغاز کیا جا سکتا ہے۔

اس بارے میں جو لوگ باقاعدہ کام بٹانا چاہیں ان سے مکالمے میں ڈسکشن کر لیتے ہیں۔
 
درخواست فقط! مقصد یہ تھا کہ ذاتی مکالمے کی دعوت دینے سے قبل اگر لوگوں کو کام کی نوعیت کا علم نہ ہو تو کچھ ایسے لوگ رہ جائیں گے جو کسی کام کا ذمہ اٹھا سکتے ہیں اور کچھ ایسے احباب شامل ہو جائیں گے جو اپنی شمولیت پر بعد میں خود کو کوسیں گے، گو کہ فالس پازیٹیو سے زیادہ مسئلہ نہیں پر فالس نیگیٹیو اس صورت میں نقصان دہ ہوگا۔ پھر تھوڑی بہت گفتگو عمومی فورم میں کرنے سے نئے چہرے بھی منصوبے کا حصہ بن سکتے ہیں، جو کہ ابھی اردو محفل سے آشنا نہیں لیکن اپنے تئیں ایسی کوششیں کر رہے ہیں۔ :) :) :)
 

زیک

مسافر
شاکر، میں نے اس او سی آر پر ہر ممکن سافٹوئیر سے نوری نستعلیق متن میں صفحہ اسکین کر کے اپلوڈ کیا ہے، یہاں تک کے خود ٹائپ کر کے اسکا امیج بنا کر بھی ٹرائی کیا ہے پر یہ ہر بار فیل ہوجاتا ہے۔ درج ذیل تصویر عام کورل ڈرا میں لکھا گیا متن ہے۔ اگر یہ اسکو بھی پڑھ نہیں سکتا تو اسکا کیا فائدہ؟
ocr.jpg
اس امیج کو گوگل ڈرائیو میں چیک کیا مگر کوئی نتیجہ نہیں نکلا۔

یہ امیج بھی ٹرائی کیا مگر بے سود۔
 
مدیر کی آخری تدوین:
Top