اردو او سی آر پر کام

arifkarim · مئی 9، 2015

زیک نے کہا:
کمپیوٹر سے جنریٹ کئے گئے الفاظ اور ترسیموں سے لے کر مختلف کتب کے صفحات کے سکین تاکہ بتدریج او سی آر کو آسان سے مشکل کام کرایا جا سکے

شکریہ زیک ۔آپ عموماً بہت مختصر بات کرتے ہیں۔ ہم چاہتے ہیں کہ تھوڑا تفصیل سے لکھیں کہ آپکا او سی آر پلان کیا ہے، تاکہ ہمیں بھی کچھ آئیڈیا ہو کہ آگے کیا کرنا ہے؟ نوری نستعلیق ترسیمہ جات کے امیجزجنریٹ ہو گئے ہیں، الفاظ بھی ہو جائیں گے۔ اسکے بعد کیا پہیا نئے سرے سے ایجاد کرنا ہوگا یا پہلے سے موجود مختلف تکنیکس اور الگوردھمز کو بروئے کار لاتے ہوئے اس ڈیٹا پر او سی آر ٹیسٹ کیا جائے گا؟
آئی ٹی کی فیلڈ میں آنے سے قبل ہم نے کالج سے 3D Model and Design کے کچھ کورس کئے تھے۔ وہاں ہمیں یہ باور کروایا گیا تھا کہ جب تک کسی ماڈل کا اندرونی ڈھانچہ پوری طرح مکمل نہ ہو جائے اس کی دیواروں پر آپ لاکھ ویژل ایفیکٹس ڈال دیں، آپ کی دال نہیں گلے گی۔ مطلب ابھی ہی سے بے تحاشا اسکین ڈیٹا جمع کرنے کی بجائے اگر ہم صرف نوری نستعلیق کی بنیاد یعنی اسکے ترسیمہ جات کو تختہ مشق بنا لیں۔ اور اسوقت تک ان پر تجربات جاری رکھیں جب تک 98-99 فیصد درستگی کیساتھ متن تلاش نہیں ہوجاتا،تو یقیناً یہ ایک بڑی کامیابی ہوگی۔
یہ میں اس لئے کہہ رہا ہوں کیونکہ اب تک جو نوری نستعلیق پر مبنی تجرباتی نوعیت کے او سی آرز منظر عام پر آئے ہیں، ان سب میں بنیادی نقص یہی ہے کہ اسکین شدہ متن تو درکنار، اگر آپ کمپیوٹر جنریٹڈ متن بھی اعلیٰ امیج کوالٹی میں اسکے حوالے کر دیں تو یہ گھٹنے ٹیک دیتے ہیں۔ مطلب ان سب کی ساخت بہت کمزور ہے جسے طاقت ور بنائے بغیر آگے بڑھنا جلد بازی ہوگی اور مستقبل میں ساری محنت کے ضائع ہونے کا اندیشہ بھی ۔

زیک · مئی 9، 2015

arifkarim نے کہا:
جی حیرت ہی ہے کہ اس فارم کے توسط سے ہم ایک دوسرے کو اتنے سالوں سے جانتے ہیں لیکن ہمیں معلوم ہی نہ تھا کہ آپکی فیلڈ کونسی ہے

پرانے محفلین میں شاید آپ واحد ہیں جنہیں علم نہ تھا۔

زیک · مئی 9، 2015

arifkarim نے کہا:
خاکسار درج ذیل کوالٹی کے ترسیمہ جات الگ الگ امیج بمع صوتی نام کے فراہم کر سکتا ہے:

زیک ابن سعید نبیل کیا اتنی امیج کوالٹی کافی ہوگی؟

الف نظامی نے کہا:
سکین امیج کی ریزولوشن کیا ہونی چاہیے۔

300 ڈی پی آئی پر 12 سے 24 پوائنٹ فونٹ سائز ٹھیک رہے گا

زیک · مئی 9، 2015

الف نظامی نے کہا:
نستعلیق متن کی سیگمینٹیشن کیسے کی جاتی ہے۔
لائن سیگمینٹیشن کے لیے
ہسٹو گرام
اور
لیگیچر سیگمینٹیشن کے لیے
Connected Component Labeling Algorithm
استعمال کیا جاتا ہے۔

دیکھیے:صفحہ 39-42

Satti, D.A. Offline Urdu Nastaliq OCR for Printed Text using Analytical Approach, Department of Computer Science Quaid-i-Azam University Islamabad, Pakistan, 2013.

arifkarim نے کہا:
تحقیقی مقالہ شیئر کرنے کا شکریہ! دوست نے ایک دفعہ ملاقات میں بتایا تھا کہ ادارہ CRULP کے ڈاکٹر سرمد حسین صاحب اس سلسلہ میں کافی کام کر چکے ہیں۔ ادارے کی ویب سائٹ سے اس ضمن میں تین تحقیقی مقالوں کے روابط ملے ہیں جہاں مختلف انداز میں متن کے سیگمنٹس بنانے کا طریقہ وضع کیا گیا ہے:
http://www.cle.org.pk/Publication/theses/2010/OCRMUAZ.pdf
http://www.cle.org.pk/Publication/theses/2009/misbahtheses.pdf
http://www.cle.org.pk/Publication/theses/2007/OCRSOBIA.pdf
مزید:
http://www.cle.org.pk/research/theses.htm

دوست نے کہا:
سی ایل ای کا آنلائن او سی آر کافی حد تک مکمل نظام ہے۔ یہاں سے پتا چل رہا ہے کہ پراجیکٹ مکمل کر کے دے دیا گیا ہے 2014 میں۔
اس کا امیج کارپس بھی دستیاب ہے۔ لیکن یہ مفت نہیں ہے۔ نان کمرشل استعمال کے لیے فری کا بیان تو موجوو ہے لیکن پروسینگ فیس کا ذکر بھی ہے۔ اب یہ فیس کتنی ہے آیا پندرہ ہزار (جیسا کہ ہر آئٹم کی قیمت بحوالہ پاکستان 150 ڈالر ہے) یا کتنی؟
اگر یہ امیج ڈیٹا دستیاب ہو جائے تو کسی بھی او سی ار سسٹم کو ٹرین کروانا بہت ہی آسان ہو سکتا ہے۔ میں نے مارچ میں ڈاکٹر سرمد کی ایک پریزنٹیشن میں ان کے مختلف کاموں کے ساتھ اس کا تعارف بھی دیکھا تھا۔ وہ کشتیوں اور نقطوں کو الگ الگ مختلف رنگوں میں رنگتے ہیں اور پھر تیسرے مرحلے میں ہر نقطہ کشتی کے ساتھ ملا کر پروسیس کیا جاتا ہے۔ مجھے یاد پڑ رہا ہے کشتی کا منسلکہ نقطہ بالکل الٹ رنگ میں رنگا ہوا تھا جس کے بعد کمپیوٹر نے ان میں ربط پیدا کرنا تھا۔ یہ میرا خیال ہینڈ ٹیگڈ تصاویر تھیں۔ یعنی ٹریننگ امیج کارپس۔
اگر ایک ورک فلو بن جائے تو اس کے لیے ٹریننگ ڈیٹا کی فراہمی ہم ان ترسیموں سے کر لیں۔ یا پھر سی ایل ای سے بات کر لی جائے؟ اگر یہ ٹریننگ ڈیٹا یہ لینا ہے تو چندہ کر کے بھی لیا جا سکتا ہے۔ کیا خیال ہے آ پ کا؟
یہاں میں ذکر کرتا چلوں کہ میری یونیورسٹی (جامعہ گجرات) اور سی ایل ای کی یونیورسٹی (یو ای ٹی لاہور) میں ایک ایم او یو سائن ہو رہا ہے (یا ہو چکا ہے) جس کے ذریعے دونوں ادارے مرکز السنہ و علوم ترجمہ اور مرکز تحقیقات لسانیات مل کر کچھ منصوبوں پر کام کا ارادہ رکھتے ہیں۔ لیکن میرے خیال میں یہ کام شاید مشینی ترجمہ کے ذیل میں ہو گا زیادہ تر۔ خیر جو بھی ہوا وہ تو ادارہ جاتی سطح کا معاملہ ہے۔ یہاںمیں نے ذاتی حیثیت میں ٹریننگ ڈیٹا کے حوالے سے تجویز پیش کی ہے۔ چونکہ اردو او سی آر جو آزاد اور مفت ہو آج کی سب سے بڑی ضرورت ہے۔ اداروں کو تو کہیں نا کہیں سے کچھ مل ہی جاتا ہے لیکن صارفین بہت عرصے تک منتظر رہتے ہیں۔ اب شاید وقت آ گیا ہے کہ سنجیدگی سے ایک عام صارف کے کمپیوٹر پر اردو او سی آر مہیا کرنے پر کام کیا جائے۔

لٹریچر سروے کی بھی ضرورت ہے کہ کونسے نستعلیق اور نسخ او سی آر سسٹم دستیاب ہیں اور کیسے اور کتنا کام کرتے ہیں۔ کیا تکنیک استعمال کی گئی ہے اور کیسے ڈیٹا سیٹ حاصل کئے جا سکتے ہیں۔

زیک · مئی 9، 2015

دوست نے کہا:
اس کا امیج کارپس بھی دستیاب ہے۔ لیکن یہ مفت نہیں ہے۔ نان کمرشل استعمال کے لیے فری کا بیان تو موجوو ہے لیکن پروسینگ فیس کا ذکر بھی ہے۔ اب یہ فیس کتنی ہے آیا پندرہ ہزار (جیسا کہ ہر آئٹم کی قیمت بحوالہ پاکستان 150 ڈالر ہے) یا کتنی؟

ان کا ڈیٹا سیٹ استعمال کرنے سے کئی آسانیاں ہوں گی مگر ایک سیٹ 250 ڈالر کا ہے۔ یہ زیادہ نہیں مگر اگر کئی سیٹ (مثلا مختلف فونٹ سائز) لینے ہوں تو قیمت کافی بڑھ جاتی ہے۔

زیک · مئی 9، 2015

arifkarim نے کہا:
شاکر، میں نے اس او سی آر پر ہر ممکن سافٹوئیر سے نوری نستعلیق متن میں صفحہ اسکین کر کے اپلوڈ کیا ہے، یہاں تک کے خود ٹائپ کر کے اسکا امیج بنا کر بھی ٹرائی کیا ہے پر یہ ہر بار فیل ہوجاتا ہے۔ درج ذیل تصویر عام کورل ڈرا میں لکھا گیا متن ہے۔ اگر یہ اسکو بھی پڑھ نہیں سکتا تو اسکا کیا فائدہ؟

یہ کونسا فونٹ ہے؟ فونٹ سائز کیا ہے؟ کیا آپ نے او سی آر پیج پر صحیح فونت سائز منتخب کیا تھا؟

زیک · مئی 9، 2015

arifkarim نے کہا:
خاکسار درج ذیل کوالٹی کے ترسیمہ جات الگ الگ امیج بمع صوتی نام کے فراہم کر سکتا ہے:

زیک ابن سعید نبیل کیا اتنی امیج کوالٹی کافی ہوگی؟

کل ترسیمے کتنے ہیں؟ کیا ان کی اہمیت اور frequency کے حساب سے کوئی فہرست دستیاب ہے CLE کے علاوہ؟

زیک · مئی 9، 2015

CLE کے کچھ پیپر اور تھیسس جو او سی آر پر ہیں:

مجھے ابھی ان میں سے کوئی بھی پڑھنے کا موقع نہیں ملا مگر ارادہ ہے کہ اگلے ہفتے میں پڑھ کر تبصرہ کروں۔

arifkarim · مئی 10، 2015

زیک نے کہا:
یہ کونسا فونٹ ہے؟ فونٹ سائز کیا ہے؟ کیا آپ نے او سی آر پیج پر صحیح فونت سائز منتخب کیا تھا؟

فونٹ: جمیل نوری نستعلیق
فونٹ سائز: 36
گو کہ اس سے کم سائز پر بھی مختلف سطور لکھ کر اسکی امیج بنا کر اپلوڈ کیا تھا پر نتیجہ وہی صفر۔

زیک نے کہا:
کل ترسیمے کتنے ہیں؟ کیا ان کی اہمیت اور frequency کے حساب سے کوئی فہرست دستیاب ہے CLE کے علاوہ؟

کل ترسیمے 25000 کے قریب ہیں۔ جمیل نوری نستعلیق اور انپیج کے نوری نستعلیق میں یہی ترسیمے استعمال ہوئے ہیں اور انکی بدولت آپ 99 فیصد اردو زبان کے الفاظ تحریر کر سکتے ہیں۔ مطلب ایک قابل استعمال او سی آر تخلیق کرنے کیلئے ان سب کا بصری ڈیٹا شامل کرنا ضروری ہے۔ کرلپ والوں نے محض 5000 ترسیموں کا انتخاب کیا ہے کہ جو عام اردو تحاریر کیلئے ناکافی ہے۔ انکے مطابق اردو زبان میں ایک، ڈیڑھ لاکھ کے لگ بھگ الفاظ ہیں جو کہ سراسر غلط ہے۔
ہمار ے ایک عزیز دوست اور محفلین نعیم سعید صاحب نے مختلف اردو لغات سے منفرد الفاظ کا ذخیرہ جمع کرنا شروع کیا ہوا ہے تاکہ انکی بنیاد پر وہ ترسیمے جو انپیج اور جمیل نوری نستعلیق میں موجود نہیں کی تخلیق کی جا سکے تاکہ 99،9 فیصد اردو تحاریر ترسیموں ہی سے لکھی جا سکے۔ انکے مطابق اردو زبان میں الفاظ کی کُل تعداد کم و بیش 3 لاکھ ہے۔ ایسے میں 5000 کثیرالاستعمال ترسیموں کا ڈیٹا تجرباتی طور پر تو استعمال کیا جا سکتا ہے پر مستقل بنیادوں پر اسے کافی سمجھنا درست نہیں ہوگا۔ میرے خیال میں اگر ہم انپیج کے نستعلیق فانٹ اور جمیل نوری نستعلیق کے تمام ترسیموں کو بنیاد بنا لیں تو 99 فیصد اردو الفاظ کا احاطہ ہو جائے گا۔ بجائے اسکے کہ ہم پہلے محض 5000 ترسیمے استعمال کریں اور بعد میں انکی کمی کو محسوس کرتے ہوئے آہستہ آہستہ انکی تعداد کو بڑھائیں۔ یوں وقت کا ضیاع بھی کم ہوگا اور بنیادی کام زیادہ بہتر ہو سکے گا۔

arifkarim · مئی 11، 2015

زیک نے کہا:
300 ڈی پی آئی پر 12 سے 24 پوائنٹ فونٹ سائز ٹھیک رہے گا

زیک یہ 24 پوائنٹ پر 300 ڈی پی آئی کی کوالٹی میں جمیل نوری نستعلیق کے 23471 ترسیموں کے امیجز بمع انکے صوتی ناموں کے چیک کر لیں:
http://arifkarim.no/Public/Urdu/Ocr/Jameel_Noori_Nastaleeq_300DPI_24Pt.rar
چند مثالی نمونے:

اگر یہ ترسیمے کسی اور سائز و ریزولوشن میں درکار ہوں تو حکم کریں

زیک · مئی 11، 2015

نمرہ نے کہا:
مجھے بنیادی طور پر ایک paper worthy مسئلے کی ضرورت ہے، تو شاید میں اس او سی آر پر کام کرنے کے لیے دستیاب ہوں۔ فانٹس وغیرہ کا کوئی آئیڈیا نہیں البتہ امیج پروسیسنگ میں کام کیا ہوا ہے میں نے اور اوپن سی وی کا بھی تجربہ ہے۔

کیا آپ لٹریچر سروے کا آغاز کر سکتی ہیں۔ اگر ڈھونڈ سکیں تو اردو، عربی، فارسی کے او سی آر پر کی گئی تحقیق کے متعلق معلومات اکٹھی کر کے شیئر کریں۔

ابن سعید · مئی 11، 2015

ہم نے اس کام کے لیے ایک عدد گٹ ہب ریپوزیٹری ترتیب دی ہے، لہٰذا فائلیں یہاں وہاں بکھیرنے کے بجائے متعلقہ ریپوزیٹری میں پش کر دیں۔ جو لوگ ریپوزیٹری میں رائٹ ایکسس چاہتے ہیں وہ اپنا گٹ ہب اکاؤنٹ بتا دیں۔

ابن سعید · مئی 11، 2015

پیپر سروے کا کام ہم بھی کیے لیتے ہیں۔ پہلے کسی حد تک کام ہو جائے تو ٹیک رپورٹ اور بعد میں باقاعدہ پیپر بھی لکھ لیں گے۔

arifkarim · مئی 11، 2015

ابن سعید نے کہا:
ہم نے اس کام کے لیے ایک عدد گٹ ہب ریپوزیٹری ترتیب دی ہے، لہٰذا فائلیں یہاں وہاں بکھیرنے کے بجائے متعلقہ ریپوزیٹری میں پش کر دیں۔ جو لوگ ریپوزیٹری میں رائٹ ایکسس چاہتے ہیں وہ اپنا گٹ ہب اکاؤنٹ بتا دیں۔

زیک اوپر ترسیموں والا لنک گیٹ ہب پہ ڈال دیا ہے۔ اگر کوئی رد و بدل کرنی ہو تو وہاں جا کر کر سکتے ہیں:
https://github.com/urduweb/UrduOCR/tree/master/Font/Jameel Noori Nastaleeq/Ligatures

arifkarim · مئی 11، 2015

زیک ویسے تو آپ کمپیوٹر ویژن پر اتھارٹی رکھتے ہیں البتہ نیٹ گردی کے دوران کچھ ویب سائٹس پر امیج ویژن ایکسپرٹس ، ٹیکسٹ شیپس کی سیگمنٹ بنانے کیلئے convex hull ٹیکنیک استعمال کرنے کا مشورہ دیتے ہیں:

یہ وہی ٹیکنیک ہے جسے ابن سعید بھائی نے نستعلیق ترسیمہ جات کی کرننگ تلاش کرنے کیلئے موزوں قرار دیا تھا۔ اسے عملی طور پر ٹیسٹ کرنے کیلئے ہم نے Matlab میں ایک آزمائشی خاکہ بھی بنایا تھا:

چونکہ ہم اس فیلڈ میں بالکل اناڑی ہیں اسلئے اس سے آگے مزید کچھ کہہ نہیں سکتے کہ کیا بہتر ہے اور کیا نہیں

نمرہ · مئی 11، 2015

زیک نے کہا:
کیا آپ لٹریچر سروے کا آغاز کر سکتی ہیں۔ اگر ڈھونڈ سکیں تو اردو، عربی، فارسی کے او سی آر پر کی گئی تحقیق کے متعلق معلومات اکٹھی کر کے شیئر کریں۔

ٹھیک ہے۔

زیک · مئی 11، 2015

arifkarim نے کہا:
زیک ویسے تو آپ کمپیوٹر ویژن پر اتھارٹی رکھتے ہیں البتہ نیٹ گردی کے دوران کچھ ویب سائٹس پر امیج ویژن ایکسپرٹس ، ٹیکسٹ شیپس کی سیگمنٹ بنانے کیلئے convex hull ٹیکنیک استعمال کرنے کا مشورہ دیتے ہیں:

یہ وہی ٹیکنیک ہے جسے ابن سعید بھائی نے نستعلیق ترسیمہ جات کی کرننگ تلاش کرنے کیلئے موزوں قرار دیا تھا۔ اسے عملی طور پر ٹیسٹ کرنے کیلئے ہم نے Matlab میں ایک آزمائشی خاکہ بھی بنایا تھا:

چونکہ ہم اس فیلڈ میں بالکل اناڑی ہیں اسلئے اس سے آگے مزید کچھ کہہ نہیں سکتے کہ کیا بہتر ہے اور کیا نہیں

Convex hull اردو کی سطر سے ترسیموں کو الگ الگ کرنے میں بذات خود صحیح کام نہیں کرے گا۔

arifkarim · مئی 12، 2015

زیک نے کہا:
Convex hull اردو کی سطر سے ترسیموں کو الگ الگ کرنے میں بذات خود صحیح کام نہیں کرے گا۔

کنفرم کرنے کا شکریہ زیک دراصل نستعلیق او سی آر پر متعدد اعلیٰ کوالٹی کے مقالے لکھے جا چکے ہیں پر ان میں موجود ریسرچ کو مستقل عملی بنیادوں پر ایک کامیاب سافٹوئیر کی شکل میں ابھی تک ڈھالا ہی نہیں گیا ہے۔ مجھے نہیں معلوم کہ آیا یہ اسکام کی عملی پیچیدگیوں کی وجہ سے ہوا ہے یا شاید اس قسم کے سافٹوئیرز کی مارکیٹ میں مانگ بہت کم ہےاور قیمت بے حد زیادہ۔ بہرحال، کم از کم عربی ، فارسی، اردو رسم الخط (نسخ) کیلئے کئی پروگرامز موجود ہیں جن میں سے یہ 'Sakhar' سافٹوئیر سر فہرست ہے:

اس کمپنی کا دعویٰ ہے کہ انکا ٹول 99 فیصد عربی -فارسی-اردو نسخ ٹیکسٹ کو تلاش کر سکتا ہے۔ اثبوت کیلئے انہوں نے بہت سے بڑےبین الاقوامی اداروں کو اپنا خریدار بتایا ہے۔
اسکے علاوہ ScanStore کا Readiris ہے۔ یہ عربی اسمیت 130 زبانوں کو اسپورٹ کرتا ہے۔ یہ نہیں معلوم ہو سکا کہ اسکی متن تلاش کرنے کی صلاحیت کیسی ہے؟

اسی کمپنی کا ایک اور تیار کردہ او سی آر Abby FineReader ہے جو کہ Readiris کے مقابلہ میں کمزور لگ رہا ہے:

انکے علاوہ بھی ایک سافٹوئیر ہے Verus کے نام سے جو پہلے صرف حکومتی ایجنسیز کے پاس ہوتا تھا۔ اسمیں بھی عربی-فارسی-اردو نسخ کی اسپورٹ شامل ہے۔ اسکے خالقین کا دعویٰ ہے کہ یہ خراب اور کمزور کوالٹی کی دستاویزات میں سے بھی realtime میں متن تلاش کر سکتا ہے:

موجو · مئی 12، 2015

مجھے اس کام کا کچھ پتہ نہیں ہے مگر سیکھنے کی بہت دلچسپی ہے ۔ کوئی ٹاسک دیا گیا تو ضرور کروں گا

الف نظامی · مئی 13، 2015

او سی آر پراسیس

1- پری پراسیسنگ
- سکین امیج بائینرائیزیشن
- نوائز ریموول
- سموتھنگ
- ڈی سکیوئنگ
- سیکنڈری کمپوننٹس ایکسٹریکشن

Secondary components include diacritic marks, dots and other components which are not part of the primary strokes of the text.

- بیس لاین ڈیٹیکشن
- تھننگ یا سکیلیٹونائزیشن

2- سیگمینٹیشن

3- فیچر ایکسٹریکشن
feature extraction

4- کلاسیفیکیشین اینڈ ریکاگنیشن
Classification & Recognition

مزید تفصیل؛ دیکھیے:صفحہ 10-18

Satti, D.A. Offline Urdu Nastaliq OCR for Printed Text using Analytical Approach, Department of Computer Science Quaid-i-Azam University Islamabad, Pakistan, 2013

اردو او سی آر پر کام

معطل

ایکاروس

ایکاروس

ایکاروس

ایکاروس

ایکاروس

ایکاروس

ایکاروس

معطل

معطل

ایکاروس

خادم

خادم

معطل

معطل

محفلین

ایکاروس

معطل

لائبریرین

لائبریرین