اردو او سی آر پر کام

زیک

مسافر
میرا فیلڈ کمپیوٹر وژن ہے۔ اس لحاظ سے امیج پراسسنگ وغیرہ پر کافی کام کیا ہے۔ عرصہ سے اردو او سی آر پر کام کرنے کے بارے میں سوچ رہا تھا۔

نستعلیق اردو او سی آر نسخ سے کافی مشکل ہے۔ اس کے لئے اگر ہم کوئی او سی آر انجن بھی استعمال کریں تو کافی پری پراسسنگ کی ضرورت ہو گی۔

اس کام کے لئے رضاکاروں کی ضرورت ہے۔ ایسے لوگ جو وقت دیے سکیں اور پراجیکٹ کے کسی حصے کے متعلق خاطر خواہ علم رکھتے ہیں۔

پہلی چیز اچھی کوالٹی کا نستعلیق سکین ڈیٹا اکٹھا کرنا ہے۔ ترسیمے کی زیادہ سے زیادہ مثالیں بھی ضروری ہیں۔

اس کے علاوہ امیج پراسسنگ، او سی آر انجن جیسے ٹیسیریکٹ وغیرہ میں مہارت بھی کام آ سکتی ہے۔

اگر آپ کے خیال میں آپ اس پراجیکٹ میں مددگار ثابت ہو سکتے ہیں تو یہاں اپنے خیالات کا اظہار کریں کہ آپ کیا ذمہ داریاں اٹھائیں گے۔
 
ہمارا خیال ہے کہ ہم ابتدا میں ٹریننگ کے لیے علیحدہ علیحدہ ترسیموں بلکہ کشتیوں اور نقاط وغیرہ کو استعمال کر سکتے ہیں۔ اور یہ آزماتے ہیں کہ کسی ورڈ پروسیسیر میں ایک ہی خط میں لکھ کر تیار کی گئی تصویری فائل کو اسی خط کے ترسیموں سے کس حد تک ملایا جا سکتا ہے۔ مشکل ترین مرحلہ تصاویر میں سے کشتیوں اور نقاط کو علیحدہ کرنا ہوگا۔ ہمارا خیال ہے کہ ہم اشکال کو مستطیل خاکوں میں گھیرنے کی کوشش کرنے کے بجائے اوپن سی وی وغیرہ کی مدد سے سارے اشکال علیحدہ کیے جائیں اور ساتھ ہی ان کے کورآرڈینیٹ اور طول و عرض کا بھی حساب رکھا جائے۔ :) :) :)
 

زیک

مسافر
ہمارا خیال ہے کہ ہم ابتدا میں ٹریننگ کے لیے علیحدہ علیحدہ ترسیموں بلکہ کشتیوں اور نقاط وغیرہ کو استعمال کر سکتے ہیں۔ اور یہ آزماتے ہیں کہ کسی ورڈ پروسیسیر میں ایک ہی خط میں لکھ کر تیار کی گئی تصویری فائل کو اسی خط کے ترسیموں سے کس حد تک ملایا جا سکتا ہے۔ مشکل ترین مرحلہ تصاویر میں سے کشتیوں اور نقاط کو علیحدہ کرنا ہوگا۔ ہمارا خیال ہے کہ ہم اشکال کو مستطیل خاکوں میں گھیرنے کی کوشش کرنے کے بجائے اوپن سی وی وغیرہ کی مدد سے سارے اشکال علیحدہ کیے جائیں اور ساتھ ہی ان کے کورآرڈینیٹ اور طول و عرض کا بھی حساب رکھا جائے۔ :) :) :)
مختلف ترسیمہ جات کی علیحدہ امیج فائلز بنا کر ان پر تجربات کئے جا سکتے ہیں۔

اوپن سی وی یا دیگر وژن اور امیج پراسسنگ لائبریریز کا استعمال بہتر رہے گا مگر ضرورت پڑنے پر کچھ کوڈنگ خود بھی کرنی پڑے گی
 

arifkarim

معطل
میرا فیلڈ کمپیوٹر وژن ہے۔ اس لحاظ سے امیج پراسسنگ وغیرہ پر کافی کام کیا ہے۔
:eek::eek::eek:
ابن سعید بھائی ہم آپ سے معافی چاہتے ہیں جو خوامخواہ اتنا عرصہ ترسیمہ جات کی امیج پراسیسنگ سے متعلق آپ پکو ستاتے رہے۔ ہمیں کیا معلوم تھا کہ اپنے زیک بھائی اس فیلڈ میں چھپے رستم نکلیں گے :)

پہلی چیز اچھی کوالٹی کا نستعلیق سکین ڈیٹا اکٹھا کرنا ہے۔ ترسیمے کی زیادہ سے زیادہ مثالیں بھی ضروری ہیں۔
فانٹ گلفس سے بہتر ڈیٹا اور کیا ہو سکتا ہے۔ ہمارے پاس کم و بیش 25000 نوری نستعلیق ترسیموں کا ڈیٹا پہلے سے موجود ہے جسے کسی بھی سائز یا ریزولوشن میں ایکسپورٹ کیا جا سکتا ہے۔ یہ ڈیٹا مختلف اقسام کی امیج پراسیسنگ جیسے او سی آر، کرننگ وغیرہ کیلئے کار آمد ثابت ہو گا۔

اگر آپ کے خیال میں آپ اس پراجیکٹ میں مددگار ثابت ہو سکتے ہیں تو یہاں اپنے خیالات کا اظہار کریں کہ آپ کیا ذمہ داریاں اٹھائیں گے۔
نوری نستعلیق گلفس کا ڈیٹا فراہم کر سکتا ہوں۔ ٹیکسٹ، امیج یا کسی اور فارمیٹ میں، جیسا آپ بہتر سمجھیں۔

ہمارا خیال ہے کہ ہم ابتدا میں ٹریننگ کے لیے علیحدہ علیحدہ ترسیموں بلکہ کشتیوں اور نقاط وغیرہ کو استعمال کر سکتے ہیں۔
نستعلیق میں ایسا ہے کہ نقاط کے ساتھ ساتھ خالی کشتیاں بھی آپس میں Kern ہوتی ہیں۔ ہم ابتداء میں خالی کشتیوں کو کرننگ کیساتھ ٹیسٹ کر سکتے ہیں کہ کیسا نتیجہ آتا ہے جسکے بعد نقاط کو بھی شامل کیا جا سکتا ہے۔

مشکل ترین مرحلہ تصاویر میں سے کشتیوں اور نقاط کو علیحدہ کرنا ہوگا۔
یہ کام گلفس کے لیول پر بہت آسانی سے ہو سکتا ہے۔ ہم او سی آر ڈیٹا بیس میں ایک ہی ترسیمے کے دو الگ الگ ڈیٹاز فیڈ کر سکتے ہیں۔ پہلا ڈیٹا اسکی کشتی کا ہوگا، دوسرا ڈیٹا اسکے نقاط کا۔ تاکہ تلاش میں بہتر سے بہتر رزلٹ لایا جا سکے۔ مثال کے طور پر ترسیمہ”نبیل“ کے بارہ میں میرے ذہن میں یہ خاکہ آتا ہے:
Nabeel.png

زیک بھائی اس بارہ میں بہتر بتا سکیں گے کہ آیا ایسا ممکن ہے یا نہیں۔

مختلف ترسیمہ جات کی علیحدہ امیج فائلز بنا کر ان پر تجربات کئے جا سکتے ہیں۔
آپکو یہ امیج فائلز کس فارمیٹ اور کوالٹی میں درکار ہیں؟ ہم فراہم کر دیتے ہیں۔ :)
 
مدیر کی آخری تدوین:

زیک

مسافر
ابن سعید بھائی ہم آپ سے معافی چاہتے ہیں جو خوامخواہ اتنا عرصہ ترسیمہ جات کی امیج پراسیسنگ سے متعلق آپ پکو ستاتے رہے۔ ہمیں کیا معلوم تھا کہ اپنے زیک بھائی اس فیلڈ میں چھپے رستم نکلیں گے :)
حیرت کی بات ہے کہ آپ نے مجھے چھپا رستم سمجھ لیا
 

نوشاب

محفلین
جی حیرت ہی ہے کہ اس فارم کے توسط سے ہم ایک دوسرے کو اتنے سالوں سے جانتے ہیں لیکن ہمیں معلوم ہی نہ تھا کہ آپکی فیلڈ کونسی ہے :)
اور اس کا حل یہ ہے کہ تعارف کے زمرے میں تعلیمی کوالیفیکشن اور اور ان کی اپڈیٹس ضرور دی جائیں
اگر نوکری یا پیشہ سے متعلق تفصیلات دینا ممکن ہو ں تو اور بھی بہتر ہے۔
 

arifkarim

معطل
خاکسار درج ذیل کوالٹی کے ترسیمہ جات الگ الگ امیج بمع صوتی نام کے فراہم کر سکتا ہے:
Jameel%20Noori%20Nastaleeq.png

زیک ابن سعید نبیل کیا اتنی امیج کوالٹی کافی ہوگی؟
 
مدیر کی آخری تدوین:

الف نظامی

لائبریرین
نستعلیق متن کی سیگمینٹیشن کیسے کی جاتی ہے۔
لائن سیگمینٹیشن کے لیے
ہسٹو گرام
اور
لیگیچر سیگمینٹیشن کے لیے
Connected Component Labeling Algorithm
استعمال کیا جاتا ہے۔

دیکھیے:صفحہ 39-42
Satti, D.A. Offline Urdu Nastaliq OCR for Printed Text using Analytical Approach, Department of Computer Science Quaid-i-Azam University Islamabad, Pakistan, 2013.​
 
آخری تدوین:

arifkarim

معطل
نستعلیق متن کی سیگمینٹیشن کیسے کی جاتی ہے۔
تحقیقی مقالہ شیئر کرنے کا شکریہ! دوست نے ایک دفعہ ملاقات میں بتایا تھا کہ ادارہ CRULP کے ڈاکٹر سرمد حسین صاحب اس سلسلہ میں کافی کام کر چکے ہیں۔ ادارے کی ویب سائٹ سے اس ضمن میں تین تحقیقی مقالوں کے روابط ملے ہیں جہاں مختلف انداز میں متن کے سیگمنٹس بنانے کا طریقہ وضع کیا گیا ہے:
http://www.cle.org.pk/Publication/theses/2010/OCRMUAZ.pdf
http://www.cle.org.pk/Publication/theses/2009/misbahtheses.pdf
http://www.cle.org.pk/Publication/theses/2007/OCRSOBIA.pdf
مزید:
http://www.cle.org.pk/research/theses.htm
 

نمرہ

محفلین
مجھے بنیادی طور پر ایک paper worthy مسئلے کی ضرورت ہے، تو شاید میں اس او سی آر پر کام کرنے کے لیے دستیاب ہوں۔ فانٹس وغیرہ کا کوئی آئیڈیا نہیں البتہ امیج پروسیسنگ میں کام کیا ہوا ہے میں نے اور اوپن سی وی کا بھی تجربہ ہے۔
 

دوست

محفلین
سی ایل ای کا آنلائن او سی آر کافی حد تک مکمل نظام ہے۔ یہاں سے پتا چل رہا ہے کہ پراجیکٹ مکمل کر کے دے دیا گیا ہے 2014 میں۔
اس کا امیج کارپس بھی دستیاب ہے۔ لیکن یہ مفت نہیں ہے۔ نان کمرشل استعمال کے لیے فری کا بیان تو موجوو ہے لیکن پروسینگ فیس کا ذکر بھی ہے۔ اب یہ فیس کتنی ہے آیا پندرہ ہزار (جیسا کہ ہر آئٹم کی قیمت بحوالہ پاکستان 150 ڈالر ہے) یا کتنی؟
اگر یہ امیج ڈیٹا دستیاب ہو جائے تو کسی بھی او سی ار سسٹم کو ٹرین کروانا بہت ہی آسان ہو سکتا ہے۔ میں نے مارچ میں ڈاکٹر سرمد کی ایک پریزنٹیشن میں ان کے مختلف کاموں کے ساتھ اس کا تعارف بھی دیکھا تھا۔ وہ کشتیوں اور نقطوں کو الگ الگ مختلف رنگوں میں رنگتے ہیں اور پھر تیسرے مرحلے میں ہر نقطہ کشتی کے ساتھ ملا کر پروسیس کیا جاتا ہے۔ مجھے یاد پڑ رہا ہے کشتی کا منسلکہ نقطہ بالکل الٹ رنگ میں رنگا ہوا تھا جس کے بعد کمپیوٹر نے ان میں ربط پیدا کرنا تھا۔ یہ میرا خیال ہینڈ ٹیگڈ تصاویر تھیں۔ یعنی ٹریننگ امیج کارپس۔
اگر ایک ورک فلو بن جائے تو اس کے لیے ٹریننگ ڈیٹا کی فراہمی ہم ان ترسیموں سے کر لیں۔ یا پھر سی ایل ای سے بات کر لی جائے؟ اگر یہ ٹریننگ ڈیٹا یہ لینا ہے تو چندہ کر کے بھی لیا جا سکتا ہے۔ کیا خیال ہے آ پ کا؟
یہاں میں ذکر کرتا چلوں کہ میری یونیورسٹی (جامعہ گجرات) اور سی ایل ای کی یونیورسٹی (یو ای ٹی لاہور) میں ایک ایم او یو سائن ہو رہا ہے (یا ہو چکا ہے) جس کے ذریعے دونوں ادارے مرکز السنہ و علوم ترجمہ اور مرکز تحقیقات لسانیات مل کر کچھ منصوبوں پر کام کا ارادہ رکھتے ہیں۔ لیکن میرے خیال میں یہ کام شاید مشینی ترجمہ کے ذیل میں ہو گا زیادہ تر۔ خیر جو بھی ہوا وہ تو ادارہ جاتی سطح کا معاملہ ہے۔ یہاںمیں نے ذاتی حیثیت میں ٹریننگ ڈیٹا کے حوالے سے تجویز پیش کی ہے۔ چونکہ اردو او سی آر جو آزاد اور مفت ہو آج کی سب سے بڑی ضرورت ہے۔ اداروں کو تو کہیں نا کہیں سے کچھ مل ہی جاتا ہے لیکن صارفین بہت عرصے تک منتظر رہتے ہیں۔ اب شاید وقت آ گیا ہے کہ سنجیدگی سے ایک عام صارف کے کمپیوٹر پر اردو او سی آر مہیا کرنے پر کام کیا جائے۔
 

arifkarim

معطل
سی ایل ای کا آنلائن او سی آر کافی حد تک مکمل نظام ہے۔ یہاں سے پتا چل رہا ہے کہ پراجیکٹ مکمل کر کے دے دیا گیا ہے 2014 میں۔
شاکر، میں نے اس او سی آر پر ہر ممکن سافٹوئیر سے نوری نستعلیق متن میں صفحہ اسکین کر کے اپلوڈ کیا ہے، یہاں تک کے خود ٹائپ کر کے اسکا امیج بنا کر بھی ٹرائی کیا ہے پر یہ ہر بار فیل ہوجاتا ہے۔ درج ذیل تصویر عام کورل ڈرا میں لکھا گیا متن ہے۔ اگر یہ اسکو بھی پڑھ نہیں سکتا تو اسکا کیا فائدہ؟
ocr.jpg
 
مدیر کی آخری تدوین:

زیک

مسافر
نستعلیق سکین ڈیٹا کی کچھ تفصیل بتا دیں کہ کس قسم کا ڈیٹا چاہیے جسے سکین کرنا ہے۔
کمپیوٹر سے جنریٹ کئے گئے الفاظ اور ترسیموں سے لے کر مختلف کتب کے صفحات کے سکین تاکہ بتدریج او سی آر کو آسان سے مشکل کام کرایا جا سکے
 

دوست

محفلین
میں نے ذاتی طور پر یہ استعمال نہیں کیا یعنی اردو صحافت کے لیے۔ ایک انگریزی اردو فرہنگ کا سکین کردہ صفحہ دے کر دیکھا تھا جو کچھ نہ کچھ پڑھا ہی تھا اس نے۔ لیکن ہمیں تو ٹریننگ ڈیٹا سے غرض ہے۔ میرا مقصد اینوٹیٹڈ امیجز کی طرف توجہ دلانا تھا جو ان کے امیج کارپورا سیکشن کے تحت موجود ہیں۔ اگر ٹریننگ کی کوئی اور اپروچ لاگو کرنی ہے تو پھر اس کی تو کوئی ضرورت نہیں رہتی۔
 
ہمیں علم ہے کہ ڈاکر سرمد صاحب اور ان کی ٹیم نے نستعلیق خطوط کی سیگمنٹیشن کے لیے ایک سے زائد طریقوں پر کام کیا ہے، بلکہ ہم نے اردو لغت والے مقالے میں ان کے کچھ مقالوں کا حوالہ بھی دیا ہے۔ اگر ان کا یا کسی اور کا کام عمومی طور پر دستیاب ہے (جو کہ ہونا چاہیے، اگر فنڈنگ سرکاری رہی ہو) تو اس سے استفادہ نہ کرنا پہیہ پھر سے ایجاد کرنے کے مترادف ہوگا۔ لیکن کوڈ اور ڈیٹا کی عدم دستیابی یا معیار ناقص ہونے کی صورت میں نئے سرے سے کام کرنے میں کوئی حرج نہیں۔ :) :) :)
 
Top