اردو او سی آر پر کام

زیک · مئی 9، 2015

میرا فیلڈ کمپیوٹر وژن ہے۔ اس لحاظ سے امیج پراسسنگ وغیرہ پر کافی کام کیا ہے۔ عرصہ سے اردو او سی آر پر کام کرنے کے بارے میں سوچ رہا تھا۔

نستعلیق اردو او سی آر نسخ سے کافی مشکل ہے۔ اس کے لئے اگر ہم کوئی او سی آر انجن بھی استعمال کریں تو کافی پری پراسسنگ کی ضرورت ہو گی۔

اس کام کے لئے رضاکاروں کی ضرورت ہے۔ ایسے لوگ جو وقت دیے سکیں اور پراجیکٹ کے کسی حصے کے متعلق خاطر خواہ علم رکھتے ہیں۔

پہلی چیز اچھی کوالٹی کا نستعلیق سکین ڈیٹا اکٹھا کرنا ہے۔ ترسیمے کی زیادہ سے زیادہ مثالیں بھی ضروری ہیں۔

اس کے علاوہ امیج پراسسنگ، او سی آر انجن جیسے ٹیسیریکٹ وغیرہ میں مہارت بھی کام آ سکتی ہے۔

اگر آپ کے خیال میں آپ اس پراجیکٹ میں مددگار ثابت ہو سکتے ہیں تو یہاں اپنے خیالات کا اظہار کریں کہ آپ کیا ذمہ داریاں اٹھائیں گے۔

ابن سعید · مئی 9، 2015

ہمارا خیال ہے کہ ہم ابتدا میں ٹریننگ کے لیے علیحدہ علیحدہ ترسیموں بلکہ کشتیوں اور نقاط وغیرہ کو استعمال کر سکتے ہیں۔ اور یہ آزماتے ہیں کہ کسی ورڈ پروسیسیر میں ایک ہی خط میں لکھ کر تیار کی گئی تصویری فائل کو اسی خط کے ترسیموں سے کس حد تک ملایا جا سکتا ہے۔ مشکل ترین مرحلہ تصاویر میں سے کشتیوں اور نقاط کو علیحدہ کرنا ہوگا۔ ہمارا خیال ہے کہ ہم اشکال کو مستطیل خاکوں میں گھیرنے کی کوشش کرنے کے بجائے اوپن سی وی وغیرہ کی مدد سے سارے اشکال علیحدہ کیے جائیں اور ساتھ ہی ان کے کورآرڈینیٹ اور طول و عرض کا بھی حساب رکھا جائے۔

زیک · مئی 9، 2015

ابن سعید نے کہا:
ہمارا خیال ہے کہ ہم ابتدا میں ٹریننگ کے لیے علیحدہ علیحدہ ترسیموں بلکہ کشتیوں اور نقاط وغیرہ کو استعمال کر سکتے ہیں۔ اور یہ آزماتے ہیں کہ کسی ورڈ پروسیسیر میں ایک ہی خط میں لکھ کر تیار کی گئی تصویری فائل کو اسی خط کے ترسیموں سے کس حد تک ملایا جا سکتا ہے۔ مشکل ترین مرحلہ تصاویر میں سے کشتیوں اور نقاط کو علیحدہ کرنا ہوگا۔ ہمارا خیال ہے کہ ہم اشکال کو مستطیل خاکوں میں گھیرنے کی کوشش کرنے کے بجائے اوپن سی وی وغیرہ کی مدد سے سارے اشکال علیحدہ کیے جائیں اور ساتھ ہی ان کے کورآرڈینیٹ اور طول و عرض کا بھی حساب رکھا جائے۔

مختلف ترسیمہ جات کی علیحدہ امیج فائلز بنا کر ان پر تجربات کئے جا سکتے ہیں۔

اوپن سی وی یا دیگر وژن اور امیج پراسسنگ لائبریریز کا استعمال بہتر رہے گا مگر ضرورت پڑنے پر کچھ کوڈنگ خود بھی کرنی پڑے گی

arifkarim · مئی 9، 2015

زیک نے کہا:
میرا فیلڈ کمپیوٹر وژن ہے۔ اس لحاظ سے امیج پراسسنگ وغیرہ پر کافی کام کیا ہے۔

ابن سعید بھائی ہم آپ سے معافی چاہتے ہیں جو خوامخواہ اتنا عرصہ ترسیمہ جات کی امیج پراسیسنگ سے متعلق آپ پکو ستاتے رہے۔ ہمیں کیا معلوم تھا کہ اپنے زیک بھائی اس فیلڈ میں چھپے رستم نکلیں گے

زیک نے کہا:
پہلی چیز اچھی کوالٹی کا نستعلیق سکین ڈیٹا اکٹھا کرنا ہے۔ ترسیمے کی زیادہ سے زیادہ مثالیں بھی ضروری ہیں۔

فانٹ گلفس سے بہتر ڈیٹا اور کیا ہو سکتا ہے۔ ہمارے پاس کم و بیش 25000 نوری نستعلیق ترسیموں کا ڈیٹا پہلے سے موجود ہے جسے کسی بھی سائز یا ریزولوشن میں ایکسپورٹ کیا جا سکتا ہے۔ یہ ڈیٹا مختلف اقسام کی امیج پراسیسنگ جیسے او سی آر، کرننگ وغیرہ کیلئے کار آمد ثابت ہو گا۔

زیک نے کہا:
اگر آپ کے خیال میں آپ اس پراجیکٹ میں مددگار ثابت ہو سکتے ہیں تو یہاں اپنے خیالات کا اظہار کریں کہ آپ کیا ذمہ داریاں اٹھائیں گے۔

نوری نستعلیق گلفس کا ڈیٹا فراہم کر سکتا ہوں۔ ٹیکسٹ، امیج یا کسی اور فارمیٹ میں، جیسا آپ بہتر سمجھیں۔

ابن سعید نے کہا:
ہمارا خیال ہے کہ ہم ابتدا میں ٹریننگ کے لیے علیحدہ علیحدہ ترسیموں بلکہ کشتیوں اور نقاط وغیرہ کو استعمال کر سکتے ہیں۔

نستعلیق میں ایسا ہے کہ نقاط کے ساتھ ساتھ خالی کشتیاں بھی آپس میں Kern ہوتی ہیں۔ ہم ابتداء میں خالی کشتیوں کو کرننگ کیساتھ ٹیسٹ کر سکتے ہیں کہ کیسا نتیجہ آتا ہے جسکے بعد نقاط کو بھی شامل کیا جا سکتا ہے۔

ابن سعید نے کہا:
مشکل ترین مرحلہ تصاویر میں سے کشتیوں اور نقاط کو علیحدہ کرنا ہوگا۔

یہ کام گلفس کے لیول پر بہت آسانی سے ہو سکتا ہے۔ ہم او سی آر ڈیٹا بیس میں ایک ہی ترسیمے کے دو الگ الگ ڈیٹاز فیڈ کر سکتے ہیں۔ پہلا ڈیٹا اسکی کشتی کا ہوگا، دوسرا ڈیٹا اسکے نقاط کا۔ تاکہ تلاش میں بہتر سے بہتر رزلٹ لایا جا سکے۔ مثال کے طور پر ترسیمہ”نبیل“ کے بارہ میں میرے ذہن میں یہ خاکہ آتا ہے:

زیک بھائی اس بارہ میں بہتر بتا سکیں گے کہ آیا ایسا ممکن ہے یا نہیں۔

زیک نے کہا:
مختلف ترسیمہ جات کی علیحدہ امیج فائلز بنا کر ان پر تجربات کئے جا سکتے ہیں۔

آپکو یہ امیج فائلز کس فارمیٹ اور کوالٹی میں درکار ہیں؟ ہم فراہم کر دیتے ہیں۔

زیک · مئی 9، 2015

arifkarim نے کہا:
ابن سعید بھائی ہم آپ سے معافی چاہتے ہیں جو خوامخواہ اتنا عرصہ ترسیمہ جات کی امیج پراسیسنگ سے متعلق آپ پکو ستاتے رہے۔ ہمیں کیا معلوم تھا کہ اپنے زیک بھائی اس فیلڈ میں چھپے رستم نکلیں گے

حیرت کی بات ہے کہ آپ نے مجھے چھپا رستم سمجھ لیا

arifkarim · مئی 9، 2015

زیک نے کہا:
حیرت کی بات ہے کہ آپ نے مجھے چھپا رستم سمجھ لیا

جی حیرت ہی ہے کہ اس فارم کے توسط سے ہم ایک دوسرے کو اتنے سالوں سے جانتے ہیں لیکن ہمیں معلوم ہی نہ تھا کہ آپکی فیلڈ کونسی ہے

نوشاب · مئی 9، 2015

arifkarim نے کہا:
جی حیرت ہی ہے کہ اس فارم کے توسط سے ہم ایک دوسرے کو اتنے سالوں سے جانتے ہیں لیکن ہمیں معلوم ہی نہ تھا کہ آپکی فیلڈ کونسی ہے

اور اس کا حل یہ ہے کہ تعارف کے زمرے میں تعلیمی کوالیفیکشن اور اور ان کی اپڈیٹس ضرور دی جائیں
اگر نوکری یا پیشہ سے متعلق تفصیلات دینا ممکن ہو ں تو اور بھی بہتر ہے۔

arifkarim · مئی 9، 2015

خاکسار درج ذیل کوالٹی کے ترسیمہ جات الگ الگ امیج بمع صوتی نام کے فراہم کر سکتا ہے:

زیک ابن سعید نبیل کیا اتنی امیج کوالٹی کافی ہوگی؟

الف نظامی · مئی 9، 2015

نستعلیق متن کی سیگمینٹیشن کیسے کی جاتی ہے۔
لائن سیگمینٹیشن کے لیے
ہسٹو گرام
اور
لیگیچر سیگمینٹیشن کے لیے
Connected Component Labeling Algorithm
استعمال کیا جاتا ہے۔

دیکھیے:صفحہ 39-42

Satti, D.A. Offline Urdu Nastaliq OCR for Printed Text using Analytical Approach, Department of Computer Science Quaid-i-Azam University Islamabad, Pakistan, 2013.

arifkarim · مئی 9، 2015

الف نظامی نے کہا:
نستعلیق متن کی سیگمینٹیشن کیسے کی جاتی ہے۔

تحقیقی مقالہ شیئر کرنے کا شکریہ! دوست نے ایک دفعہ ملاقات میں بتایا تھا کہ ادارہ CRULP کے ڈاکٹر سرمد حسین صاحب اس سلسلہ میں کافی کام کر چکے ہیں۔ ادارے کی ویب سائٹ سے اس ضمن میں تین تحقیقی مقالوں کے روابط ملے ہیں جہاں مختلف انداز میں متن کے سیگمنٹس بنانے کا طریقہ وضع کیا گیا ہے:
http://www.cle.org.pk/Publication/theses/2010/OCRMUAZ.pdf
http://www.cle.org.pk/Publication/theses/2009/misbahtheses.pdf
http://www.cle.org.pk/Publication/theses/2007/OCRSOBIA.pdf
مزید:
http://www.cle.org.pk/research/theses.htm

نمرہ · مئی 9، 2015

مجھے بنیادی طور پر ایک paper worthy مسئلے کی ضرورت ہے، تو شاید میں اس او سی آر پر کام کرنے کے لیے دستیاب ہوں۔ فانٹس وغیرہ کا کوئی آئیڈیا نہیں البتہ امیج پروسیسنگ میں کام کیا ہوا ہے میں نے اور اوپن سی وی کا بھی تجربہ ہے۔

دوست · مئی 9، 2015

سی ایل ای کا آنلائن او سی آر کافی حد تک مکمل نظام ہے۔ یہاں سے پتا چل رہا ہے کہ پراجیکٹ مکمل کر کے دے دیا گیا ہے 2014 میں۔
اس کا امیج کارپس بھی دستیاب ہے۔ لیکن یہ مفت نہیں ہے۔ نان کمرشل استعمال کے لیے فری کا بیان تو موجوو ہے لیکن پروسینگ فیس کا ذکر بھی ہے۔ اب یہ فیس کتنی ہے آیا پندرہ ہزار (جیسا کہ ہر آئٹم کی قیمت بحوالہ پاکستان 150 ڈالر ہے) یا کتنی؟
اگر یہ امیج ڈیٹا دستیاب ہو جائے تو کسی بھی او سی ار سسٹم کو ٹرین کروانا بہت ہی آسان ہو سکتا ہے۔ میں نے مارچ میں ڈاکٹر سرمد کی ایک پریزنٹیشن میں ان کے مختلف کاموں کے ساتھ اس کا تعارف بھی دیکھا تھا۔ وہ کشتیوں اور نقطوں کو الگ الگ مختلف رنگوں میں رنگتے ہیں اور پھر تیسرے مرحلے میں ہر نقطہ کشتی کے ساتھ ملا کر پروسیس کیا جاتا ہے۔ مجھے یاد پڑ رہا ہے کشتی کا منسلکہ نقطہ بالکل الٹ رنگ میں رنگا ہوا تھا جس کے بعد کمپیوٹر نے ان میں ربط پیدا کرنا تھا۔ یہ میرا خیال ہینڈ ٹیگڈ تصاویر تھیں۔ یعنی ٹریننگ امیج کارپس۔
اگر ایک ورک فلو بن جائے تو اس کے لیے ٹریننگ ڈیٹا کی فراہمی ہم ان ترسیموں سے کر لیں۔ یا پھر سی ایل ای سے بات کر لی جائے؟ اگر یہ ٹریننگ ڈیٹا یہ لینا ہے تو چندہ کر کے بھی لیا جا سکتا ہے۔ کیا خیال ہے آ پ کا؟
یہاں میں ذکر کرتا چلوں کہ میری یونیورسٹی (جامعہ گجرات) اور سی ایل ای کی یونیورسٹی (یو ای ٹی لاہور) میں ایک ایم او یو سائن ہو رہا ہے (یا ہو چکا ہے) جس کے ذریعے دونوں ادارے مرکز السنہ و علوم ترجمہ اور مرکز تحقیقات لسانیات مل کر کچھ منصوبوں پر کام کا ارادہ رکھتے ہیں۔ لیکن میرے خیال میں یہ کام شاید مشینی ترجمہ کے ذیل میں ہو گا زیادہ تر۔ خیر جو بھی ہوا وہ تو ادارہ جاتی سطح کا معاملہ ہے۔ یہاںمیں نے ذاتی حیثیت میں ٹریننگ ڈیٹا کے حوالے سے تجویز پیش کی ہے۔ چونکہ اردو او سی آر جو آزاد اور مفت ہو آج کی سب سے بڑی ضرورت ہے۔ اداروں کو تو کہیں نا کہیں سے کچھ مل ہی جاتا ہے لیکن صارفین بہت عرصے تک منتظر رہتے ہیں۔ اب شاید وقت آ گیا ہے کہ سنجیدگی سے ایک عام صارف کے کمپیوٹر پر اردو او سی آر مہیا کرنے پر کام کیا جائے۔

arifkarim · مئی 9، 2015

دوست نے کہا:
سی ایل ای کا آنلائن او سی آر کافی حد تک مکمل نظام ہے۔ یہاں سے پتا چل رہا ہے کہ پراجیکٹ مکمل کر کے دے دیا گیا ہے 2014 میں۔

شاکر، میں نے اس او سی آر پر ہر ممکن سافٹوئیر سے نوری نستعلیق متن میں صفحہ اسکین کر کے اپلوڈ کیا ہے، یہاں تک کے خود ٹائپ کر کے اسکا امیج بنا کر بھی ٹرائی کیا ہے پر یہ ہر بار فیل ہوجاتا ہے۔ درج ذیل تصویر عام کورل ڈرا میں لکھا گیا متن ہے۔ اگر یہ اسکو بھی پڑھ نہیں سکتا تو اسکا کیا فائدہ؟

الف نظامی · مئی 9، 2015

زیک نے کہا:
پہلی چیز اچھی کوالٹی کا نستعلیق سکین ڈیٹا اکٹھا کرنا ہے۔ ترسیمے کی زیادہ سے زیادہ مثالیں بھی ضروری ہیں۔

نستعلیق سکین ڈیٹا کی کچھ تفصیل بتا دیں کہ کس قسم کا ڈیٹا چاہیے جسے سکین کرنا ہے۔

زیک · مئی 9، 2015

دوست نے کہا:
سی ایل ای کا آنلائن او سی آر کافی حد تک مکمل نظام ہے۔ یہاں سے پتا چل رہا ہے کہ پراجیکٹ مکمل کر کے دے دیا گیا ہے 2014 میں۔

کیا یہ ان کے مثالی صفحات کے علاوہ بھی کام کرتا ہے؟

زیک · مئی 9، 2015

الف نظامی نے کہا:
نستعلیق سکین ڈیٹا کی کچھ تفصیل بتا دیں کہ کس قسم کا ڈیٹا چاہیے جسے سکین کرنا ہے۔

کمپیوٹر سے جنریٹ کئے گئے الفاظ اور ترسیموں سے لے کر مختلف کتب کے صفحات کے سکین تاکہ بتدریج او سی آر کو آسان سے مشکل کام کرایا جا سکے

الف نظامی · مئی 9، 2015

زیک نے کہا:
کمپیوٹر سے جنریٹ کئے گئے الفاظ اور ترسیموں سے لے کر مختلف کتب کے صفحات کے سکین تاکہ بتدریج او سی آر کو آسان سے مشکل کام کرایا جا سکے

سکین امیج کی ریزولوشن کیا ہونی چاہیے۔

الف نظامی · مئی 9، 2015

ترسیموں کی فہرست

دوست · مئی 9، 2015

میں نے ذاتی طور پر یہ استعمال نہیں کیا یعنی اردو صحافت کے لیے۔ ایک انگریزی اردو فرہنگ کا سکین کردہ صفحہ دے کر دیکھا تھا جو کچھ نہ کچھ پڑھا ہی تھا اس نے۔ لیکن ہمیں تو ٹریننگ ڈیٹا سے غرض ہے۔ میرا مقصد اینوٹیٹڈ امیجز کی طرف توجہ دلانا تھا جو ان کے امیج کارپورا سیکشن کے تحت موجود ہیں۔ اگر ٹریننگ کی کوئی اور اپروچ لاگو کرنی ہے تو پھر اس کی تو کوئی ضرورت نہیں رہتی۔

ابن سعید · مئی 9، 2015

ہمیں علم ہے کہ ڈاکر سرمد صاحب اور ان کی ٹیم نے نستعلیق خطوط کی سیگمنٹیشن کے لیے ایک سے زائد طریقوں پر کام کیا ہے، بلکہ ہم نے اردو لغت والے مقالے میں ان کے کچھ مقالوں کا حوالہ بھی دیا ہے۔ اگر ان کا یا کسی اور کا کام عمومی طور پر دستیاب ہے (جو کہ ہونا چاہیے، اگر فنڈنگ سرکاری رہی ہو) تو اس سے استفادہ نہ کرنا پہیہ پھر سے ایجاد کرنے کے مترادف ہوگا۔ لیکن کوڈ اور ڈیٹا کی عدم دستیابی یا معیار ناقص ہونے کی صورت میں نئے سرے سے کام کرنے میں کوئی حرج نہیں۔

اردو او سی آر پر کام

ایکاروس

خادم

ایکاروس

معطل

ایکاروس

معطل

محفلین

معطل

لائبریرین

معطل

محفلین

محفلین

معطل

لائبریرین

ایکاروس

ایکاروس

لائبریرین

لائبریرین

محفلین

خادم