اردو او سی آر پر کام

نمرہ

محفلین
کیا آپ لٹریچر سروے کا آغاز کر سکتی ہیں۔ اگر ڈھونڈ سکیں تو اردو، عربی، فارسی کے او سی آر پر کی گئی تحقیق کے متعلق معلومات اکٹھی کر کے شیئر کریں۔
پہلا پیپر جو مجھے پڑھنے کا اتفاق ہوا:
ایک عربی او سی آر۔ انھوں نے شروع میں ہی یقینی کریکٹر سگمنٹ بنانے سے جان چھڑا لی ہے۔ ایک خصوصیت جو انھوں نے نوٹ کی ہے وہ یہ ہے کہ ہر لفظ کے آخری حرف کا آخری کرو ایک بائیں سے دائیں افقی لائن ہے یا ایک عمودی کرو۔ اس طرح یہ پہچان لیتے ہیں کہ کسی لفظ کا آخری حرف ، اسی لفظ میں موجود کسی دوسرے کریکٹر کے ساتھ overlap کر رہا ہے ( جیسے 'مغ' میں غ کا کچھ حصہ م کے نیچے بھی آ تا ہے)۔ یہ کافی چالاکی دکھائی ہے انھوں نے۔ یہاں ہمیں شاید یہ مسئلہ ہو کہ نستعلیق میں آخری حرف کی آخری سٹروک سیدھی بھی آ سکتی ہے (سچے) اور کروڈ بھی (مع)۔
یہ لفظ کے ورڈ سگمنٹ بناتے ہیں ، جیسے مداخل سے 'مد ' ، 'ا' اور 'خل' ۔ پھر کریکٹر الگ الگ کرنے کے لیے کسی امین کاا لگوردم لگا کر کنیکٹویٹی پوائنٹ نکالتے ہیں اور اس کے بعد سی ڈی پی ۔
ایج ڈیٹیکشن کے بعد یہ contour ڈھونڈتے ہیں۔ پھر باہر والی باؤنڈری کے چین کوڈ نکالتے ہیں ( جو میرے خیال میں کافی اچھا آئیڈیا ہے)۔ اس سے اگلا مرحلہ کلاسیفیکیشن کا ہے اور اچھے fsm کوڈرز کی طرح انھوں نے نیکسٹ سٹیٹ اور آؤٹ پٹ فنکشن الگ الگ رکھے ہیں۔ کلاسیفائی بھی یہ چین کوڈز کی بنیاد پر ہی کرتے ہیں۔ مزید اس میں فیڈ بیک بھی ہے اور اور یہ پہلا tentative کریکٹر لے کر ڈیٹا بیس میں ڈھونڈتے ہیں، اگر نہیں ملتا تو اگلا فریگمنٹ بھی ساتھ جوڑ کر دوبارہ ڈھونڈتے ہیں۔ یہ ایک، دو ، تین یا زیادہ ٹکڑے ساتھ جوڑ کر حرف کی تلاش کرنا ، کریکٹر سگمنٹ بنانے کا متبادل ہے۔
ایک حرف کے لیے دائیں سے بائیں اور بائیں سے دائیں باری باری تلاش کرتے ہیں۔ شاید اوورلیپ کا مسئلہ بھی اسی سے حل ہوتا ہو۔
ڈیٹا بیس میں ان کے کوئی سو کے قریب اشکال ہیں ، یعنی عربی کے ہر حرف کی ہر ممکنہ پوزیشن کے لیے، جس سے میچنگ کی جاتی ہے۔
نتائج ان کے متاثر کن دکھائی دیتے ہیں خاص طور پر جبکہ یہ رئیل ٹائم کا دعوی کر رہے ہیں۔ لیکن یہ کانویکس ڈومینینٹ پوائنٹس پر کافی بھروسہ کر رہے ہیں تو شاید یہ چیز نسخ کے لیے تو ٹھیک ہے جو کافی angular ہے مگر نستعلیق کے لیے اتنی کارآمد نہ ہو ۔ یہاں دوبارہ انتباہ ضروری ہے کہ فانٹس کے بارے میں میری رائے ایک اناڑی کی رائے ہے۔ چین کوڈز البتہ ہم شاید استعمال کر سکیں، مگر وہ بھی نسخ میں کافی آسان ہیں ۔
پیپر میں تصویریں کافی کارآمد ہیں سمجھنے کے لیے۔
 

arifkarim

معطل
پیپر سروے کا کام ہم بھی کیے لیتے ہیں۔ پہلے کسی حد تک کام ہو جائے تو ٹیک رپورٹ اور بعد میں باقاعدہ پیپر بھی لکھ لیں گے۔ :) :) :)
ہم یہاں یہ سوچ رہے ہیں کہ پیپر تو آپ لکھ لیں گے پر اسے پڑھنے والے کہاں سے لائیں گے؟ :) مذاق برطرف، آپکی رپورٹس پیپرز بہت جامع ہوتی ہیں پر انہیں تھوڑا مختصر لکھا کریں۔
 
کیا اس پراجیکٹ پر 16 مئی کے بعد کوئی کام ہوا؟
ہاں، ہم نے زیک بھائی کے ساتھ کنٹور کی مدد سے ترسیموں کو علیحدہ کرنے کے علاوہ کم از کم دو بالکل نئی ترکیبوں پر مختصر تبادلہ خیال کیا جن میں سے ایک تو سگمنٹیشن کے لیے ہے اور دوسرا بغیر سگمنٹیشن کے براہ راست تحریر کی شناخت کے لیے۔ :) :) :)

ممکن ہے کہ ان دونوں نئی ترکیبوں کو پہلے آزمایا جا چکا ہو، لیکن ابھی تک ہمارے مطالعے میں ایسا کوئی پیپر نہیں ایا جن میں ان پر طبع آزمائی کی گئی ہو، لہٰذا اس صورت میں ہم انھیں اپنی ترکیبیں کہنے میں حق بجانب ہوں گے۔ :) :) :)
 
ہم یہاں یہ سوچ رہے ہیں کہ پیپر تو آپ لکھ لیں گے پر اسے پڑھنے والے کہاں سے لائیں گے؟ :) مذاق برطرف، آپکی رپورٹس پیپرز بہت جامع ہوتی ہیں پر انہیں تھوڑا مختصر لکھا کریں۔
اگر خاطر خواہ تفصیل موجود نہ ہو تو ریسرچ پیپر کو سمجھنا مشکل ہوتا ہے۔ کانفرینس وغیرہ کے تحقیقی مقالوں میں تو پھر بھی صفحات کی حد کے چلتے زیادہ تر معاملات کو خارجی مراجع کے حوالے چھڑ دیا جاتا ہے لیکن تھیسس وغیرہ کو ایک کتاب کی طرح لکھنا ہوتا ہے کہ اس میں مستعمل اصطلاحات و تکنیک کا مختصر بیان موجود ہو تاکہ کوئی دوران سفر بھی اسے پڑھے تو کسی بات کو سمجھنے کے لیے مراجع کی طرف رجوع کرنا ضروری نہ ہو۔ :) :) :)
 
میرے ذہن میں ایک خیال آرہا تھا معلوم نہیں صحیح ہے یا غلط جس طرح رانا صاحب اور عارف کریم صاحب نے مل کر اردو کنورٹر بنایا تھا اس میں بھی لیگچر وغیرہ بنا کر اسکے ذریعے پہچان کروائی گئی تھی اور اس میں بھی نقاط اور کشتیوں کا مسئلہ تھا اگر رانا صاحب کے کیے ہوئے کام سے شاید کچھ کام آسان ہو جائے
اس بارے میں عارف کریم صاحب کو بہتر اندازہ ہوگا کہ یہ معاون ہو سکتا ہے یا نہیں
 
Top