اردو او سی آر

بدتمیز · فروری 11، 2007

اردو اور انگریزی میں مشکل حروف کی وجہ سے ہے۔ اردو میں حروف ایک دوسرے سے جڑ جاتے ہیں جبکہ انگریزی میں لفظ بن کر بھی حروف اپنی جداگانہ شناخت برقرار رکھتے ہیں۔
مگر پھر بھی اس کے بارے میں معلومات ضرور لیں یہ کہیں نہ کہیں کام کی نکلے گی۔

مہوش علی · فروری 11، 2007

بدتمیز نے کہا:
اردو اور انگریزی میں مشکل حروف کی وجہ سے ہے۔ اردو میں حروف ایک دوسرے سے جڑ جاتے ہیں جبکہ انگریزی میں لفظ بن کر بھی حروف اپنی جداگانہ شناخت برقرار رکھتے ہیں۔
مگر پھر بھی اس کے بارے میں معلومات ضرور لیں یہ کہیں نہ کہیں کام کی نکلے گی۔

دیکھئے، انگریزی ہاتھ کی لکھائی میں بھی بھی Joining Handwriting کا تصور ہے (اور یہی تصور کچھ انگریزی فونٹز میں بھی ہے)
چنانچہ، اسی بنیاد پر میں نے عرض کیا تھا کہ انگریزی ہاتھ کی لکھائی کی "کیس سٹڈی" فائدہ مند ہو سکتی ہے

نبیل · فروری 11، 2007

السلام علیکم،

میں دیکھ رہا ہوں کہ ہم لوگ اس تھریڈ میں دو آئیڈیاز پر گفتگو کر رہے ہیں۔ پہلا یہ کہ ایک خالص اردو او سی آر کا آئیڈیا، یعنی ایسا نظام جس میں تصویری اردو کو پہچان کر اس کے حروف تک پہچان لیے جائیں۔ انگریزی میں او سی آر کا یہی تصور ہے۔ انگریزی کا تصویری مواد برقیانا ایک حل شدہ پرابلم ہے حالانکہ اس کا حل بھی non-trivial ہے۔ ملا کر لکھی گئی انگریزی کا بصری ادراک عام او سی آر سے کچھ مشکل ہوتا ہے۔ لیکن اس سب کی computational complexity اردو اور وہ بھی نستعلیق اردو کی او سی آر کے مقابلے میں عشر عشیر بھی نہیں ہے۔ اسی بات کو مد نظر رکھتے ہوئے میں نے ایک اور آئیڈیا پیش کیا تھا۔

میرا نکتہ نظر یہ ہے کہ ایک باقاعدہ اردو او سی آر کا تیار کرنا جو کہ کسی بھی تصویری اردو مواد کو تحریری اردو میں کنورٹ کر سکے، خاصا دشوار ہوگا اور ابھی کافی عرصے تک ایسے کسی نظام کے وجود میں آنے کا امکان نہیں ہے۔ یہ صرف میرے اندازے ہیں لیکن میں محض اپنے مشاہدے کی بنیاد پر یہی کہہ رہا ہوں۔

میں نے اس پرابلم کا جو متبادل حل پیش کیا ہے اس کی مثال انپیج میں نوری نستعلیق سے کمپوزنگ کی ہے۔ آج بھی ہم کسی ایک قابل استعمال نستعلیق فونٹ کا انتظار کر رہے ہیں جبکہ انپیج میں نستعلیق کمپوزنگ ایک عشرے سے اوپر سے ممکن ہے۔ انپیج بنانے والوں نے ایک ٹرو ٹائپ یا اوپن ٹائپ یا اوپن ٹائپ نستعلیق فونٹ بنانے کی بجائے لگیچرز کا نظام تشکیل دے دیا جسے تکنیکی اعتبار سے ایک خراب حل کہا جا سکتا ہے لیکن یہ اسی کی وجہ سے اردو کمپوزنگ کا مقبول ترین سوفٹویر ہے۔ (کیا میں ٹھیک کہہ رہا ہوں؟)

ہاں تو میری تجویز یہ تھی کہ شروع میں اردو او سی آر اس طرز پر بنایا جائے کہ الفاظ کو حروف میں segment کرنے کی بجائے ان کی لگیچرز علیحدہ کی جائیں۔ میرے خیال سے اس طرح اس پرابلم کی complexity میں بے انتہا کمی واقع ہو سکتی ہے۔ اس کا نقصان یہ ہوگا کہ ایسے نظام میں 33 اردو حروف کی جگہ ہزاروں لگیچرز کی ڈیٹابیس بنانی پڑے گی۔ ایک اندازے کے مطابق انپیج کی لگیچرز کی ڈیٹابیس میں دس ہزار سے اوپر لگیچرز ہیں۔ اس سے کسی ایک لگیچر کی image recognition میں کافی وقت بھی صرف ہو سکتا ہے لیکن اسے implement کرنا میرے خیال میں کسی حد تک ممکن بھی ہوگا۔ اس طرح یہ
ایک image recognition کی پرابلم بن جاتی ہے جو کہ او سی آر کے مقابلے میں نسبتاً آسان ہے۔

محسن حجازی · جون 21، 2007

او سی آر کے سلسلے میں جو بھی طلبا کام کر رہے ہیں وہ کسی ایک پروفیسر کے "پٹھو" ہی ہوتے ہیں اور آج کل تو فیشن ہے اس قسم کا پروجیکٹ کر نے کا۔ دو طلبا کو تو میں خود گائیڈ کر چکا ہوں۔ اس قسم کا زیادہ تر کام MatLab میں کیا جاتا ہے اور پورا پروجیکٹ چند سو لائن سے زیادہ نہیں ہوتا۔۔۔۔ تو یہ تو اس کی حقیقت ہے۔ اس میں "شناخت" کے پہلو پر بہت کم کام کیا گیا ہوتا ہے۔ لگ بھگ اس قسم کے 6 منصوبے میں دو سال میں دیکھ چکا ہوں جس میں "اصطلاحات" کی گرد اڑائی گئی ہوتی ہے۔۔۔
نبیل بھائی کی بات ٹھیک ہے۔ ترسیمہ جات پر ہی چلنا پڑے گا۔ 15887 ترسیمہ جات ہیں ان پیج میں۔
فاسٹ کا کام دیکھنے کا اتفاق نہیں ہوا صرف سنا ہی ہے۔

نبیل · جون 21، 2007

محسن، تم کچھ بنیادی معلومات فراہم کرو تو اس سلسلے میں کام آگے بڑھایا جا سکتا ہے۔ کیا کچھ پراجیکٹس کی رپورٹس یا میٹ لیب کا سورس کوڈ وغیرہ مل سکتا ہے۔

دوست · جون 21، 2007

میرا خیال ہے کہ اردو لغت کے ٹائپنگ مکمل ہوجانے پر ان ترسیموں کی ٹائپنگ رکھ لیتے ہیں۔ لیکن یہ مہیا کر دئیے جائیں۔ اگر یہ بن جائے تو شاید میں مستقبل میں اردو کا ایک Corpus ڈویلپ کرسکوں۔ اس طرح اردو گرامر کے مشینی تجزیے کی راہ ہموار ہوسکے گی۔ اگرچہ اس کے بعد اصل کام شروع ہوگا ۔ یعنی اردو کی گرامر کے لیے Parsers اور Taggers ڈویلپ کرنا۔ خیر یہ تو بہت دور کی باتیں ہیں۔ شاید کئی سال بعد کی۔۔۔۔۔۔

محب علوی · جون 21، 2007

FAST اور UET دونوں یونیورسٹیوں کے ایک ایک گروپ نے او سی آر پر انعام جیتا ہوا ہے اگر انہیں تلاش کر لیا جائے اور ان سے گفت و شنید یا کم از کم کوڈ لے لیا جائے تو پہیہ کو دوبارہ ایجاد نہیں کرنا پڑے گا اور سب سے بڑھ کر دو طرح کی تکنیک بھی معلوم ہو جائے گی۔

نبیل · جون 21، 2007

ان گروپس نے اپنا کوڈ جلا کر اسے انعام میں ملنے والی ٹرافی میں سنبھال کر رکھ لیا ہے اور اس کی ایشز سیریز کھیلتے ہیں۔۔

محب علوی · جون 21، 2007

UMT کے نعمان چشتی نے بھی اردو او سی آر پر کام کیا تھا۔ اسی یونیورسٹی کے ایک لڑکے سے میری بات ہوئی ہے اور اس نے کہا ہے کہ وہ اس کی دستاویزات لانے کی کوشش کرے گا۔ دیکھیں اگر کامیابی ہو جائے۔

اس کے علاوہ میں UET اور فاسٹ سے بھی پتہ کرتا ہوں اگر پرانے بندوں کا اتا پتہ مل جائے۔

نبیل · جون 21، 2007

اگر کوئی کام کی انفارمیشن ہو تو ضرور اکٹھی کرو۔۔ اگر وہی DCT, FFT, MFC, PHD, TCP کا ملغوبہ ہو تو اس کو فریم کروا کر واپس کر دینا۔۔ :arrow:

محسن حجازی · جون 22، 2007

نبیل بھائی کی بات سولہ آنے درست ہے۔ انعام کے حصول کے بعد کسی قسم کا کوئی سراغ نہیں ملتا کہ کدھر سے آیا اور کدھر کو گیا عجب مانوس اجنبی تھا۔۔۔۔
ترسیمہ جات کو ٹائپ کرنے کی کوئی ضرورت نہیں۔ پاک نستعلیق کے دور میں مشینی طور پر 250 ایم بی یو نیکوڈ متن میں سے ترسیمہ جات بمعہ تعدد اخذ کروائے تھے وہ کام آ جائیں گے۔

شارق مستقیم · جون 22، 2007

آکروپس

ایچ پی کے تحقیق کاروں نے ٹیسیریکٹ کے نام سے ایک او سی آر بنایا تھا جو اپنے وقت میں اس میدان کا شہنشاہ تھا۔ کچھ عرصہ قبل اسے اوپن سورس کردیا گیا اور اب یہ گوگل کوڈ پر آکروپس پراجیکٹ کی ذیل میں آ گیا ہے۔ اس حوالہ سے اردو کمپیوٹنگ (یاہو) گروہ پر دلچسپ بحث چلتی رہی تھی۔ آکروپس کے اردو ورژن کے لیے فیصل شفاعت نے ابتدائی کام کیا ہے۔ میرے خیال میں اس طرف توجہ مبذول کی جائے کیوں کہ اس میں بہت سے پراسیس مثلاً thinning، noise removal وغیرہ پہلے ہی انجام دیے جا چکے ہیں۔

http://code.google.com/p/ocropus/
http://groups.google.com/group/ocropus/web/ocropusurdu

+++++++++++

دوست · جون 22، 2007

گڈ۔ اگر یہ ہوجائے تو اردو ڈیٹا کا سیلاب آجائے گا۔
لیکن یہ خیال رہے کہ انگریزی او سی آر بھی اب تک اس قابل نہیں کہ سو فیصد نتائج دے سکیں۔ میں پاکستانی انگش کے کورپس پر کام کررہا ہوں اپنے دو اساتذہ کے ساتھ (یہ ان کا پی ایچ ڈی ریسرچ پراجیکٹ ہے) نہ پوچھیں کہ ڈیٹا کی کتنی تدوین کی ہے اور اب بھی کررہے ہیں لیکن کچھ نہ کچھ نکل ہی آتا ہے غلطی کی صورت میں۔
وسلام

نبیل · جون 22، 2007

شکریہ شارق۔ میں اس پر تفصیلی نظر ڈالتا ہوں۔ اگر اس سمت میں کام ہو سکے اور کسی حد تک بھی مفید نتائج برآمد ہو جائیں تو اس سے کافی فائدہ ہو سکتا ہے۔

ہمارا گول کبھی بھی سو فیصد اردو عبارت کی شناخت نہیں ہو سکتا۔ اگر ہم اردو عبارت والے صفحے کو سکین کرنے، اس کی بصری شناخت اور اس کی تصحیح کے مجموعی وقت کو اس صفحے کو ازسرنو ٹائپ کرنے کے وقت سے آدھا بھی لے آئیں تو یہ بڑی کامیابی ہوگی۔

محب علوی · جون 22، 2007

کچھ اور گفت و شنید کے بعد پتہ چلا ہے کہ COMSATS کے ایک پروفیسر صاحب نے بھی اردو او سی آر پر کام کرکے اسے لائبریری میں رکھا ہے اور اسے قطعا لیجانے یا فوٹو کاپی کرنے کی اجازت نہیں۔ :lol:

شاید صرف اپنی انا کی تسکین یا کامسیٹ کے سٹوڈنٹس تک ہی رسارئی ہے اس کی۔

اس کے علاوہ CASE کے ایک پروفیسر نے بھی اس پر کام کیا ہے اور وہ کافی مصروف رہتے ہیں دیکھتے ہیں اگر ان سے ملاقات ہو پائے۔ ویسے میرے ایک کولیگ نے بھی تھوڑا بہت کام کیا ہے speech recognition پر ۔ معلومات کے ساتھ اگر خام سا سافٹ وئئیر بھی تیار ہو جائے تو آئیندہ کے لیے راہ کھل سکتی ہے۔

آصف منیر · جون 24، 2007

salam,
We were students of UET Lahore and were given scholarship by www.navicosoft.com in this regard. Alhamdulillah, we had won two competitions in this regard. Please contact navicosoft to get help regarding Urdu Ocr.

Regards,

Asif Munir

نبیل · جون 24، 2007

السلام علیکم،

آصف منیر، محفل فورم پر خوش آمدید۔ navicosoft کی ویب سائٹ سے تو یہ کوئی ویب ہوسٹنگ کمپنی لگ رہی ہے، یہاں اردو او سی آر کی انفارمیشن کے لیے کس سے رابطہ کریں؟ اگر آپ نے اس پراجیکٹ پر کام کیا ہوا ہے تو آپ ہی یہاں اس کے بارے میں کچھ معلومات فراہم کر دیں۔ کم از کم یہ تو بتائیں کہ آپ نے کیا نتائج حاصل کیے تھے؟ اور کیا آپ کے پراجیکٹ میں کی گئی ریسرچ پر کوئی قدغن ہے کہ اسے پبلک نہیں کیا جا سکتا؟

والسلام

عمار ابن ضیا · جون 28، 2007

جواب ندارد!

الف نظامی · جون 30، 2007

محسن حجازی نے کہا:
ترسیمہ جات کو ٹائپ کرنے کی کوئی ضرورت نہیں۔ پاک نستعلیق کے دور میں مشینی طور پر 250 ایم بی یو نیکوڈ متن میں سے ترسیمہ جات بمعہ تعدد اخذ کروائے تھے وہ کام آ جائیں گے۔

محسن ، متن کے ساتھ اس کی تصویر کی بھی ضرورت ہوگی۔

sahil786n · نومبر 14، 2007

thanks

تھانکس ا لہت

اردو او سی آر

محفلین

لائبریرین

تکنیکی معاون

محفلین

تکنیکی معاون

محفلین

لائبریرین

تکنیکی معاون

لائبریرین

تکنیکی معاون

محفلین

محفلین

محفلین

تکنیکی معاون

لائبریرین

محفلین

تکنیکی معاون

محفلین

لائبریرین

محفلین