اردو او سی آر

بدتمیز

محفلین
اردو اور انگریزی میں مشکل حروف کی وجہ سے ہے۔ اردو میں حروف ایک دوسرے سے جڑ جاتے ہیں جبکہ انگریزی میں لفظ بن کر بھی حروف اپنی جداگانہ شناخت برقرار رکھتے ہیں۔
مگر پھر بھی اس کے بارے میں معلومات ضرور لیں یہ کہیں نہ کہیں کام کی نکلے گی۔
 

مہوش علی

لائبریرین
بدتمیز نے کہا:
اردو اور انگریزی میں مشکل حروف کی وجہ سے ہے۔ اردو میں حروف ایک دوسرے سے جڑ جاتے ہیں جبکہ انگریزی میں لفظ بن کر بھی حروف اپنی جداگانہ شناخت برقرار رکھتے ہیں۔
مگر پھر بھی اس کے بارے میں معلومات ضرور لیں یہ کہیں نہ کہیں کام کی نکلے گی۔

دیکھئے، انگریزی ہاتھ کی لکھائی میں بھی بھی Joining Handwriting کا تصور ہے (اور یہی تصور کچھ انگریزی فونٹز میں بھی ہے)
چنانچہ، اسی بنیاد پر میں نے عرض کیا تھا کہ انگریزی ہاتھ کی لکھائی کی "کیس سٹڈی" فائدہ مند ہو سکتی ہے
 

نبیل

تکنیکی معاون
السلام علیکم،

میں دیکھ رہا ہوں کہ ہم لوگ اس تھریڈ میں دو آئیڈیاز پر گفتگو کر رہے ہیں۔ پہلا یہ کہ ایک خالص اردو او سی آر کا آئیڈیا، یعنی ایسا نظام جس میں تصویری اردو کو پہچان کر اس کے حروف تک پہچان لیے جائیں۔ انگریزی میں او سی آر کا یہی تصور ہے۔ انگریزی کا تصویری مواد برقیانا ایک حل شدہ پرابلم ہے حالانکہ اس کا حل بھی non-trivial ہے۔ ملا کر لکھی گئی انگریزی کا بصری ادراک عام او سی آر سے کچھ مشکل ہوتا ہے۔ لیکن اس سب کی computational complexity اردو اور وہ بھی نستعلیق اردو کی او سی آر کے مقابلے میں عشر عشیر بھی نہیں ہے۔ اسی بات کو مد نظر رکھتے ہوئے میں نے ایک اور آئیڈیا پیش کیا تھا۔

میرا نکتہ نظر یہ ہے کہ ایک باقاعدہ اردو او سی آر کا تیار کرنا جو کہ کسی بھی تصویری اردو مواد کو تحریری اردو میں کنورٹ کر سکے، خاصا دشوار ہوگا اور ابھی کافی عرصے تک ایسے کسی نظام کے وجود میں آنے کا امکان نہیں ہے۔ یہ صرف میرے اندازے ہیں لیکن میں محض اپنے مشاہدے کی بنیاد پر یہی کہہ رہا ہوں۔

میں نے اس پرابلم کا جو متبادل حل پیش کیا ہے اس کی مثال انپیج میں نوری نستعلیق سے کمپوزنگ کی ہے۔ آج بھی ہم کسی ایک قابل استعمال نستعلیق فونٹ کا انتظار کر رہے ہیں جبکہ انپیج میں نستعلیق کمپوزنگ ایک عشرے سے اوپر سے ممکن ہے۔ انپیج بنانے والوں نے ایک ٹرو ٹائپ یا اوپن ٹائپ یا اوپن ٹائپ نستعلیق فونٹ بنانے کی بجائے لگیچرز کا نظام تشکیل دے دیا جسے تکنیکی اعتبار سے ایک خراب حل کہا جا سکتا ہے لیکن یہ اسی کی وجہ سے اردو کمپوزنگ کا مقبول ترین سوفٹویر ہے۔ (کیا میں ٹھیک کہہ رہا ہوں؟)

ہاں تو میری تجویز یہ تھی کہ شروع میں اردو او سی آر اس طرز پر بنایا جائے کہ الفاظ کو حروف میں segment کرنے کی بجائے ان کی لگیچرز علیحدہ کی جائیں۔ میرے خیال سے اس طرح اس پرابلم کی complexity میں بے انتہا کمی واقع ہو سکتی ہے۔ اس کا نقصان یہ ہوگا کہ ایسے نظام میں 33 اردو حروف کی جگہ ہزاروں لگیچرز کی ڈیٹابیس بنانی پڑے گی۔ ایک اندازے کے مطابق انپیج کی لگیچرز کی ڈیٹابیس میں دس ہزار سے اوپر لگیچرز ہیں۔ اس سے کسی ایک لگیچر کی image recognition میں کافی وقت بھی صرف ہو سکتا ہے لیکن اسے implement کرنا میرے خیال میں کسی حد تک ممکن بھی ہوگا۔ اس طرح یہ
ایک image recognition کی پرابلم بن جاتی ہے جو کہ او سی آر کے مقابلے میں نسبتاً آسان ہے۔
 

محسن حجازی

محفلین
او سی آر کے سلسلے میں جو بھی طلبا کام کر رہے ہیں وہ کسی ایک پروفیسر کے "پٹھو" ہی ہوتے ہیں اور آج کل تو فیشن ہے اس قسم کا پروجیکٹ کر نے کا۔ دو طلبا کو تو میں خود گائیڈ کر چکا ہوں۔ اس قسم کا زیادہ تر کام MatLab میں کیا جاتا ہے اور پورا پروجیکٹ چند سو لائن سے زیادہ نہیں ہوتا۔۔۔۔ تو یہ تو اس کی حقیقت ہے۔ اس میں "شناخت" کے پہلو پر بہت کم کام کیا گیا ہوتا ہے۔ لگ بھگ اس قسم کے 6 منصوبے میں دو سال میں دیکھ چکا ہوں جس میں "اصطلاحات" کی گرد اڑائی گئی ہوتی ہے۔۔۔
نبیل بھائی کی بات ٹھیک ہے۔ ترسیمہ جات پر ہی چلنا پڑے گا۔ 15887 ترسیمہ جات ہیں ان پیج میں۔
فاسٹ کا کام دیکھنے کا اتفاق نہیں ہوا صرف سنا ہی ہے۔
 

نبیل

تکنیکی معاون
محسن، تم کچھ بنیادی معلومات فراہم کرو تو اس سلسلے میں کام آگے بڑھایا جا سکتا ہے۔ کیا کچھ پراجیکٹس کی رپورٹس یا میٹ لیب کا سورس کوڈ وغیرہ مل سکتا ہے۔
 

دوست

محفلین
میرا خیال ہے کہ اردو لغت کے ٹائپنگ مکمل ہوجانے پر ان ترسیموں کی ٹائپنگ رکھ لیتے ہیں۔ لیکن یہ مہیا کر دئیے جائیں۔ اگر یہ بن جائے تو شاید میں مستقبل میں اردو کا ایک Corpus ڈویلپ کرسکوں۔ اس طرح اردو گرامر کے مشینی تجزیے کی راہ ہموار ہوسکے گی۔ اگرچہ اس کے بعد اصل کام شروع ہوگا ۔ یعنی اردو کی گرامر کے لیے Parsers اور Taggers ڈویلپ کرنا۔ خیر یہ تو بہت دور کی باتیں ہیں۔ شاید کئی سال بعد کی۔۔۔۔۔۔
 
FAST اور UET دونوں یونیورسٹیوں کے ایک ایک گروپ نے او سی آر پر انعام جیتا ہوا ہے اگر انہیں تلاش کر لیا جائے اور ان سے گفت و شنید یا کم از کم کوڈ لے لیا جائے تو پہیہ کو دوبارہ ایجاد نہیں کرنا پڑے گا اور سب سے بڑھ کر دو طرح کی تکنیک بھی معلوم ہو جائے گی۔
 

نبیل

تکنیکی معاون
ان گروپس نے اپنا کوڈ جلا کر اسے انعام میں ملنے والی ٹرافی میں سنبھال کر رکھ لیا ہے اور اس کی ایشز سیریز کھیلتے ہیں۔۔ :?
 
UMT کے نعمان چشتی نے بھی اردو او سی آر پر کام کیا تھا۔ اسی یونیورسٹی کے ایک لڑکے سے میری بات ہوئی ہے اور اس نے کہا ہے کہ وہ اس کی دستاویزات لانے کی کوشش کرے گا۔ دیکھیں اگر کامیابی ہو جائے۔

اس کے علاوہ میں UET اور فاسٹ سے بھی پتہ کرتا ہوں اگر پرانے بندوں کا اتا پتہ مل جائے۔
 

نبیل

تکنیکی معاون
اگر کوئی کام کی انفارمیشن ہو تو ضرور اکٹھی کرو۔۔ اگر وہی DCT, FFT, MFC, PHD, TCP کا ملغوبہ ہو تو اس کو فریم کروا کر واپس کر دینا۔۔ :arrow: :idea:
 

محسن حجازی

محفلین
نبیل بھائی کی بات سولہ آنے درست ہے۔ انعام کے حصول کے بعد کسی قسم کا کوئی سراغ نہیں ملتا کہ کدھر سے آیا اور کدھر کو گیا عجب مانوس اجنبی تھا۔۔۔۔
ترسیمہ جات کو ٹائپ کرنے کی کوئی ضرورت نہیں۔ پاک نستعلیق کے دور میں مشینی طور پر 250 ایم بی یو نیکوڈ متن میں سے ترسیمہ جات بمعہ تعدد اخذ کروائے تھے وہ کام آ جائیں گے۔
 
آکروپس

ایچ پی کے تحقیق کاروں نے ٹیسیریکٹ کے نام سے ایک او سی آر بنایا تھا جو اپنے وقت میں اس میدان کا شہنشاہ تھا۔ کچھ عرصہ قبل اسے اوپن سورس کردیا گیا اور اب یہ گوگل کوڈ پر آکروپس پراجیکٹ کی ذیل میں آ گیا ہے۔ اس حوالہ سے اردو کمپیوٹنگ (یاہو) گروہ پر دلچسپ بحث چلتی رہی تھی۔ آکروپس کے اردو ورژن کے لیے فیصل شفاعت نے ابتدائی کام کیا ہے۔ میرے خیال میں اس طرف توجہ مبذول کی جائے کیوں کہ اس میں بہت سے پراسیس مثلاً thinning، noise removal وغیرہ پہلے ہی انجام دیے جا چکے ہیں۔

http://code.google.com/p/ocropus/
http://groups.google.com/group/ocropus/web/ocropusurdu

+++++++++++
 

دوست

محفلین
گڈ۔ اگر یہ ہوجائے تو اردو ڈیٹا کا سیلاب آجائے گا۔
لیکن یہ خیال رہے کہ انگریزی او سی آر بھی اب تک اس قابل نہیں کہ سو فیصد نتائج دے سکیں۔ میں پاکستانی انگش کے کورپس پر کام کررہا ہوں اپنے دو اساتذہ کے ساتھ (یہ ان کا پی ایچ ڈی ریسرچ پراجیکٹ ہے) نہ پوچھیں کہ ڈیٹا کی کتنی تدوین کی ہے اور اب بھی کررہے ہیں لیکن کچھ نہ کچھ نکل ہی آتا ہے غلطی کی صورت میں۔
وسلام
 

نبیل

تکنیکی معاون
شکریہ شارق۔ میں اس پر تفصیلی نظر ڈالتا ہوں۔ اگر اس سمت میں کام ہو سکے اور کسی حد تک بھی مفید نتائج برآمد ہو جائیں تو اس سے کافی فائدہ ہو سکتا ہے۔

ہمارا گول کبھی بھی سو فیصد اردو عبارت کی شناخت نہیں ہو سکتا۔ اگر ہم اردو عبارت والے صفحے کو سکین کرنے، اس کی بصری شناخت اور اس کی تصحیح کے مجموعی وقت کو اس صفحے کو ازسرنو ٹائپ کرنے کے وقت سے آدھا بھی لے آئیں تو یہ بڑی کامیابی ہوگی۔
 
کچھ اور گفت و شنید کے بعد پتہ چلا ہے کہ COMSATS کے ایک پروفیسر صاحب نے بھی اردو او سی آر پر کام کرکے اسے لائبریری میں رکھا ہے اور اسے قطعا لیجانے یا فوٹو کاپی کرنے کی اجازت نہیں۔ :lol: شاید صرف اپنی انا کی تسکین یا کامسیٹ کے سٹوڈنٹس تک ہی رسارئی ہے اس کی۔

اس کے علاوہ CASE کے ایک پروفیسر نے بھی اس پر کام کیا ہے اور وہ کافی مصروف رہتے ہیں دیکھتے ہیں اگر ان سے ملاقات ہو پائے۔ ویسے میرے ایک کولیگ نے بھی تھوڑا بہت کام کیا ہے speech recognition پر ۔ معلومات کے ساتھ اگر خام سا سافٹ وئئیر بھی تیار ہو جائے تو آئیندہ کے لیے راہ کھل سکتی ہے۔
 

نبیل

تکنیکی معاون
السلام علیکم،

آصف منیر، محفل فورم پر خوش آمدید۔ navicosoft کی ویب سائٹ سے تو یہ کوئی ویب ہوسٹنگ کمپنی لگ رہی ہے، یہاں اردو او سی آر کی انفارمیشن کے لیے کس سے رابطہ کریں؟ اگر آپ نے اس پراجیکٹ پر کام کیا ہوا ہے تو آپ ہی یہاں اس کے بارے میں کچھ معلومات فراہم کر دیں۔ کم از کم یہ تو بتائیں کہ آپ نے کیا نتائج حاصل کیے تھے؟ اور کیا آپ کے پراجیکٹ میں کی گئی ریسرچ پر کوئی قدغن ہے کہ اسے پبلک نہیں کیا جا سکتا؟

والسلام
 

الف نظامی

لائبریرین
محسن حجازی نے کہا:

ترسیمہ جات کو ٹائپ کرنے کی کوئی ضرورت نہیں۔ پاک نستعلیق کے دور میں مشینی طور پر 250 ایم بی یو نیکوڈ متن میں سے ترسیمہ جات بمعہ تعدد اخذ کروائے تھے وہ کام آ جائیں گے۔
محسن ، متن کے ساتھ اس کی تصویر کی بھی ضرورت ہوگی۔
 
Top