اردو او سی آر

نبیل نے 'اردو او سی آر پر تحقیق' کی ذیل میں اس موضوع کا آغاز کیا، ‏جولائی 12, 2006

  1. بدتمیز

    بدتمیز محفلین

    مراسلے:
    1,423
    اردو اور انگریزی میں مشکل حروف کی وجہ سے ہے۔ اردو میں حروف ایک دوسرے سے جڑ جاتے ہیں جبکہ انگریزی میں لفظ بن کر بھی حروف اپنی جداگانہ شناخت برقرار رکھتے ہیں۔
    مگر پھر بھی اس کے بارے میں معلومات ضرور لیں یہ کہیں نہ کہیں کام کی نکلے گی۔
     
  2. مہوش علی

    مہوش علی لائبریرین

    مراسلے:
    3,003
    دیکھئے، انگریزی ہاتھ کی لکھائی میں بھی بھی Joining Handwriting کا تصور ہے (اور یہی تصور کچھ انگریزی فونٹز میں بھی ہے)
    چنانچہ، اسی بنیاد پر میں نے عرض کیا تھا کہ انگریزی ہاتھ کی لکھائی کی "کیس سٹڈی" فائدہ مند ہو سکتی ہے
     
    • پسندیدہ پسندیدہ × 1
  3. نبیل

    نبیل محفلین

    مراسلے:
    16,612
    جھنڈا:
    Germany
    موڈ:
    Depressed
    السلام علیکم،

    میں دیکھ رہا ہوں کہ ہم لوگ اس تھریڈ میں دو آئیڈیاز پر گفتگو کر رہے ہیں۔ پہلا یہ کہ ایک خالص اردو او سی آر کا آئیڈیا، یعنی ایسا نظام جس میں تصویری اردو کو پہچان کر اس کے حروف تک پہچان لیے جائیں۔ انگریزی میں او سی آر کا یہی تصور ہے۔ انگریزی کا تصویری مواد برقیانا ایک حل شدہ پرابلم ہے حالانکہ اس کا حل بھی non-trivial ہے۔ ملا کر لکھی گئی انگریزی کا بصری ادراک عام او سی آر سے کچھ مشکل ہوتا ہے۔ لیکن اس سب کی computational complexity اردو اور وہ بھی نستعلیق اردو کی او سی آر کے مقابلے میں عشر عشیر بھی نہیں ہے۔ اسی بات کو مد نظر رکھتے ہوئے میں نے ایک اور آئیڈیا پیش کیا تھا۔

    میرا نکتہ نظر یہ ہے کہ ایک باقاعدہ اردو او سی آر کا تیار کرنا جو کہ کسی بھی تصویری اردو مواد کو تحریری اردو میں کنورٹ کر سکے، خاصا دشوار ہوگا اور ابھی کافی عرصے تک ایسے کسی نظام کے وجود میں آنے کا امکان نہیں ہے۔ یہ صرف میرے اندازے ہیں لیکن میں محض اپنے مشاہدے کی بنیاد پر یہی کہہ رہا ہوں۔

    میں نے اس پرابلم کا جو متبادل حل پیش کیا ہے اس کی مثال انپیج میں نوری نستعلیق سے کمپوزنگ کی ہے۔ آج بھی ہم کسی ایک قابل استعمال نستعلیق فونٹ کا انتظار کر رہے ہیں جبکہ انپیج میں نستعلیق کمپوزنگ ایک عشرے سے اوپر سے ممکن ہے۔ انپیج بنانے والوں نے ایک ٹرو ٹائپ یا اوپن ٹائپ یا اوپن ٹائپ نستعلیق فونٹ بنانے کی بجائے لگیچرز کا نظام تشکیل دے دیا جسے تکنیکی اعتبار سے ایک خراب حل کہا جا سکتا ہے لیکن یہ اسی کی وجہ سے اردو کمپوزنگ کا مقبول ترین سوفٹویر ہے۔ (کیا میں ٹھیک کہہ رہا ہوں؟)

    ہاں تو میری تجویز یہ تھی کہ شروع میں اردو او سی آر اس طرز پر بنایا جائے کہ الفاظ کو حروف میں segment کرنے کی بجائے ان کی لگیچرز علیحدہ کی جائیں۔ میرے خیال سے اس طرح اس پرابلم کی complexity میں بے انتہا کمی واقع ہو سکتی ہے۔ اس کا نقصان یہ ہوگا کہ ایسے نظام میں 33 اردو حروف کی جگہ ہزاروں لگیچرز کی ڈیٹابیس بنانی پڑے گی۔ ایک اندازے کے مطابق انپیج کی لگیچرز کی ڈیٹابیس میں دس ہزار سے اوپر لگیچرز ہیں۔ اس سے کسی ایک لگیچر کی image recognition میں کافی وقت بھی صرف ہو سکتا ہے لیکن اسے implement کرنا میرے خیال میں کسی حد تک ممکن بھی ہوگا۔ اس طرح یہ
    ایک image recognition کی پرابلم بن جاتی ہے جو کہ او سی آر کے مقابلے میں نسبتاً آسان ہے۔
     
    • پسندیدہ پسندیدہ × 1
  4. محسن حجازی

    محسن حجازی محفلین

    مراسلے:
    2,525
    موڈ:
    Breezy
    او سی آر کے سلسلے میں جو بھی طلبا کام کر رہے ہیں وہ کسی ایک پروفیسر کے "پٹھو" ہی ہوتے ہیں اور آج کل تو فیشن ہے اس قسم کا پروجیکٹ کر نے کا۔ دو طلبا کو تو میں خود گائیڈ کر چکا ہوں۔ اس قسم کا زیادہ تر کام MatLab میں کیا جاتا ہے اور پورا پروجیکٹ چند سو لائن سے زیادہ نہیں ہوتا۔۔۔۔ تو یہ تو اس کی حقیقت ہے۔ اس میں "شناخت" کے پہلو پر بہت کم کام کیا گیا ہوتا ہے۔ لگ بھگ اس قسم کے 6 منصوبے میں دو سال میں دیکھ چکا ہوں جس میں "اصطلاحات" کی گرد اڑائی گئی ہوتی ہے۔۔۔
    نبیل بھائی کی بات ٹھیک ہے۔ ترسیمہ جات پر ہی چلنا پڑے گا۔ 15887 ترسیمہ جات ہیں ان پیج میں۔
    فاسٹ کا کام دیکھنے کا اتفاق نہیں ہوا صرف سنا ہی ہے۔
     
  5. نبیل

    نبیل محفلین

    مراسلے:
    16,612
    جھنڈا:
    Germany
    موڈ:
    Depressed
    محسن، تم کچھ بنیادی معلومات فراہم کرو تو اس سلسلے میں کام آگے بڑھایا جا سکتا ہے۔ کیا کچھ پراجیکٹس کی رپورٹس یا میٹ لیب کا سورس کوڈ وغیرہ مل سکتا ہے۔
     
  6. دوست

    دوست محفلین

    مراسلے:
    12,947
    جھنڈا:
    Germany
    موڈ:
    Fine
    میرا خیال ہے کہ اردو لغت کے ٹائپنگ مکمل ہوجانے پر ان ترسیموں کی ٹائپنگ رکھ لیتے ہیں۔ لیکن یہ مہیا کر دئیے جائیں۔ اگر یہ بن جائے تو شاید میں مستقبل میں اردو کا ایک Corpus ڈویلپ کرسکوں۔ اس طرح اردو گرامر کے مشینی تجزیے کی راہ ہموار ہوسکے گی۔ اگرچہ اس کے بعد اصل کام شروع ہوگا ۔ یعنی اردو کی گرامر کے لیے Parsers اور Taggers ڈویلپ کرنا۔ خیر یہ تو بہت دور کی باتیں ہیں۔ شاید کئی سال بعد کی۔۔۔۔۔۔
     
  7. محب علوی

    محب علوی لائبریرین

    مراسلے:
    11,262
    جھنڈا:
    Pakistan
    موڈ:
    Bookworm
    FAST اور UET دونوں یونیورسٹیوں کے ایک ایک گروپ نے او سی آر پر انعام جیتا ہوا ہے اگر انہیں تلاش کر لیا جائے اور ان سے گفت و شنید یا کم از کم کوڈ لے لیا جائے تو پہیہ کو دوبارہ ایجاد نہیں کرنا پڑے گا اور سب سے بڑھ کر دو طرح کی تکنیک بھی معلوم ہو جائے گی۔
     
  8. نبیل

    نبیل محفلین

    مراسلے:
    16,612
    جھنڈا:
    Germany
    موڈ:
    Depressed
    ان گروپس نے اپنا کوڈ جلا کر اسے انعام میں ملنے والی ٹرافی میں سنبھال کر رکھ لیا ہے اور اس کی ایشز سیریز کھیلتے ہیں۔۔ :?
     
  9. محب علوی

    محب علوی لائبریرین

    مراسلے:
    11,262
    جھنڈا:
    Pakistan
    موڈ:
    Bookworm
    UMT کے نعمان چشتی نے بھی اردو او سی آر پر کام کیا تھا۔ اسی یونیورسٹی کے ایک لڑکے سے میری بات ہوئی ہے اور اس نے کہا ہے کہ وہ اس کی دستاویزات لانے کی کوشش کرے گا۔ دیکھیں اگر کامیابی ہو جائے۔

    اس کے علاوہ میں UET اور فاسٹ سے بھی پتہ کرتا ہوں اگر پرانے بندوں کا اتا پتہ مل جائے۔
     
  10. نبیل

    نبیل محفلین

    مراسلے:
    16,612
    جھنڈا:
    Germany
    موڈ:
    Depressed
    اگر کوئی کام کی انفارمیشن ہو تو ضرور اکٹھی کرو۔۔ اگر وہی DCT, FFT, MFC, PHD, TCP کا ملغوبہ ہو تو اس کو فریم کروا کر واپس کر دینا۔۔ :arrow: :idea:
     
  11. محسن حجازی

    محسن حجازی محفلین

    مراسلے:
    2,525
    موڈ:
    Breezy
    نبیل بھائی کی بات سولہ آنے درست ہے۔ انعام کے حصول کے بعد کسی قسم کا کوئی سراغ نہیں ملتا کہ کدھر سے آیا اور کدھر کو گیا عجب مانوس اجنبی تھا۔۔۔۔
    ترسیمہ جات کو ٹائپ کرنے کی کوئی ضرورت نہیں۔ پاک نستعلیق کے دور میں مشینی طور پر 250 ایم بی یو نیکوڈ متن میں سے ترسیمہ جات بمعہ تعدد اخذ کروائے تھے وہ کام آ جائیں گے۔
     
  12. شارق مستقیم

    شارق مستقیم محفلین

    مراسلے:
    894
    آکروپس

    ایچ پی کے تحقیق کاروں نے ٹیسیریکٹ کے نام سے ایک او سی آر بنایا تھا جو اپنے وقت میں اس میدان کا شہنشاہ تھا۔ کچھ عرصہ قبل اسے اوپن سورس کردیا گیا اور اب یہ گوگل کوڈ پر آکروپس پراجیکٹ کی ذیل میں آ گیا ہے۔ اس حوالہ سے اردو کمپیوٹنگ (یاہو) گروہ پر دلچسپ بحث چلتی رہی تھی۔ آکروپس کے اردو ورژن کے لیے فیصل شفاعت نے ابتدائی کام کیا ہے۔ میرے خیال میں اس طرف توجہ مبذول کی جائے کیوں کہ اس میں بہت سے پراسیس مثلاً thinning، noise removal وغیرہ پہلے ہی انجام دیے جا چکے ہیں۔

    http://code.google.com/p/ocropus/
    http://groups.google.com/group/ocropus/web/ocropusurdu

    +++++++++++
     
    • پسندیدہ پسندیدہ × 1
  13. دوست

    دوست محفلین

    مراسلے:
    12,947
    جھنڈا:
    Germany
    موڈ:
    Fine
    گڈ۔ اگر یہ ہوجائے تو اردو ڈیٹا کا سیلاب آجائے گا۔
    لیکن یہ خیال رہے کہ انگریزی او سی آر بھی اب تک اس قابل نہیں کہ سو فیصد نتائج دے سکیں۔ میں پاکستانی انگش کے کورپس پر کام کررہا ہوں اپنے دو اساتذہ کے ساتھ (یہ ان کا پی ایچ ڈی ریسرچ پراجیکٹ ہے) نہ پوچھیں کہ ڈیٹا کی کتنی تدوین کی ہے اور اب بھی کررہے ہیں لیکن کچھ نہ کچھ نکل ہی آتا ہے غلطی کی صورت میں۔
    وسلام
     
  14. نبیل

    نبیل محفلین

    مراسلے:
    16,612
    جھنڈا:
    Germany
    موڈ:
    Depressed
    شکریہ شارق۔ میں اس پر تفصیلی نظر ڈالتا ہوں۔ اگر اس سمت میں کام ہو سکے اور کسی حد تک بھی مفید نتائج برآمد ہو جائیں تو اس سے کافی فائدہ ہو سکتا ہے۔

    ہمارا گول کبھی بھی سو فیصد اردو عبارت کی شناخت نہیں ہو سکتا۔ اگر ہم اردو عبارت والے صفحے کو سکین کرنے، اس کی بصری شناخت اور اس کی تصحیح کے مجموعی وقت کو اس صفحے کو ازسرنو ٹائپ کرنے کے وقت سے آدھا بھی لے آئیں تو یہ بڑی کامیابی ہوگی۔
     
  15. محب علوی

    محب علوی لائبریرین

    مراسلے:
    11,262
    جھنڈا:
    Pakistan
    موڈ:
    Bookworm
    کچھ اور گفت و شنید کے بعد پتہ چلا ہے کہ COMSATS کے ایک پروفیسر صاحب نے بھی اردو او سی آر پر کام کرکے اسے لائبریری میں رکھا ہے اور اسے قطعا لیجانے یا فوٹو کاپی کرنے کی اجازت نہیں۔ :lol: شاید صرف اپنی انا کی تسکین یا کامسیٹ کے سٹوڈنٹس تک ہی رسارئی ہے اس کی۔

    اس کے علاوہ CASE کے ایک پروفیسر نے بھی اس پر کام کیا ہے اور وہ کافی مصروف رہتے ہیں دیکھتے ہیں اگر ان سے ملاقات ہو پائے۔ ویسے میرے ایک کولیگ نے بھی تھوڑا بہت کام کیا ہے speech recognition پر ۔ معلومات کے ساتھ اگر خام سا سافٹ وئئیر بھی تیار ہو جائے تو آئیندہ کے لیے راہ کھل سکتی ہے۔
     
  16. آصف منیر

    آصف منیر محفلین

    مراسلے:
    1
    salam,
    We were students of UET Lahore and were given scholarship by www.navicosoft.com in this regard. Alhamdulillah, we had won two competitions in this regard. Please contact navicosoft to get help regarding Urdu Ocr.

    Regards,

    Asif Munir
     
  17. نبیل

    نبیل محفلین

    مراسلے:
    16,612
    جھنڈا:
    Germany
    موڈ:
    Depressed
    السلام علیکم،

    آصف منیر، محفل فورم پر خوش آمدید۔ navicosoft کی ویب سائٹ سے تو یہ کوئی ویب ہوسٹنگ کمپنی لگ رہی ہے، یہاں اردو او سی آر کی انفارمیشن کے لیے کس سے رابطہ کریں؟ اگر آپ نے اس پراجیکٹ پر کام کیا ہوا ہے تو آپ ہی یہاں اس کے بارے میں کچھ معلومات فراہم کر دیں۔ کم از کم یہ تو بتائیں کہ آپ نے کیا نتائج حاصل کیے تھے؟ اور کیا آپ کے پراجیکٹ میں کی گئی ریسرچ پر کوئی قدغن ہے کہ اسے پبلک نہیں کیا جا سکتا؟

    والسلام
     
  18. عمار ابن ضیا

    عمار ابن ضیا محفلین

    مراسلے:
    6,794
    جھنڈا:
    Pakistan
    موڈ:
    Busy
    جواب ندارد! :oops:


    :!:
     
  19. الف نظامی

    الف نظامی لائبریرین

    مراسلے:
    13,774
    جھنڈا:
    Pakistan
    موڈ:
    Cool
    محسن ، متن کے ساتھ اس کی تصویر کی بھی ضرورت ہوگی۔
     
  20. sahil786n

    sahil786n محفلین

    مراسلے:
    10
    thanks

    تھانکس ا لہت
     

اس صفحے کی تشہیر