اردو او سی آر

نبیل نے 'اردو او سی آر پر تحقیق' کی ذیل میں اس موضوع کا آغاز کیا، ‏جولائی 12, 2006

  1. نبیل

    نبیل محفلین

    مراسلے:
    16,743
    جھنڈا:
    Germany
    موڈ:
    Depressed
    میں جانتا ہوں کہ کئی دوست اس موضوع کو دیکھ کر ہی سر ہلا دیں کہ ایسا ہونا ناممکن ہے لیکن میرے خیال میں یہ ہرگز ناممکن نہیں ہے۔ صرف اس سمت میں کام کرنے کے لیے بہت وقت اور ریسورسز کی ضرورت ہوگی۔ ایسی اطلاعات بھی ہیں کہ فاسٹ اور انجینیرنگ یونیورسٹی لاہور کے سٹوڈنٹس نے اس سمت میں کچھ کام کیا ہوا ہے۔ یہ کام غالباً تجارتی انٹرسٹس کی وجہ سے پبلک نہیں کیا گیا۔ ویسے لگتا نہیں کہ یہ سوفٹویر کمرشل بھی کیا گیا ہے۔ یہ افسوسناک صورتحال ضرور ہے لیکن اس پر کام ختم نہیں ہو جانا چاہیے۔ میری دانست میں اردو او سی آر پر کام ماسٹرز کی سطح کا پراجیکٹ مانا جا سکتا ہے، اگرچہ اس میں جزوی کامیابی ہی کیوں نہ حاصل ہو۔

    میرا اندازہ ہے کہ اس قسم کے پراجیکٹ پر کام کرنے کے لیے امیج پراسیسنگ اور مصنوعی ذہانت (artificial intelligence) کی فیلڈز میں مہارت ضروری ہوگی۔ اس سمت میں کسی قسم کی کامیابی بھی اردو کمپیوٹنگ کی تاریخ میں ایک سنگ میل ثابت ہو سکتی ہے۔ میں اس پوسٹ میں آپٹیکل کیریکٹر ریکگنیشن سے متعلقہ معلومات اکٹھا کرتا رہوں گا۔

    متعلقہ روابط:

    [align=left:90852c5332][eng:90852c5332]
    Neural Network OCR
    [/eng:90852c5332][/align:90852c5332]
     
    • پسندیدہ پسندیدہ × 2
  2. قیصرانی

    قیصرانی لائبریرین

    مراسلے:
    45,875
    جھنڈا:
    Finland
    موڈ:
    Festive
    شکریہ نبیل بھائی
    قیصرانی
     
  3. محب علوی

    محب علوی لائبریرین

    مراسلے:
    12,138
    جھنڈا:
    Pakistan
    موڈ:
    Bookworm
    نبیل یقینا یہ ایک بہت اچھا موضوع ہے اور اس پر ہمیں اپنی تحقیق جاری رکھنی چاہیے۔ میں نے اس پر کچھ ریسرچ کی تھی اور اس بات پاکستان جا کر میں کوشش کروں گا کہ ان سٹوڈنٹس سے مل سکوں جنہوں نے اس پر کام کیا ہے ۔ کوئی سرا بھی ہاتھ آجائے تو ایک دلچسپ اور نہایت مفید تحقیق کو ہم اردو محفل پر آگے بڑھاتے رہیں گے۔
     
  4. زیک

    زیک محفلین

    مراسلے:
    38,733
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    میں ادھر چپ ہی رہوں تو بہتر ہے کہ امیج پراسیسنگ کا بندہ ہوں۔
     
  5. نبیل

    نبیل محفلین

    مراسلے:
    16,743
    جھنڈا:
    Germany
    موڈ:
    Depressed
    اب تو آپ بول پڑے ہیں۔ اب بتائیں کہ اردو او سی آر کیسے بنایا جائے؟ :)
     
  6. محب علوی

    محب علوی لائبریرین

    مراسلے:
    12,138
    جھنڈا:
    Pakistan
    موڈ:
    Bookworm
    زکریا میں تو آج تک خدا کا بندہ سمجھتا رہا آک پتہ چلا کہ امیج پروسیسنگ کے بندے ہیں۔ :lol:

    ویسے کچھ اظہار خیال ہو جائے تو کچھ ہم لوگ بھی سیکھ لیں اور کسی بحث میں حوالہ ہی دے سکیں کہ ایک امیج پروسیسنگ کے بندے نے یہ سب بتایا تھا ہمیں۔
     
  7. زیک

    زیک محفلین

    مراسلے:
    38,733
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
  8. زیک

    زیک محفلین

    مراسلے:
    38,733
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    کسی نے خدا کے بندے کی یہ تعریف کی ہے:

    خدا کے بندے تو ہیں ہزاروں بنوں میں پھرتے ہیں مارے مارے

    مگر میں تو کبھی بنوں گیا ہی نہیں۔
     
  9. قیصرانی

    قیصرانی لائبریرین

    مراسلے:
    45,875
    جھنڈا:
    Finland
    موڈ:
    Festive
    بہت عمدہ زکریا بھائی :lol:
    قیصرانی
     
  10. زیک

    زیک محفلین

    مراسلے:
    38,733
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
  11. محب علوی

    محب علوی لائبریرین

    مراسلے:
    12,138
    جھنڈا:
    Pakistan
    موڈ:
    Bookworm
    لاجواب کردیا زکریا :)
     
  12. زیک

    زیک محفلین

    مراسلے:
    38,733
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    کچھ ابتدائی باتیں:
    1. اردو او‌سی‌آر عربی سے زیادہ مشکل ہو گی۔ اس کی وجہ وہ فونٹ ہے جسے ہمیں بہت پہلے کوڑے کے ڈرم میں پھینک دینا چاہیئے تھا۔
    2. عربی اور فارسی کی او‌سی‌آر پر کافی کام ہوا ہے جو کام آ سکتا ہے۔
    3. اگر عربی یا فارسی او‌سی‌آر کا کوئی کوڈ مل جائے تو کیا ہی بات ہے۔
    4. اگر کوڈ نہ ملے تو کسی سسٹم کو دیکھ کر یا ریسرچ پیپرز پڑھ کر algorithms اور کوڈ لکھا جا سکتا ہے۔
    5. اگر algorithm پر خود کچھ کام کرنا پڑے تو یہ پراجیکٹ کچھ لمبا اور مشکل ہو جائے گا مگر ساتھ ساتھ stakes بھی بڑھ جائیں گے کہ کام پبلش بھی شاید کیا جا سکے۔
    6. یہ نوٹ کریں کہ اردو او‌سی‌آر پر پیپر ملا بھی تو پاکستانیوں کا نہیں!
     
  13. نبیل

    نبیل محفلین

    مراسلے:
    16,743
    جھنڈا:
    Germany
    موڈ:
    Depressed
    زکریا، آپ فونٹ کی بات کر رہے ہیں یا نستلعیق رسم الخط کی؟

    میں نے sourceforge.net پر فارسی اور عربی او سی آر کے بارے تلاش تو کیا ہے لیکن اس کے کوئی خاطر خواہ نتائج برآمد نہیں ہوئے۔ میرا بھی یہی خیال ہے کہ پہیہ دوبارہ ایجاد کرنے کی بجائے کسی پہلے سے قائم معیار کو بنیاد بنا کر اس پر کام کیا جائے۔
     
  14. زیک

    زیک محفلین

    مراسلے:
    38,733
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    نبیل: نستعلیق رسم الخط کی کہ اس میں حروف ایک لائن پر نہیں ہوتے اور ان کی شکل بھی بہت بدلتی رہتی ہے۔ ligatures بھی بہت زیادہ استعمال ہوتے ہیں اس لئے حروف کو جدا کرنا کچھ مشکل ہو جاتا ہے۔

    اگر کوئی اوپن‌سورس سافٹ‌ویر نہ ملے تو ریسرچ کوڈ ڈھونڈلنے کی کوشش کی جا سکتی ہے۔ ممکن ہے وہ مل جائے۔
     
  15. الف نظامی

    الف نظامی لائبریرین

    مراسلے:
    16,106
    جھنڈا:
    Pakistan
    موڈ:
    Amused
    انٹرنیشنل اسلامی یونیورسٹی میں ایم سی ایس کے کسی طالبعلم نے فائنل پراجیکٹ اردو او سی آر کیا تھا۔
     
  16. محمد شمیل قریشی

    محمد شمیل قریشی محفلین

    مراسلے:
    1,405
    جھنڈا:
    Pakistan
    موڈ:
    Amused
    بھائیوں : تو اب بات کا لچوڑ آپ لوگوں نے کیا نکالا ہے ۔ اگر کوئي ایسا او سی آر ہے تو میجھے بھی اس کو ڈاون لوڈ کرنے کے لیے جگہ بتا دیں ۔
     
  17. محب علوی

    محب علوی لائبریرین

    مراسلے:
    12,138
    جھنڈا:
    Pakistan
    موڈ:
    Bookworm
    راجہ کیا پتہ چل سکتا ہے کچھ اس طالبعلم کا اور اس کے پراجیکٹ کا۔
     
  18. نبیل

    نبیل محفلین

    مراسلے:
    16,743
    جھنڈا:
    Germany
    موڈ:
    Depressed
    ایک آئیڈیا

    شمیل، بھائی ابھی ایسی کوئی ڈاؤنلوڈ موجود نہیں ہے۔ شاید ہماری اگلی نسلوں کے لیے ایسا کوئی فری ویر دستیاب ہو۔۔۔ اردو ویب پر :)

    میرے ذہن میں ایک آئیڈیا آیا ہے جسے میں یہاں پیش کر رہا ہوں۔ دوست بھی اس پر اظہار خیال فرمائیں۔ میرے خیال میں اردو او سی آر ، خاص طور پر وہ بھی نستعلیق میں لکھے ہوئے ٹیکسٹ کی، کمپیوٹیشن کے اعتبار سے تقریباً ناقابل حل پرابلم ہوگی۔ عام طور پر عربی اور اس سے متشابہہ رسم الخط میں ٹیکسٹ کو پہچاننے کے لیے algorithm الفاظ کا جائزہ لے کر حروف علیحدہ کرتے ہیں۔ میرے اندازے کے مطابق اس کے لیے کافی پیچیدہ pattern recognition کے الگوتھم کی ضرورت ہوتی ہے۔

    ایک نسبتاً آسان طریقہ یہ ہو سکتا ہے کہ الفاظ سے حروف کو علیحدہ کرنے کا کام ہی نہ کیا جائے بلکہ تمام ممکنہ شیپس کی ڈیٹابیس تیار کر لی جائے اور تصویری عبارت کو تحریری شکل میں اسی کے ذریعے تبدیل کیا جائے۔ یہ اس سے ملتا جلتا حل ہوگا جیسا کہ انپیج کمپوزنگ سوفٹویر میں نستعلیق لکھنے کے لیے استعمال کیا جاتا ہے۔ انپیج میں استعمال ہونے والی تمام اشکال گلفس کی صورت میں اس کے فونٹس میں موجود ہوتی ہیں۔ ایک اندازے کے مطابق ان گلفس کی تعداد 10,000 سے زائد ہے۔ اگر انہیں دس ہزار کے لگ بھگ اشکال ہی کی ڈیٹابیس بنا لی جائے تو خود انپیج میں کمپوز کیے گئے ٹیکسٹ کی ریکگنیشن کا کچھ امکان پیدا ہو سکتا ہے۔ یہ ضرور ہے کہ اس قسم کا او سی آر انپیج میں کمپوز کیے ہوئے مواد کے لیے زیادہ مؤثر ثابت ہوگا لیکن یہ کوئی مسئلہ نہیں ہونا چاہیے کیونکہ نوری نستعلیق میں کمپوزنگ کے لیے انپیج ہی زیادہ استعمال ہوتا آیا ہے۔

    میں اس سلسلے میں مزید گزارشات بعد میں پیش کروں گا۔
     
    • پسندیدہ پسندیدہ × 2
  19. قیصرانی

    قیصرانی لائبریرین

    مراسلے:
    45,875
    جھنڈا:
    Finland
    موڈ:
    Festive
    زندہ باد نبیل بھائی، بہت عمدہ بات کہی، جاری رکھیں اپنی تحقیق
    قیصرانی
     
  20. نبیل

    نبیل محفلین

    مراسلے:
    16,743
    جھنڈا:
    Germany
    موڈ:
    Depressed
    زکریا، IEEE کے پیپرز پڑھنے کے لیے تو سبکرپشن کی ضرورت ہے۔ :(

    اگر آپ کے پاس اس کی ممبرشپ ہے تو آپ ہی کوئی پیپر پڑھوا دیں۔ :idea: :arrow:
     

اس صفحے کی تشہیر