اردو او سی آر پر کام

زیک نے 'اردو او سی آر پر تحقیق' کی ذیل میں اس موضوع کا آغاز کیا، ‏مئی 9, 2015

  1. arifkarim

    arifkarim معطل

    مراسلے:
    29,828
    جھنڈا:
    Norway
    موڈ:
    Happy
    شکریہ زیک ۔آپ عموماً بہت مختصر بات کرتے ہیں۔ ہم چاہتے ہیں کہ تھوڑا تفصیل سے لکھیں کہ آپکا او سی آر پلان کیا ہے، تاکہ ہمیں بھی کچھ آئیڈیا ہو کہ آگے کیا کرنا ہے؟ نوری نستعلیق ترسیمہ جات کے امیجزجنریٹ ہو گئے ہیں، الفاظ بھی ہو جائیں گے۔ اسکے بعد کیا پہیا نئے سرے سے ایجاد کرنا ہوگا یا پہلے سے موجود مختلف تکنیکس اور الگوردھمز کو بروئے کار لاتے ہوئے اس ڈیٹا پر او سی آر ٹیسٹ کیا جائے گا؟
    آئی ٹی کی فیلڈ میں آنے سے قبل ہم نے کالج سے 3D Model and Design کے کچھ کورس کئے تھے۔ وہاں ہمیں یہ باور کروایا گیا تھا کہ جب تک کسی ماڈل کا اندرونی ڈھانچہ پوری طرح مکمل نہ ہو جائے اس کی دیواروں پر آپ لاکھ ویژل ایفیکٹس ڈال دیں، آپ کی دال نہیں گلے گی۔ مطلب ابھی ہی سے بے تحاشا اسکین ڈیٹا جمع کرنے کی بجائے اگر ہم صرف نوری نستعلیق کی بنیاد یعنی اسکے ترسیمہ جات کو تختہ مشق بنا لیں۔ اور اسوقت تک ان پر تجربات جاری رکھیں جب تک 98-99 فیصد درستگی کیساتھ متن تلاش نہیں ہوجاتا،تو یقیناً یہ ایک بڑی کامیابی ہوگی۔
    یہ میں اس لئے کہہ رہا ہوں کیونکہ اب تک جو نوری نستعلیق پر مبنی تجرباتی نوعیت کے او سی آرز منظر عام پر آئے ہیں، ان سب میں بنیادی نقص یہی ہے کہ اسکین شدہ متن تو درکنار، اگر آپ کمپیوٹر جنریٹڈ متن بھی اعلیٰ امیج کوالٹی میں اسکے حوالے کر دیں تو یہ گھٹنے ٹیک دیتے ہیں۔ مطلب ان سب کی ساخت بہت کمزور ہے جسے طاقت ور بنائے بغیر آگے بڑھنا جلد بازی ہوگی اور مستقبل میں ساری محنت کے ضائع ہونے کا اندیشہ بھی ۔
     
    • معلوماتی معلوماتی × 2
  2. زیک

    زیک محفلین

    مراسلے:
    38,724
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    پرانے محفلین میں شاید آپ واحد ہیں جنہیں علم نہ تھا۔
     
    • معلوماتی معلوماتی × 1
  3. زیک

    زیک محفلین

    مراسلے:
    38,724
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    300 ڈی پی آئی پر 12 سے 24 پوائنٹ فونٹ سائز ٹھیک رہے گا
     
    مدیر کی آخری تدوین: ‏اپریل 18, 2017
    • معلوماتی معلوماتی × 1
  4. زیک

    زیک محفلین

    مراسلے:
    38,724
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    لٹریچر سروے کی بھی ضرورت ہے کہ کونسے نستعلیق اور نسخ او سی آر سسٹم دستیاب ہیں اور کیسے اور کتنا کام کرتے ہیں۔ کیا تکنیک استعمال کی گئی ہے اور کیسے ڈیٹا سیٹ حاصل کئے جا سکتے ہیں۔
     
    • معلوماتی معلوماتی × 1
    • متفق متفق × 1
  5. زیک

    زیک محفلین

    مراسلے:
    38,724
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    ان کا ڈیٹا سیٹ استعمال کرنے سے کئی آسانیاں ہوں گی مگر ایک سیٹ 250 ڈالر کا ہے۔ یہ زیادہ نہیں مگر اگر کئی سیٹ (مثلا مختلف فونٹ سائز) لینے ہوں تو قیمت کافی بڑھ جاتی ہے۔
     
    • معلوماتی معلوماتی × 1
  6. زیک

    زیک محفلین

    مراسلے:
    38,724
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    یہ کونسا فونٹ ہے؟ فونٹ سائز کیا ہے؟ کیا آپ نے او سی آر پیج پر صحیح فونت سائز منتخب کیا تھا؟
     
    مدیر کی آخری تدوین: ‏اپریل 18, 2017
    • معلوماتی معلوماتی × 1
  7. زیک

    زیک محفلین

    مراسلے:
    38,724
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    کل ترسیمے کتنے ہیں؟ کیا ان کی اہمیت اور frequency کے حساب سے کوئی فہرست دستیاب ہے CLE کے علاوہ؟
     
    مدیر کی آخری تدوین: ‏اپریل 18, 2017
    • معلوماتی معلوماتی × 1
  8. زیک

    زیک محفلین

    مراسلے:
    38,724
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
  9. arifkarim

    arifkarim معطل

    مراسلے:
    29,828
    جھنڈا:
    Norway
    موڈ:
    Happy
    فونٹ: جمیل نوری نستعلیق
    فونٹ سائز: 36
    گو کہ اس سے کم سائز پر بھی مختلف سطور لکھ کر اسکی امیج بنا کر اپلوڈ کیا تھا پر نتیجہ وہی صفر۔

    کل ترسیمے 25000 کے قریب ہیں۔ جمیل نوری نستعلیق اور انپیج کے نوری نستعلیق میں یہی ترسیمے استعمال ہوئے ہیں اور انکی بدولت آپ 99 فیصد اردو زبان کے الفاظ تحریر کر سکتے ہیں۔ مطلب ایک قابل استعمال او سی آر تخلیق کرنے کیلئے ان سب کا بصری ڈیٹا شامل کرنا ضروری ہے۔ کرلپ والوں نے محض 5000 ترسیموں کا انتخاب کیا ہے کہ جو عام اردو تحاریر کیلئے ناکافی ہے۔ انکے مطابق اردو زبان میں ایک، ڈیڑھ لاکھ کے لگ بھگ الفاظ ہیں جو کہ سراسر غلط ہے۔
    ہمار ے ایک عزیز دوست اور محفلین نعیم سعید صاحب نے مختلف اردو لغات سے منفرد الفاظ کا ذخیرہ جمع کرنا شروع کیا ہوا ہے تاکہ انکی بنیاد پر وہ ترسیمے جو انپیج اور جمیل نوری نستعلیق میں موجود نہیں کی تخلیق کی جا سکے تاکہ 99،9 فیصد اردو تحاریر ترسیموں ہی سے لکھی جا سکے۔ انکے مطابق اردو زبان میں الفاظ کی کُل تعداد کم و بیش 3 لاکھ ہے۔ ایسے میں 5000 کثیرالاستعمال ترسیموں کا ڈیٹا تجرباتی طور پر تو استعمال کیا جا سکتا ہے پر مستقل بنیادوں پر اسے کافی سمجھنا درست نہیں ہوگا۔ میرے خیال میں اگر ہم انپیج کے نستعلیق فانٹ اور جمیل نوری نستعلیق کے تمام ترسیموں کو بنیاد بنا لیں تو 99 فیصد اردو الفاظ کا احاطہ ہو جائے گا۔ بجائے اسکے کہ ہم پہلے محض 5000 ترسیمے استعمال کریں اور بعد میں انکی کمی کو محسوس کرتے ہوئے آہستہ آہستہ انکی تعداد کو بڑھائیں۔ یوں وقت کا ضیاع بھی کم ہوگا اور بنیادی کام زیادہ بہتر ہو سکے گا۔
     
    • معلوماتی معلوماتی × 2
    • پسندیدہ پسندیدہ × 1
  10. arifkarim

    arifkarim معطل

    مراسلے:
    29,828
    جھنڈا:
    Norway
    موڈ:
    Happy
    زیک یہ 24 پوائنٹ پر 300 ڈی پی آئی کی کوالٹی میں جمیل نوری نستعلیق کے 23471 ترسیموں کے امیجز بمع انکے صوتی ناموں کے چیک کر لیں:
    http://arifkarim.no/Public/Urdu/Ocr/Jameel_Noori_Nastaleeq_300DPI_24Pt.rar
    چند مثالی نمونے:
    [​IMG]
    اگر یہ ترسیمے کسی اور سائز و ریزولوشن میں درکار ہوں تو حکم کریں :)
     
    مدیر کی آخری تدوین: ‏اپریل 18, 2017
    • پسندیدہ پسندیدہ × 2
  11. زیک

    زیک محفلین

    مراسلے:
    38,724
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    کیا آپ لٹریچر سروے کا آغاز کر سکتی ہیں۔ اگر ڈھونڈ سکیں تو اردو، عربی، فارسی کے او سی آر پر کی گئی تحقیق کے متعلق معلومات اکٹھی کر کے شیئر کریں۔
     
    • معلوماتی معلوماتی × 1
  12. ابن سعید

    ابن سعید خادم

    مراسلے:
    60,165
    ہم نے اس کام کے لیے ایک عدد گٹ ہب ریپوزیٹری ترتیب دی ہے، لہٰذا فائلیں یہاں وہاں بکھیرنے کے بجائے متعلقہ ریپوزیٹری میں پش کر دیں۔ جو لوگ ریپوزیٹری میں رائٹ ایکسس چاہتے ہیں وہ اپنا گٹ ہب اکاؤنٹ بتا دیں۔ :) :) :)
     
    • پسندیدہ پسندیدہ × 3
    • معلوماتی معلوماتی × 1
  13. ابن سعید

    ابن سعید خادم

    مراسلے:
    60,165
    پیپر سروے کا کام ہم بھی کیے لیتے ہیں۔ پہلے کسی حد تک کام ہو جائے تو ٹیک رپورٹ اور بعد میں باقاعدہ پیپر بھی لکھ لیں گے۔ :) :) :)
     
    • پسندیدہ پسندیدہ × 2
    • معلوماتی معلوماتی × 1
  14. arifkarim

    arifkarim معطل

    مراسلے:
    29,828
    جھنڈا:
    Norway
    موڈ:
    Happy
    زیک اوپر ترسیموں والا لنک گیٹ ہب پہ ڈال دیا ہے۔ اگر کوئی رد و بدل کرنی ہو تو وہاں جا کر کر سکتے ہیں:
    https://github.com/urduweb/UrduOCR/tree/master/Font/Jameel Noori Nastaleeq/Ligatures
     
    آخری تدوین: ‏مئی 11, 2015
    • پسندیدہ پسندیدہ × 1
  15. arifkarim

    arifkarim معطل

    مراسلے:
    29,828
    جھنڈا:
    Norway
    موڈ:
    Happy
    زیک ویسے تو آپ کمپیوٹر ویژن پر اتھارٹی رکھتے ہیں البتہ نیٹ گردی کے دوران کچھ ویب سائٹس پر امیج ویژن ایکسپرٹس ، ٹیکسٹ شیپس کی سیگمنٹ بنانے کیلئے convex hull ٹیکنیک استعمال کرنے کا مشورہ دیتے ہیں:
    [​IMG]
    یہ وہی ٹیکنیک ہے جسے ابن سعید بھائی نے نستعلیق ترسیمہ جات کی کرننگ تلاش کرنے کیلئے موزوں قرار دیا تھا۔ اسے عملی طور پر ٹیسٹ کرنے کیلئے ہم نے Matlab میں ایک آزمائشی خاکہ بھی بنایا تھا:
    [​IMG]
    چونکہ ہم اس فیلڈ میں بالکل اناڑی ہیں اسلئے اس سے آگے مزید کچھ کہہ نہیں سکتے کہ کیا بہتر ہے اور کیا نہیں :)
     
    • پسندیدہ پسندیدہ × 2
  16. نمرہ

    نمرہ محفلین

    مراسلے:
    602
    جھنڈا:
    Pakistan
    موڈ:
    Paranoid
    ٹھیک ہے۔
     
    • پسندیدہ پسندیدہ × 1
    • معلوماتی معلوماتی × 1
  17. زیک

    زیک محفلین

    مراسلے:
    38,724
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    Convex hull اردو کی سطر سے ترسیموں کو الگ الگ کرنے میں بذات خود صحیح کام نہیں کرے گا۔
     
    • معلوماتی معلوماتی × 1
    • متفق متفق × 1
  18. arifkarim

    arifkarim معطل

    مراسلے:
    29,828
    جھنڈا:
    Norway
    موڈ:
    Happy
    کنفرم کرنے کا شکریہ زیک دراصل نستعلیق او سی آر پر متعدد اعلیٰ کوالٹی کے مقالے لکھے جا چکے ہیں پر ان میں موجود ریسرچ کو مستقل عملی بنیادوں پر ایک کامیاب سافٹوئیر کی شکل میں ابھی تک ڈھالا ہی نہیں گیا ہے۔ مجھے نہیں معلوم کہ آیا یہ اسکام کی عملی پیچیدگیوں کی وجہ سے ہوا ہے یا شاید اس قسم کے سافٹوئیرز کی مارکیٹ میں مانگ بہت کم ہےاور قیمت بے حد زیادہ۔ بہرحال، کم از کم عربی ، فارسی، اردو رسم الخط (نسخ) کیلئے کئی پروگرامز موجود ہیں جن میں سے یہ 'Sakhar' سافٹوئیر سر فہرست ہے:
    [​IMG]
    اس کمپنی کا دعویٰ ہے کہ انکا ٹول 99 فیصد عربی -فارسی-اردو نسخ ٹیکسٹ کو تلاش کر سکتا ہے۔ اثبوت کیلئے انہوں نے بہت سے بڑےبین الاقوامی اداروں کو اپنا خریدار بتایا ہے۔
    اسکے علاوہ ScanStore کا Readiris ہے۔ یہ عربی اسمیت 130 زبانوں کو اسپورٹ کرتا ہے۔ یہ نہیں معلوم ہو سکا کہ اسکی متن تلاش کرنے کی صلاحیت کیسی ہے؟
    [​IMG]
    اسی کمپنی کا ایک اور تیار کردہ او سی آر Abby FineReader ہے جو کہ Readiris کے مقابلہ میں کمزور لگ رہا ہے:
    [​IMG]
    انکے علاوہ بھی ایک سافٹوئیر ہے Verus کے نام سے جو پہلے صرف حکومتی ایجنسیز کے پاس ہوتا تھا۔ اسمیں بھی عربی-فارسی-اردو نسخ کی اسپورٹ شامل ہے۔ اسکے خالقین کا دعویٰ ہے کہ یہ خراب اور کمزور کوالٹی کی دستاویزات میں سے بھی realtime میں متن تلاش کر سکتا ہے:
    [​IMG]
     
    • معلوماتی معلوماتی × 5
  19. موجو

    موجو لائبریرین

    مراسلے:
    1,128
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    مجھے اس کام کا کچھ پتہ نہیں ہے مگر سیکھنے کی بہت دلچسپی ہے ۔ کوئی ٹاسک دیا گیا تو ضرور کروں گا
     
    • معلوماتی معلوماتی × 1
  20. الف نظامی

    الف نظامی لائبریرین

    مراسلے:
    16,106
    جھنڈا:
    Pakistan
    موڈ:
    Amused
    او سی آر پراسیس

    1- پری پراسیسنگ
    - سکین امیج بائینرائیزیشن
    - نوائز ریموول
    - سموتھنگ
    - ڈی سکیوئنگ
    - سیکنڈری کمپوننٹس ایکسٹریکشن

    Secondary components include diacritic marks, dots and other components which are not part of the primary strokes of the text.

    - بیس لاین ڈیٹیکشن
    - تھننگ یا سکیلیٹونائزیشن

    2- سیگمینٹیشن

    3- فیچر ایکسٹریکشن
    feature extraction

    4- کلاسیفیکیشین اینڈ ریکاگنیشن
    Classification & Recognition

    مزید تفصیل؛ دیکھیے:صفحہ 10-18

    Satti, D.A. Offline Urdu Nastaliq OCR for Printed Text using Analytical Approach, Department of Computer Science Quaid-i-Azam University Islamabad, Pakistan, 2013
     
    • معلوماتی معلوماتی × 4

اس صفحے کی تشہیر