1. احباب کو اردو ویب کے سالانہ اخراجات کی مد میں تعاون کی دعوت دی جاتی ہے۔ مزید تفصیلات ملاحظہ فرمائیں!

    ہدف: $500
    $413.00
    اعلان ختم کریں

اردو میں کوئی شناخت برائے بصری الفاظ Ocr کا سوفٹویئر موجود ہے؟؟؟

ابو کاشان نے 'اردو او سی آر پر تحقیق' کی ذیل میں اس موضوع کا آغاز کیا، ‏جنوری 17, 2008

  1. نبیل

    نبیل محفلین

    مراسلے:
    16,620
    جھنڈا:
    Germany
    موڈ:
    Depressed
    شکریہ جواد۔ اگرچہ یہ کافی بنیادی نوعیت کی بصری شناخت ہے، لیکن یہ بطور ایک پروف آف کانسپٹ کے استعمال کی جا سکتی ہے۔ آپ نے جو تصویری متن استعمال کیا ہے، اس میں ترسیمے واضح طور پر الگ الگ ہیں اور نسبتاً سادہ ہیں۔غالبا اسی وجہ سے ان کی شناخت ممکن ہوئی ہے۔ میں نے کچھ عرصہ قبل امیج پراسیسنگ کے ماہرین سے اس سلسلے میں بات کی تھی اور انہوں نے کافی مفید باتیں بھی بتائی تھیں۔ اگر اس فیلڈ میں کچھ کام کرنے والے سامنے آ جائیں تو کچھہی عرصے میں حوصلہ افزا نتائج سامنے آ سکتے ہیں۔

    میں نے یہ تھیسس ڈیویلپ کیا تھا کہ اگر لگیچرز کی ایک ڈیٹابیس بن جائے تو تصویری متن کو پہلے افقی (horizontal) سمت میں پروسیسنگ کرکے اس کی سطور کو علیحدہ کیا جا سکتا ہے اور اس کے بعد ان سطور کو عمودی (vertical) سکیننگ کے ذریعے ترسیموں میں علیحدہ کیا جا سکتا ہے۔ اس طرح تصویری متن کے ترسیمہ جات تصویری شکل میں ہو جائیں گے جنہیں بصری شناخت کے مرحلے سے گزارا جا سکتا ہے۔ اس تھیسس کا سب سے بڑا مسئلہ یہ assumption ہے کہ تصویری متن کی سطور اور ہر سطر میں ترسیمہ جات کے مابین کچھ نہ کچھ سپیس ہے جس کی بدولت انہیں سادہ پروسیسنگ سے علیحدہ کرنا ممکن ہو سکتا ہے۔ لیکن جب میں نے تصویری اردو کے نمونے دیکھے تو معلوم ہوا کہ اکثر صورتوں میں یہ مفروضہ غلط ثابت ہوتا ہے۔ عام طور پر تصویری اردو کے نمونوں میں عبارت کافی تنگ نظر آتی ہے جس کی وجہ سے ک کی کشش پچھلے لفظ کے اوپر آ رہی ہوتی ہے اور اسی طرح سطور کے درمیان بھی سپیس نہیں ملتی۔ اس طرح اگرچہ تصویری متن سے ترسمیہ جات کا حاصل کرنا ناممکن نہیں ہو جاتا لیکن کم از کم سادہ پیٹرن ریکگنیشن سے ان کا حصول ممکن نہیں رہتا۔ اس کے لیے edge detection جیسے پروسیجر ہی کام دے سکتے ہیں جس پر کوئی امیج پراسیسنگ کے ماہر ہی کام کر سکتے ہیں۔

    ایک طریقہ یہ اپنایا جا سکتا ہے کہ شروع میں ایسے ہی تصویری متن پر کام کیا جائے جو کہ مذکورہ بالا مفروضے پر پورا اترتا ہو، یعنی کہ اس کی سطور اور الفاظ کے درمیان کچھ نہ کچھ سپیس ضرور ہو۔ اس طرح کم از کم تحقیق آگے ضرور بڑھتی رہے گی۔ اگر اس میں کامیابی حاصل ہو جاتی ہے تو مزید پیچیدہ پرابلمز کو حل کرنے پر بھی غور کیا جا سکتا ہے۔
     
    • پسندیدہ پسندیدہ × 6
  2. زیک

    زیک محفلین

    مراسلے:
    37,030
    جھنڈا:
    UnitedStates
    موڈ:
    Amused
    امیج پراسسنگ کے ماہر ہونے کا دعوٰی کرتے ہوئے مجھے اس موضوع پر بہت کچھ کہنا اور کرنا ہے مگر ابھی کچھ ماہ میں شدید مصروف ہوں۔ :(
     
  3. قیصرانی

    قیصرانی لائبریرین

    مراسلے:
    45,875
    جھنڈا:
    Finland
    موڈ:
    Festive
    لیگیچر شامل کرنے کا طریقہ بتا دیں
     
  4. jawad101

    jawad101 محفلین

    مراسلے:
    63
    سلام:اس پروگرام میں ocrکے لیے سب سے پہلے الفاظ کا ڈیٹا بیس بنانا پڑتا ہے۔ اور ان کی تربیت کرنی پڑتی ہے۔
    ان پیج میں کچھ الفاظ سپیس دے کر لکھیں۔ اور پھر ان الفاظ کو ایک bmp فائل میں save کر لیں، اب کسی پروگرام سے bmp فائل کو uncompress TIF میں کنورٹ کر لیں۔ آپ صرف ان پیج ہی نہیں، بلکہ پاک نستعلیق یا اور فونٹس بھی استعمال کر سکتے ہیں، ہاتھ کی لکھائی کا بھی یہی طریقہ ہے۔
    اب اُس tif فائل کو abc.tif سے rename کر کے Tesseract کے فولڈر میں رکھ دیں۔ اور 1.bat فائل چلا ئیں ۔ اس فائل کو چلانے کے بعد آپ کو ایک نئی فائل ملے گی abc.txt ۔ جو اس طرح سے نظر آئے گی
    J 28 164 43 187
    a 80 162 123 187
    y 161 147 204 178
    l 242 163 246 195
    y 298 152 330 192
    w 382 162 421 200
    / 419 198 440 213
    Q 506 148 522 198
    اب ایک اور پروگرام bbTesseract.exe چلائیں (یہ پروگرام نیٹ فریم ورک میں بنا ہے)اور abc.txt فائل کو لوڈ کریں ۔ آپ دیکھ سکھتے ہیں کہ Tesseract OCR نے اردو الفاظ کو کس طرح detect کرنے کی کوشیش کی ہے۔ کستا اور پا کے الفاظ صحیح طرح سے استعمال نہیں کر سکا۔ آپ کو ان الفاظ کو ٹھیک کر نا پڑے گا۔ جیسےپا کے لیے bottom کی ولیو زیادہ کرنی پڑے گی۔ کستا کو دو لگیچر میں detect کیا گیا ہے۔ اسے ٹھیک کرنے کے لیے کستا کی ڈنڈی کو ڈلیٹ کر دیں، اور پھر کستاکے top اور right ولیوز کو زیادہ کر کے پورے باکس میں کستا کا لفظ لائیں۔ تمام الفاظ ٹھیک کرنے کے بعد ان تبدیلوں کو Save txtfile سےدوبارہ محفوظ کریں، اور Save Box کے آپشن سے ایک نئی فائل abc.box میں بھی محفوظ کر لیں۔
    Tesseract نے اردو الفاظ کی جگہ اپنی طرف سے انگلش الفاظ لگائے ہیں۔ آپ کو ان انگلش الفاظ کی جگہ اردو الفاظ شامل کرنے ہوں گے۔ notepad میں abc.box فائل کو لوڈ کر یں،اور انگلش لفظ کو ڈلیٹ کر کے اس کی جگہ اردو لفظ لکھیں۔ یہ بات ذہن میں رکھیں کہ جب آپ اردو لفظ لکھیں گے تو اردو لفظ، لائن کے آخر میں نظر آئے گا، لیکن حقیقت میں یہ لفظ شروع میں ہی ہے۔ اس طرح تمام اردو لفظ لکھ دیں۔ ایک اور بات، یہ فائل utf-8 کے فارمیٹ میں ہونی چاہیے۔
    د 28 164 43 187
    ت 80 162 123 187
    ب 161 147 204 178
    ا 242 163 246 195
    ن 298 152 330 192
    کستا 382 162 441 212
    پا 506 139 522 199
    abc.box میں اردو الفاظ شامل کرنے کے بعد اس فائل کو محفوظ کر لیں۔ اسی فولڈرمیں کو دو txt فائلیز بھی نظر آئیں گئیں۔
    frequent_words_list.txt
    words_list.txt
    آپ کو یہ کرنا ہو گا کہ آپ نے جن اردو الفاظ کو abc.box میں شامل کیا ہے۔ انہیں الفاظ کو ان دونوں فائلز میں لکھ دیں۔ہر لائن میں ایک اردو لفظ لکھیں گے،اور صرف اردو لفظ۔ یہ دونوں فائلز بھی utf-8 فارمیٹ میں ہونی چاہیے۔
    د
    ت
    ب
    ا
    ن
    کستا
    پا
    اب 2.bat فائل چلائیں۔ اس فائل میں دو پروگرامزwordlist2dawg.exe اور wordlist2dawg.exe بہت زیادہ وقت اور میموری لیں گے۔
    اب آپ نے اپنے الفاظ کی ایک ڈیٹا بیس بنا لی ہے۔ abc.bat اور abc1.bat کی فائلز چلا کر دیکھیں ، کہ کیا آپ کے الفاظ ocr نے سکین کیے ہیں۔ ان دونوںch bat فائلز کے رزلٹ abcc.txt اور abc1.txt میں محفوظ ہوں گے۔
    اس پروگرام کو استعمال کرنے کے طریقہ کی یہ swf ویڈیو بھی ڈاون لوڈ کر کے دیکھیں
    Tesseract.swf 8mb
    http://www.mediafire.com/?ezkws5saijb
     
    • پسندیدہ پسندیدہ × 7
  5. دوست

    دوست محفلین

    مراسلے:
    12,957
    جھنڈا:
    Germany
    موڈ:
    Fine
    نوری نستعلیق کے لگیچرز کی ڈیٹابیس کے لیے ڈیٹا تو کرلپ والوں کے ہاں موجود ہے۔ انھوں نے ان بیس ہزار یا کم و بیش ان لگیچرز کو یونیکوڈ میں لکھ کر لسٹ جاری کردی ہے۔
     
  6. الف نظامی

    الف نظامی لائبریرین

    مراسلے:
    13,884
    جھنڈا:
    Pakistan
    موڈ:
    Cool
    زبردست جواد۔
     
    • پسندیدہ پسندیدہ × 1
  7. محب علوی

    محب علوی لائبریرین

    مراسلے:
    11,262
    جھنڈا:
    Pakistan
    موڈ:
    Bookworm
    زیک کچھ تو لکھو کہ گلشن کا کاروبار چلے :)
     
  8. الف نظامی

    الف نظامی لائبریرین

    مراسلے:
    13,884
    جھنڈا:
    Pakistan
    موڈ:
    Cool
    ایک اطلاقیہ بناتا ہوں جو کرلپ کے مہیا کردہ تمام ترسیمہ جات کو تصویری شکل میں منتقل کردے۔
     
    • پسندیدہ پسندیدہ × 3
  9. arifkarim

    arifkarim معطل

    مراسلے:
    29,832
    جھنڈا:
    Norway
    موڈ:
    Happy
    جی جی بہت اچھا کام کر رہے ہیں جناب۔ شکریہ جواد بھائی!
     
  10. محمد عویدص عطاری

    محمد عویدص عطاری محفلین

    مراسلے:
    1,086
    یہ کیا چیز ہے کچھ اس کے بارے میں پڑھا ہے آپ نے؟
    http://www.abbyy.com/sdk/

    والسلام علیکم ورحمۃ اللہ وبارکۃ۔
     
    • پسندیدہ پسندیدہ × 1
  11. محمد عویدص عطاری

    محمد عویدص عطاری محفلین

    مراسلے:
    1,086
    • پسندیدہ پسندیدہ × 1
  12. دوست

    دوست محفلین

    مراسلے:
    12,957
    جھنڈا:
    Germany
    موڈ:
    Fine
    یہ ان کی سافٹویر ڈویلپمنٹ کٹ ہے۔ جس کو استعمال کرکے لینکس اور میکنٹوش میں او سی آر بنائے جاسکتے ہیں۔ لیکن یہ قیمتًا دستیاب ہوگی لازمًا۔۔۔ورنہ لینکس والے اس کو اٹھا کر او سی آر نہ بنا ڈالتے۔ اردو کے لیے نہیں ہے یہ۔
     
    • پسندیدہ پسندیدہ × 2
  13. محمد عویدص عطاری

    محمد عویدص عطاری محفلین

    مراسلے:
    1,086
    ہممممم۔ بہت بہت شکریہ ۔ میں سمجھا شاید اس کی مدد سے ہم ocr پروگرام کو Customize کر سکتے ہے ۔ تو کچھ اردو کا بھی کام بن جائے ۔ لیکن یہ تو کچھ اور ہی چیز نکلی ۔
    شکریہ والسلام
    والصلوۃ والسلام علیک یارسول اللہ
     
  14. zeteticinksa

    zeteticinksa محفلین

    مراسلے:
    10
    Great Thread

    Unfortunately OCR is still a far way off for urdu.
     
  15. arifkarim

    arifkarim معطل

    مراسلے:
    29,832
    جھنڈا:
    Norway
    موڈ:
    Happy
    بھائی یہ اردو فارم ہے۔ آپ ہر جگہ انگلش کیوں لکھتے ہو؟؟؟؟
     
    • پسندیدہ پسندیدہ × 4
  16. ایک پاکستانی

    ایک پاکستانی محفلین

    مراسلے:
    29
    اچھی گفتگو ہوئی ہے اس موضو پر۔ لیکن کیا کسی جانب سے کوئی پیشرفت بھی ہوئی ہے؟
     
  17. الف نظامی

    الف نظامی لائبریرین

    مراسلے:
    13,884
    جھنڈا:
    Pakistan
    موڈ:
    Cool
    محمد عویدص کیا آپ یہ مسل دوبارہ یہاں رکھ سکتے ہیں ، کیونکہ دیے گئے ربط پر یہ موجود نہیں۔
     
    • پسندیدہ پسندیدہ × 1
  18. ذیشان سکندر

    ذیشان سکندر محفلین

    مراسلے:
    12
    آج بہت دنوں‌بعد اس فورم میں آنا ہوا۔ کیااردو "اوسی آر" پہ کچھ پیشرفت ہو ئی؟
     
  19. دوست

    دوست محفلین

    مراسلے:
    12,957
    جھنڈا:
    Germany
    موڈ:
    Fine
    نہیں بھائی۔۔۔ مسئلہ ہنرمندی اور وقت کی کمی ہے۔
     
  20. arifkarim

    arifkarim معطل

    مراسلے:
    29,832
    جھنڈا:
    Norway
    موڈ:
    Happy
    او سی آر پر محسن حجازی بھائی نے بھی مقتدرہ کے اندر کام کیا تھا۔ شاید وہاں کے ''موجودہ'' ارکان اس بارے میں کچھ بتا سکیں۔۔۔۔۔
     

اس صفحے کی تشہیر