اردو او سی ۔ ایک اہم پیش رفت

علوی امجد نے 'اردو او سی آر پر تحقیق' کی ذیل میں اس موضوع کا آغاز کیا، ‏فروری 14, 2009

  1. علوی امجد

    علوی امجد محفلین

    مراسلے:
    300
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    اردو او سی آر پر بہت سی تحقیقات هورهی هیں اور کئی دوست اس پر کام کررہے اور اچھی پیش رفت کررہے ہیں اورساتھ مجھے پورا یقین هے كه انشاء اللہ بہت جلد اردو او سی آر ایک حقیقت بن کر ابھرے گا۔
    پچھلے چند دنوں میں نے مارکیٹ میں دستیاب انگلش کے چند سافٹ وئیر پر تجربات کئے اور خوش قسمتی سے بہت اچھا رزلٹ آیا۔ خصوصا Abbyy Fine Reader میں رزلٹ 90% آرہا ہے۔ اور میرا خیال ہے کہ اسی پر ہی مزید کام کیا جائے تو ہمیں ایک علیٰحدہ سے اوسی آر سافٹ وئیر بنانے کی شائد ضرورت نہ ہے۔
    اگرچہ Abbyy والوں نے اپنے سافٹ وئیر میں اردو یا عربی کی سپورٹ بالکل نہیں ڈالی جس کی کمی بہت شدت سے محسوس ہوتی ہے۔ لیکن اگر ہم اس کے Pattern Editor میں اردو کو Read کروالیں‌ تو یہ ایک بہت اچھا او سی آر بن سکتا ہے۔ تھوڑی سے دماغ سوزی کے بعد میرے ذہن میں ایک طریقہ کار سمجھ آیا اور جب میں اس کو عملی جامہ پہنایا تو اللہ کے فضل سے بالکل ٹھیک نتیجہ آرہاہے۔ میں نے سوچا کہ کیوں نا آپ دوستوں کے ساتھ شیئر کروں شائد آپ لوگ اس کو مجھ سے بہتر کرلیں۔
    میں اس وقت اس کا Version 8 Professional استعمال کررہا ہوں۔ جن دوستوں کے پاس ہے تو ٹھیک ورنہ Abbyy کی ویب سائٹ پر جاکر بآسانی ٹرائل ورزن ڈاؤن لوڈ کر سکتا ہے۔

    سب سے پہلا کام تو یہ ہے کہ اردو زبان کو Abbyy میں read کروایا جائے۔ تو اس کے لئے طریقہ کار یہ ہے کہ اردو کی کوئی لفظی تصویر کو Abbyy میں کھول لیں۔ پھر Tools میں Language Editor میں جائیں۔
    [​IMG]اور Main Language میں English کو سلیکٹ رہنے دیں اور New کا بٹن دبائیں۔

    [​IMG]
    اب انگلش کو منتخب رکھتے ہوئے Create a new language based on existing one کا ریڈیو بٹن چیک کریں۔

    [​IMG]
    اب Language کا نام دیں مثلا اردو اور ساتھ Alphabets کے آگے بنے ہوئے نقاط کو کلک کریں

    [​IMG]
    اور کوڈ پیج میں Arabic 1256 منتخب کرکے تمام ممکنہ اردو کیریکٹرز کو ایک ایک کرکے منتخب کریں۔ جو کہ نیچے موجود باکس میں نظر آتے رہیں گے۔

    [​IMG]
    جب تمام ممکنہ حروف منتخب ہوجائے تو OK کرکے باہر آجائیں ۔ تو آپ دیکھیں گے کہ User Defined Language میں اردو کا نام لکھا ہوا نظر آئے گا۔

    [​IMG]
    یوں آپ کا پہلا مرحلہ مکمل ہوگیا یعنی Abbyy میں اردو زبان شامل ہوگئی۔
     
    • پسندیدہ پسندیدہ × 25
  2. علوی امجد

    علوی امجد محفلین

    مراسلے:
    300
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    اب دوسرے مرحلہ میں اردو زبان کو read کروانا ہے۔ تو سب سے پہلے Read کے بٹن کے ساتھ بنے ہوئے چھوٹے سے Arrow کو کلک کرکے Option میں چلے جائیں۔

    [​IMG]
    اور Recognition Language میں اردو کو منتخب کرنے کے بعد Train User Pattern کے ریڈیو بٹن کو منتخب کریں اور Pattern Editor کے بٹن کو منتخب کریں۔


    [​IMG]
    اور نیا Pattern منتخب کرکے اس کو کوئی نام دے دیں۔
    [​IMG]
     
    • پسندیدہ پسندیدہ × 14
  3. علوی امجد

    علوی امجد محفلین

    مراسلے:
    300
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    ابok کرکے باہر آجائیں اور Read کے بٹن کو منتخب کریں۔
    تو Pattern Training شروع ہوجائے گی۔

    [​IMG]
    اگر چاہیں تو پورا لیگیچر منتخب کریں یا پھر ایک ایک کریکٹر ۔ میں نے پورا لیگیچر منتخب کیا جیسے


    [​IMG]

    اور ساتھ نیچے اس کی یونی کوڈ ویلیو دے دی۔
     
    • پسندیدہ پسندیدہ × 13
  4. علوی امجد

    علوی امجد محفلین

    مراسلے:
    300
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    [​IMG]
    جب آپ ساری ٹریننگ پوری کرلیں گے تو Abbyy اس کو Read کرلے گا اور الفاظ ساتھ والی Window میں دکھائی دے گی۔

    [​IMG]
    اب ان الفاظ کو منتخب کریں اور MS Word میں پیسٹ کرکے علوی نستعلیق فانٹ لگا لیں۔

    [​IMG]
     
    • پسندیدہ پسندیدہ × 13
    • زبردست زبردست × 2
  5. الف نظامی

    الف نظامی لائبریرین

    مراسلے:
    16,167
    جھنڈا:
    Pakistan
    موڈ:
    Amused
    جناب بہت اعلی!!!
    only text reordering is required
     
    • پسندیدہ پسندیدہ × 4
  6. علوی امجد

    علوی امجد محفلین

    مراسلے:
    300
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    یہاں پر آپ کو ایک چیز نظر آئے گی کہ الفاظ تو الٹے ہیں ۔ تو اس کے لئے یہی ہے کہ آپ الفاظ کی Mirror تصویر کو لے کر Read کروائیں۔
    جیسے

    [​IMG]
    اس کو Pattern Training میں Train کروائیں اور Read کروا لیں۔ اب ایم ایس ورڈ‌میں لائیں گے تو نتیجہ ایسا نظر آئے گا۔

    [​IMG]
     
    • پسندیدہ پسندیدہ × 15
    • زبردست زبردست × 2
  7. علوی امجد

    علوی امجد محفلین

    مراسلے:
    300
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    میں نے اس کو پورے پیراگراف میں بھی استعمال کیا ہے۔ اور بعض انتہائی قریب قریب موجود لیگیچرز پر بھی تجربات کئے ہیں۔ جس کا رزلٹ مجھے تقریبا 90% ملا ہے۔ جو کہ میرے خیال میں ایک نہایت خوش آئند خبر ہے۔
    باقی اس محفل پر بہت سے ذہین لوگ موجود ہیں یقینا وہ اس کو مجھ سے بھی بہتر استعمال کرسکتے ہیں۔ وہ اس سافٹ وئیر کو استعمال کریں اپنے تجربات کو دوسروں کے ساتھ شیئر کریں ۔ تو بہت سی چیزیں دریافت ہوں گی۔ نتیجتاً مجھے یقین ہے کہ انشاء اللہ بہت جلد ہم ایک مکمل اردو او سی آر تک ضرور پہنچیں گے۔
     
    • پسندیدہ پسندیدہ × 16
  8. علوی امجد

    علوی امجد محفلین

    مراسلے:
    300
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    یہاں میں ایک بات بتانا بھول گیا کہ آپ Tools میں Pattern Editorمیں جاکر اپنے بنائے گئے Pattern کو Edit بھی کرسکتے ہیں۔ اور اپنے تمام Images کو ترتیب میں بھی رکھ سکتے ہیں۔
     
    • پسندیدہ پسندیدہ × 11
  9. علوی امجد

    علوی امجد محفلین

    مراسلے:
    300
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    اس کے موضوع میں اردو او سی تو لکھا گیا لیکن وہ آخری "آر" رہ گیا ۔ میں نے کوشش تو کی ہے لیکن قطع و برید میں عنوان دوبارہ نہیں آرہا ہے۔ کیا کوئی اس کو اردو او سی آر کردے گا۔
     
    • پسندیدہ پسندیدہ × 5
  10. فاتح

    فاتح لائبریرین

    مراسلے:
    15,751
    جھنڈا:
    Pakistan
    موڈ:
    Hungover
    یہ تو دھماکے دار خبر دی ہے آپ نے۔ خیال رکھیے کہیں اتنے دھماکوں‌پر آپ مشکوک افراد کی فہرست میں نہ آ جائیں۔
    اپنے شروع کیے ہوٕے دھاگوں کے عنوان آپ خود بھی تبدیل کر سکتے ہیں۔ بلکہ عناوین کی فہرست میں اس دھاگے کے عنوان پر ڈبل کلک کر کے بھی ایسا کر سکتے ہیں۔
     
    • پسندیدہ پسندیدہ × 7
  11. علوی امجد

    علوی امجد محفلین

    مراسلے:
    300
    جھنڈا:
    Pakistan
    موڈ:
    Brooding

    آخر رہتے تو ہم دھماکوں والے دیس میں ہی ہیں۔۔۔۔ میرا خیال ہے کہ اب آپ لوگ کو بھی اس کا عادی ہوجانا چاہیئے۔

    باقی میں چیک کرتا ہوں کہ یہ عناوین کی فہرست کہاں پر ہوگی!!!!!!!!
     
    • پسندیدہ پسندیدہ × 3
    • پر مزاح پر مزاح × 1
  12. عمران القادری

    عمران القادری محفلین

    مراسلے:
    725
    ماشاء اللہ وہ کام جو ابھی دوسرے صرف سوچ رہے تھے آپ کر دکھا ۔ مبارک اسے جاری رکھے گا۔ درمیان نہیں چھوڑنا ۔ اللہ کانام لیں اورجاری رکھیں۔
     
    • پسندیدہ پسندیدہ × 5
  13. عمران القادری

    عمران القادری محفلین

    مراسلے:
    725
    پاکستان زندہ باد
    اردو تو سلامت رہے تاقیامت رہے۔انشاء اللہ
     
    • پسندیدہ پسندیدہ × 5
  14. باذوق

    باذوق محفلین

    مراسلے:
    1,093
    Readiris کے مڈل ایسٹ ورژن پر چیک کر کے دیکھا گیا تو عربی تحریر کو تو یونیکوڈ میں ضرور منتقل کرتا ہے لیکن اردو کو درست منتقل نہیں کرتا۔
    شائد فونٹ ہی کا مسئلہ ہے۔

    علوی امجد بھائی ، آپ کا بہت بہت شکریہ کہ اس نئے سافٹ وئر سے متعارف بھی کروایا اور تفصیل بھی بتائی۔
    لیکن سوال یہ ہے کہ کیا اس سافٹ وئر میں علوی نستعلیق کے تمام لگیچرز کو manually شامل کرنا پڑے گا؟
    اور اگر کوئی فرد تمام لگیچرز کو شامل کر بھی دے تو کیا یہ پیٹرن فائل دوسرے کمپیوٹر میں منتقل کی جا سکے گی ؟؟
     
    • پسندیدہ پسندیدہ × 4
  15. علوی امجد

    علوی امجد محفلین

    مراسلے:
    300
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    Readirisكو میں نے استعمال كیا هے وه عربی كو بھی صحیح طور پر شناخت نهیں كرتا اردو نستعلیق تو دور كی بات ھےۨ
    Abbyy Fine Reader كو میں نه صرف انگلش كے لئے استعمال كررھا هوں بلكه اب اردو كی بصری شناخت كے لئے بھی استعمال كرنا شروع كیا هےۨ۔
    كسی بھی او سی آر میں اصل فائل اس میں الفاظ كے پیٹرن كا ڈیٹا بیس هےۨ ایك دفعه اگر آپ ممكنه اشكال كو ڈیٹا بیس میں شامل كردیں تو وه پھر دوباره ړPattern Recognize كروانے كی ضرورت نهیںۨ پیش آئے گی۔
    اس کا ٰImages کی فائل
    C:\Documents and Settings\Administrator\Local Settings\Temp\Untitled1
    كے فولڈر میں بنتی هے جس كو آپ باآسانی كاپی كركے كسی بھی كمپیوٹر میں لے جاسكتے هیں اور مزے كی بات ھے كه یه بهت كم سائز كی فائل بناتا هے۔ اس وقت تمام عربی OCR میں سب سے بہتر یہ نان عربیک OCR ہے۔
     
    • پسندیدہ پسندیدہ × 8
  16. ابن حسن

    ابن حسن معطل

    مراسلے:
    587
    عربی او سی آر میں اس وقت سب سے بہتر Novodynamics کا Verus اور صخر کا القاری الالی ہے ۔ میں خود صخر کا او سی آر استعمال کر رہا ہوں اور اس کا رزلٹ تقریبا سو فیصد ہے۔یہ اردو اور فارسی کو بھی سپورٹ کرتا ہے تاہم اردو فارسی سپورٹ الگ سے دستیاب ہے جو فی الحال میری دسترس میں نہیں ہے۔
     
    • پسندیدہ پسندیدہ × 4
  17. دوست

    دوست محفلین

    مراسلے:
    13,075
    جھنڈا:
    Germany
    موڈ:
    Fine
    ایبی فائن ریڈر واقعی کلاس کی چیز ہے۔ پچھلے دو سال سے اسے کارپس بنانے کے لیے استعمال کررہا ہوں‌ اور اس کا انگریزی نتیجہ 99 فیصد ہوتا ہے۔ ورژن نو میں گرامر کی غلطیاں‌ بھی دکھائی جاتی ہیں۔ آپ کا طریقہ کار پسند آیا اس پر مزید کام کیا جائے تو اردو کا او سی آر واقعی بن سکتا ہے۔ اس سلسلے میں متعلقہ کمپنی سے بھی بات کرلی جائے تو کیا کہنے۔ ٹریننگ ہم مہیا کردیتے ہیں سپورٹ وہ شامل کردیں۔ اور جاری کردیں‌ تو صارفین کا بھلا ہوجائے۔ مزید پیچ وغیرہ کی‌ضرورت بھی ہو تو وہ لوگ یہ کرسکتے ہیں۔ لیکن چلنے پھر وہی کریک ہی ہیں خریدے گا کون۔:cool:
     
    • پسندیدہ پسندیدہ × 10
    • معلوماتی معلوماتی × 1
  18. شارق مستقیم

    شارق مستقیم محفلین

    مراسلے:
    894
    علوی صاحب آپ کا تجربہ بہت مفید ہے۔ میرے کچھ سوالات ہیں:

    ۔ آپ کے اندازے کے مطابق علوی فونٹ کی مکمل ٹریننگ کے لیے کتنی سعی درکار ہوگی۔
    ۔ کیا یہ ٹریننگ علوی فونٹ سے جڑ جائے گی یا دوسرے فونٹ پر مشتمل دستاویزات کے لیے بھی کارآمد ہوگی؟
     
    • پسندیدہ پسندیدہ × 8
  19. علوی امجد

    علوی امجد محفلین

    مراسلے:
    300
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    جی ہاں یہ کسی بھی فانٹ اور کسی بھی نستعلیقی رسم الخط (لاہوری، دہلوی وغیرہ) کے ساتھ کام کرسکتی ہے۔ صرف ایک دفعہ Pattern کو شناخت کروانے کی بات ہے۔ میرا خیال تھا کہ اگر ایک دفعہ دو تین رسم الخط کا ڈیٹا بیس بن جائے تو کاآمد ہے۔

    جہاں تک ایک فونٹ کی مکمل ٹریننگ کی بات ہے تو وہ لازمی بات ہے وقت لیتی ہے۔ لیکن اگر ہم بجائے پورے لیگیچرز کو شناخت کروانے کے صرف انفرادی، ابتدائی، درمیانی اور اختتامی اشکال کا ڈیٹا بیس بنا لیں تو بھی ممکن ہے کہ نسبتاکم رزلٹ کے حصول کے ساتھ ایک چھوٹا ڈیٹابیس بنالیں۔ میں اس پر کام کررہا ہوں امید ہے یہ تجربہ بھی کامیاب ہوجائےگا۔ انشاءاللہ
     
    • پسندیدہ پسندیدہ × 8
  20. محسن حجازی

    محسن حجازی محفلین

    مراسلے:
    2,513
    موڈ:
    Breezy
    تصویر کو الٹانے کی بجائے حاصل شدہ string کو reverse کر لیا جائے تو کافی رہے گا۔
    میری رائے میں یہ محض دہلوی روش پر کام کر پائے گا۔
    حرفی بنیاد پر تو حروف کو دکھانا ہی ممکن ثابت نہیں ہو رہا تو پڑھنا تو دور کی بات ہے۔
    پاک نستعلیق کے تجربے سے میں نے یہ سیکھا کہ نستعلیق میں محض لفظ کی درمیانی یا ابتدائي شکل دیکھ کر حرف کی بابت فیصلہ نہیں کیا جا سکتا کیوں کہ نقطہ جات لازم نہیں کہ اس شکل کے عین اوپر ہوں۔
    نستعلیق کی حرفی پیچیدگیوں کے سبب ہی پاک نوری نستعلیق کا تجربہ کیا گیا تھا۔
     
    • پسندیدہ پسندیدہ × 7

اس صفحے کی تشہیر