ٹیسیریکٹ او سی آر - عربی سپورٹ - اور اردو؟؟؟

اسد نے 'اردو او سی آر پر تحقیق' کی ذیل میں اس موضوع کا آغاز کیا، ‏جنوری 21, 2015

  1. اسد

    اسد محفلین

    مراسلے:
    1,092
    موڈ:
    Busy
    پچھلے دنوں ڈریگن نیچرلی‌سپیکنگ 12 پر کام کرنے کا موقعہ ملا تو بہت لطف آیا۔ میرے کمپیوٹر پر تو چلتا نہیں ہے کہ میں اس پر مزید وقت لگاتا، اس لئے سوچا کہ جو سوفٹویئر میرے کمپیوٹر پر چل سکتا ہے اسے دیکھا جائے۔ میں پچھلے دس سال سے ایبی فائن‌ریڈر 7 انگلش او سی آر کے لئے استعمال کر رہا ہوں۔ یہ پرانا سوفٹویئر ایک ادارے نے بطور معاوضہ مجھے دیا تھا جب میں نے ان کے فائن‌ریڈر ورژن 9 کے مسائل حل کیے تھے۔ فائن‌ریڈر بہترین او سی آر سوفٹویئر ہے لیکن یہ کمرشل سوفٹویئر ہے اور اردو کو سپورٹ نہیں کرتا۔ ورژن 12 پروفیشنل 150 سے 170 ڈالر یا 130 سے 140 یورو میں دستیاب ہے۔ اس کے باوجود کہ جدید ترین ورژن 'فائن‌ریڈر 12 پروفیشنل' عربی کو سپورٹ کرتا ہے، اسے اردو کے لئے استعمال کرنا مشکل ہے۔ ایک بڑا مسئلہ اس کی قیمت ہے، لیکن اس کے لئے اردو کی فائلیں تیار کرنا بھی طویل کام ہے۔

    چند سال پہلے ریڈ‌آئرس پرو میں بھی عربی کی سپورٹ شامل کی گئی تھی لیکن یہ بھی صرف عربی کے مخصوص نسخ فونٹس کو ہی شناخت کرتا تھا، معلوم نہیں کہ اس کے جدید ترین ورژن میں کیا صورتِ حال ہے۔ یہ بھی کمرشل سوفٹویئر ہے۔

    ایک بات ہمیں سمجھ لینی چاہیے کہ ہاتھ کی خطاطی کو او سی آر کرنے میں کافی عرصہ لگے گا اور خصوصاً ہاتھ سے لکھی ہوئی نستعلیق کی شناخت کے لئے طویل عرصہ درکار ہو گا۔ نوری نستعلیق کی شناخت کے لئے اب بھی کچھ ذرائع موجود ہیں لیکن ہمیں ان کے ٹیسٹ ڈیٹا تک رسائی نہیں ہے۔ ہر سال کمپیوٹر سائنس کے درجنوں طلبا اردو او سی آر کا پروجیکٹ کرتے ہیں لیکن کوئی بھی ٹیسٹ ڈیٹا ظاہر نہیں کرتا۔

    اب میں سوچ رہا ہوں کہ آزاد مصدر (اوپن سورس) سوفٹویئر پر تجربے کیے جائیں تاکہ اگر کچھ کامیابی حاصل ہو تو سب اس سے فائدہ اٹھا سکیں۔ اس کے لئے ٹیسیریکٹ ہی بہتر ہے۔ اکتوبر 2011 میں اس کے ورژن 3.01 میں عربی کی سپورٹ شامل کی گئی تھی۔
    اکتوبر 2012 میں ورژن 3.02.02 میں دائیں سے بائیں/بائی ڈائریکشن سپورٹ شامل کی گئی تھی۔
    فروری 2014 میں ورژن 3.03 (rc1) میں کچھ نئی سہولیات مہیا کی گئی ہیں، میرا خیال ہے کہ یہ عربی/اردو کے لئے بھی کسی حد تک کارآمد ہوں گی۔
    ٹیسیریکٹ کا ڈاؤنلوڈ صفحہ۔ اس صفحے پر سورس کوڈ، ونڈوز کے لئے انسٹالر ورژن 3.02.02(12.9 ایم بی) اور مختلف زبانوں کا ڈیٹا موجود ہے۔

    جدید ترین ورژن (3.03) ونڈوز کے لئے دستیاب نہیں ہے اور اسے سورس سے کمپائل کرنے کی ضرورت ہو گی۔ ویژؤل سٹوڈیو 2013 میں اسے کمپائل کرنے کی تفصیل اس صفحے پر موجود ہے۔ اگر کوئی اسے کمپائل کر کے مہیا کر سکے تو بہت اچھا ہو گا۔ کیونکہ لگتا ہے کہ بوکس/ٹِف فائل پیئر سے شناخت کا معیار بہتر ہوتا ہے اور یہ جدید ترین ورژن میں ہی دستیاب ہے۔

    ٹیسیریکٹ 3 کی ٹریننگ کرنے کا طریقہ اس صفحے پر موجود ہے۔ میں 3.02.02 میں کوشش کروں گا کہ اردو زبان کے لئے فائلیں تیار کر سکوں۔ کوئی بھی نئی زبان شامل کرنے کے لئے اس زبان کی کئی فائلیں تیار کرنی ہوتی ہیں۔ بعد میں ان تمام فائلوں کو یکجا کیا جاتا ہے اور یہ فائل کوئی بھی استعمال کر سکتا ہے۔
     
    • زبردست زبردست × 8
    • پسندیدہ پسندیدہ × 3
    • معلوماتی معلوماتی × 1
  2. نبیل

    نبیل محفلین

    مراسلے:
    16,743
    جھنڈا:
    Germany
    موڈ:
    Depressed
    ٹیسریکٹ کے نئے ورژن کو کمپائل کرنے کی کوشش کی جا سکتی ہے۔ اس ربط پر نئے ورژن کی بائنری فراہم کی گئی ہے اور اسے چلانے کا طریقہ یہ بتایا گیا ہے کہ پرانے ورژن 3.02 کو انسٹال کرکے اس کی tesseract.exe کو نئے ورژن سے بدل دیا جائے۔ اس طریقے کو پہلے آزما کر دیکھ لیں۔
     
    • معلوماتی معلوماتی × 2
  3. اسد

    اسد محفلین

    مراسلے:
    1,092
    موڈ:
    Busy
    پرانی tesseract.exe کو نئے ورژن سے تبدیل کرنے پر یہ کام کرتی ہے۔ لیکن ہمیں نئے ورژن کے ٹولز کی بھی ضرورت ہے، خصوصاً text2image جو صرف 3.03 میں ہی دستیاب ہے۔

    میرا ارادہ ٹائپ رائٹر سے ٹائپ کیے ہوئے صفحات سے ٹریننگ کرنے کا ہے، لیکن اس سے ملتے جلتے فونٹ اردو میں دستیاب نہیں ہیں۔ میں اسی پر توجہ دوں گا۔ ایک مسئلہ یہ ہے کہ عربی کی شناخت کے لئے کیوب استعمال ہو رہا ہے لیکن اس کے بارے میں معلومات نہ ہونے کے برابر ہیں۔ بہرحال جو کچھ ہو سکتا ہے اس کی کوشش کروں گا، ہو سکتا ہے کہ مزید معلومات حاصل ہو جائیں۔

    آپ کی بتائی ہوئی سائٹ کے کچھ دوسرے صفحات پر میں جا چکا ہوں، اس صفحے پر موجود ٹولز خاصے کارآمد لگتے ہیں۔ میں انہیں بھی دیکھوں گا۔
     
    • پسندیدہ پسندیدہ × 1
    • زبردست زبردست × 1
    • معلوماتی معلوماتی × 1
  4. نبیل

    نبیل محفلین

    مراسلے:
    16,743
    جھنڈا:
    Germany
    موڈ:
    Depressed
    کیا text2image کو الگ سے کمپائل کرنے کی ضرورت پیش آئے گی؟

    ٹائپ رائٹر کی بجائے اگر نوری نستعلیق کے لگیچرز کے لیے ٹرین کیا جائے تو کیا بہتر نہیں ہوگا؟
     
    • معلوماتی معلوماتی × 1
  5. زیک

    زیک محفلین

    مراسلے:
    38,733
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    اس کا فونٹ تو شاید نسخ ہو گا جو شاید آسانی سے ٹرین ہو جائے
     
    • معلوماتی معلوماتی × 1
  6. اسد

    اسد محفلین

    مراسلے:
    1,092
    موڈ:
    Busy
    3.03 میں ٹریننگ ٹولز علیحدہ سے کمپائل ہوتے ہیں۔ ٹریننگ ٹیسریکٹ3 کے صفحے پر یہی لکھا ہے۔
    جیسا کہ میں نے بتایا عربی کی شناخت کے لئے 'کیوب' استعمال ہو رہا ہے اور اس کے بارے میں معلومات بہت کم ہیں۔ اس کے ٹریننگ ٹولز بھی نہیں ہیں۔ نوری نستعلیق کی ٹریننگ کافی طویل اور وقت طلب کام ہو گا، اگر ہم اس سے ٹریننگ شروع کریں اور کوئی غلط طریقہ استعمال کر لیں تو دوبارہ سے بہت زیادہ محنت کرنی پڑے گی۔ میں چاہتا ہوں کہ پہلے عربی کی ٹیکسٹ فائلوں کے مطابق اردو کی فائلیں تیار کروں اور پھر کوئی آسان ٹریننگ کروں جس سے بائنری فائلیں تیار ہو جائیں۔ اس عمل میں کامیابی کے بعد اس کی تفصیل لکھ دی جائے۔ پھر کیوب کی فائلوں کے ساتھ یہی طریقِ کار اپنایا جائے۔ ایک مرتبہ ٹائپ رائٹر فونٹ 'کیوب' میں چل جائے تو پھر تمام عمل کی تفصیلات لکھ دی جائیں اور پھر فیصلہ کیا جائے کہ نوری نستعلیق کی ٹریننگ کس طرح سے ہو۔
    فونٹ نسخ ہے لیکن ٹائپ رائٹر میں حروف کے جوڑ نسخ فونٹس سے کافی مختلف ہیں اور کیرج کی حرکت کی وجہ سے اشکال (کی طوالت) بھی مختلف ہیں۔ میں نے بعض تھرڈ پارٹی ٹولز دیکھے ہیں جو شاید براہِ راست صفحات کی تصاویر سے ٹریننگ کا کام کرتے ہیں، شاید ان میں فونٹس کے بغیر بھی کام چل جائے۔ ان کے بارے میں مزید تحقیق کی ضرورت ہے۔

    پہلے جب او سی آر سوفٹویئر عربی/اردو کو سپورٹ نہیں کرتے تھے تو صفحات کی تصاویر کا عمودی مِرر بنا کر بائیں سے دائیں رومن حروف میں شناخت کرنے کی کوششیں کی گئی تھیں۔ اگر 'کیوب' کے سلسلے میں کامیابی نہیں ہوتی تو یہی عمودی مرر کا طریقہ استعمال کر کے براہِ راست اردو حروف کو شناخت کیا جا سکتا ہے۔
     
    • زبردست زبردست × 1
    • معلوماتی معلوماتی × 1
  7. arifkarim

    arifkarim معطل

    مراسلے:
    29,828
    جھنڈا:
    Norway
    موڈ:
    Happy
    چونکہ نوری نستعلیق کے ترسیمہ جات کی تعداد محدود ہے یعنی 24000 یوں ہم ان ترسیموں کے امیج بنا کر ٹیسیریکٹ کے ذریعہ پراسیس کر وا سکتے ہیں۔ محفل پر ایک صاحب ہوا کرتے تھے jawad101 کے نام سے کسی زمانہ میں۔ انکے ساتھ کوئی 7 سال قبل اس سلسلہ میں تجربات بھی کئے تھے جو کہ محض ابتدائی نوعیت کے تھے۔ اسوقت یہ پروگرام نہایت کمزور تھا البتہ کام تب بھی کر رہا تھا۔ اگر آپکو نوری نستعلیق کے ترسیمہ جات امیج کی صورت میں فراہم کر دئے جائیں تو کیا یہ حالیہ صورت میں انہیں ٹریس کر پائے گا؟
     
  8. سویدا

    سویدا محفلین

    مراسلے:
    1,842
    جھنڈا:
    Pakistan
    موڈ:
    Question
    ٹیسیریکٹ کا عربی کے لیے رزلٹ کیسا اور کتنا فیصد ھے ؟
     
    • معلوماتی معلوماتی × 1
  9. اسد

    اسد محفلین

    مراسلے:
    1,092
    موڈ:
    Busy
    میرے خیال میں ترسیموں کی شناخت کے لئے کیوب کی ضرورت نہیں پڑے گی۔ لیکن ہر صورت میں اردو زبان کی فائلیں پہلے تیار کرنی ہوں گی اس کے بعد ہی ٹریننگ کی جا سکے گی۔
    میں عربی نہیں جانتا، سو میں نے اس بارے میں اعداد و شمار نہیں دیکھے، لیکن جو لوگ نئے فونٹ یا دوسری زبانوں پر ٹریننگ کرنا چاہتے ہیں انہیں یہی شکایت ہے کہ کیوب کے بارے میں معلومات فراہم نہیں کی گئی ہیں۔

    میں پچھلے ایک ہفتے سے لاہور میں ہوں اور واپسی پر ہی اس بارے میں مزید کام کر سکوں گا۔
     
    • پسندیدہ پسندیدہ × 1
    • زبردست زبردست × 1
    • معلوماتی معلوماتی × 1
  10. دوست

    دوست محفلین

    مراسلے:
    13,072
    جھنڈا:
    Germany
    موڈ:
    Fine
    آج ڈاکٹر سرمد حسین سے مختصر سی بات چیت میں پتا چلا کہ ان کا او سی آر بیک اینڈ پر ٹیسریکٹ کا استعمال کرتا ہے۔
    ان کے ٹریننگ ڈیٹا کے حوالے سے بات چیت ہو چکی ہے یہیں کہیں۔ ان کا کہنا تھا کہ یہ ٹریننگ ڈیٹا تحقیقی مقاصد کے لیے بلا معاوضہ بھی دستیاب ہے، جیسے میرا آجر ادارہ جامعہ گجرات۔ لیکن اگر اردو محفل کے پلیٹ فارم سے ایسی کوئی درخواست کی جائے تو اس کا کیا ہو گا، اس حوالےسے سوال پوچھنے کا موقع نہیں مل سکا۔
    اور آخری بات کہ ان کا او سی آر 300 ڈی پی آئی پر کام کرتا ہے۔ عین اسی ڈی پی آئی پر اسکین شدہ تصویر کو استعمال کر کے دیکھیں کیا نتیجہ نکلتا ہے۔ ان کا کہنا تھا کہ اگر او سی آر مسئلہ کرتا ہے تو انہیں متعلقہ امیج کے ہمراہ ایک فیڈ بیک ای میل ضرور بھیجی جائے تاکہ مسئلے کا حل تلاش کر کے او سی آر بہتر بنایا جا سکے۔
     
    • معلوماتی معلوماتی × 2
    • زبردست زبردست × 1
  11. arifkarim

    arifkarim معطل

    مراسلے:
    29,828
    جھنڈا:
    Norway
    موڈ:
    Happy
    اس حوالہ سے ہم نے باقائدہ کورل ڈرا میں 300 DPI کے سیمپل بنا کر چیک کئے تھے جنہیں انکا آن لائن او سی آر پڑھنے سے ہی انکاری تھا۔
     
  12. arifkarim

    arifkarim معطل

    مراسلے:
    29,828
    جھنڈا:
    Norway
    موڈ:
    Happy
    اردو زبان کی فائلوں سے کیا مراد ہے؟ اور یہ کیوب کیا بلا ہے؟ ہمارے پاس نوری نستعلیق کے 24000 ترسیمے امیج فارمیٹ میں الگ الگ دستیاب ہیں۔ انکی خودکار ٹریننگ کروانا تو کوئی زیادہ مشکل نہیں ہونا چاہئے۔ خاص کر کے جب مطلوبہ امیج کا نام متعلقہ ترسیمے کے صوتی نام پر ہو :)
     
    • معلوماتی معلوماتی × 1
  13. دوست

    دوست محفلین

    مراسلے:
    13,072
    جھنڈا:
    Germany
    موڈ:
    Fine
    کمپیوٹر پر تیار کی گئی نہیں اسکین کردہ فائلیں۔ کمپیوٹر پر تیار کردہ فائلوں کو او سی آر نہیں مانتا۔ اب اللہ جانے ایسی فائلوں میں کیا مسئلہ آتا ہے۔ لیکن میں نے یہی ذکر کیا تھا۔ انہوں نے کہا آپ 300 ڈی پی آئی پر اسکین کر کے چیک کریں اور پھر بتائیں۔
     
    • معلوماتی معلوماتی × 2
  14. arifkarim

    arifkarim معطل

    مراسلے:
    29,828
    جھنڈا:
    Norway
    موڈ:
    Happy
    چلیں یہ تجربہ بھی ہو جائے گا۔ پھر بتا تے ہیں۔
     
  15. دوست

    دوست محفلین

    مراسلے:
    13,072
    جھنڈا:
    Germany
    موڈ:
    Fine
    جی مجھے بھی انتظار ہے۔ چونکہ اگر ایسا ہی ہے تو اردو کا ایک قابلِ عمل او سی آر ایک عرصے سے موجود ہے لیکن ہم اسے استعمال نہیں کر رہے۔
     
    • دوستانہ دوستانہ × 1
  16. arifkarim

    arifkarim معطل

    مراسلے:
    29,828
    جھنڈا:
    Norway
    موڈ:
    Happy
    میرے پاس نوری نستعلیق میں چھپی کئی کتب موجود ہیں۔ جلد ہی انہیں 300 ڈی پی آئی پر اسکین کر کے چیک کر لیتا ہوں۔ اس او سی آر کا ربط نہیں ملا رہا۔ اگر آپکے پاس ہے تو فراہم کر دیں۔
     
  17. دوست

    دوست محفلین

    مراسلے:
    13,072
    جھنڈا:
    Germany
    موڈ:
    Fine
    • معلوماتی معلوماتی × 1
  18. تجمل حسین

    تجمل حسین محفلین

    مراسلے:
    2,236
    جھنڈا:
    Pakistan
    موڈ:
    Angelic
    میں نے بہت بار کوشش کی ہے۔ مختلف حالت کی کتابیں سکین کرکے بھی اور بالکل نیا پرنٹ نکال کر اسے سکین کرکے بھی ٹیسٹ کیا ہے۔
    او سی آر تو ہوجاتا ہے لیکن غلطیاں اتنی ہوتی ہیں کہ غلطیاں درست کرنے کے بجائے دوبارہ ٹائپ کرنا زیادہ آسان لگتا ہے۔ :)
     
    • پر مزاح پر مزاح × 1
  19. اسد

    اسد محفلین

    مراسلے:
    1,092
    موڈ:
    Busy
    ٹیسیریکٹ میں جس زبان کو او سی آر کرنا ہوتا ہے اس زبان کی معلومات اور خصوصیات پر مبنی کچھ فائلیں موجود ہونی چاہییں۔ ان میں سے کچھ فائلیں ٹیکسٹ فورمیٹ میں ہوتی ہیں اور کچھ بائنری فورمیٹ میں۔ ٹیکسٹ فورمیٹ کی فائلوں میں زبان کے حروف، اعداد اور اوقاف وغیرہ کی تفصیلات، الفاظ کے فریکونسی ٹیبل اور بعض دیگر معلومات ہوتی ہیں۔ یہ فائلیں ٹریننگ کا عمل شروع کرنے سے پہلے موجود ہونی چاہییں۔ اس کے بعد ٹریننگ کروائی جاتی ہے جس کے نتیجے میں کچھ بائنری اور ٹیکسٹ فائلیں جنریٹ ہوتی ہیں۔ اس کے بعد او سی آر کا عمل شروع ہوتا ہے۔

    او سی آر کا عام طریقہ پہلے سے موجود تھا، اب کیوب نامی ایک اور طریقہ شامل کیا گیا ہے۔ کہا جاتا ہے کہ عربی کے لئے اس کا نتیجہ بہتر ہے۔

    خودکار طور پر کوئی بھی کام کروانا میرے لیے ممکن نہیں ہے، اس کے لئے کوئی پروگرامر ہی سکرپٹ تیار کر سکتا ہے۔
     
    • معلوماتی معلوماتی × 2
  20. زہیر عبّاس

    زہیر عبّاس محفلین

    مراسلے:
    972
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    کیا آپ نے ٹیسیریکٹ کے لئے اردو کی ٹریننگ کی فائلز تیار کرلی تھیں۔ کیا وہ مل سکتی ہیں؟
     

اس صفحے کی تشہیر