ٹیسیریکٹ او سی آر - عربی سپورٹ - اور اردو؟؟؟

اسد

محفلین
پچھلے دنوں ڈریگن نیچرلی‌سپیکنگ 12 پر کام کرنے کا موقعہ ملا تو بہت لطف آیا۔ میرے کمپیوٹر پر تو چلتا نہیں ہے کہ میں اس پر مزید وقت لگاتا، اس لئے سوچا کہ جو سوفٹویئر میرے کمپیوٹر پر چل سکتا ہے اسے دیکھا جائے۔ میں پچھلے دس سال سے ایبی فائن‌ریڈر 7 انگلش او سی آر کے لئے استعمال کر رہا ہوں۔ یہ پرانا سوفٹویئر ایک ادارے نے بطور معاوضہ مجھے دیا تھا جب میں نے ان کے فائن‌ریڈر ورژن 9 کے مسائل حل کیے تھے۔ فائن‌ریڈر بہترین او سی آر سوفٹویئر ہے لیکن یہ کمرشل سوفٹویئر ہے اور اردو کو سپورٹ نہیں کرتا۔ ورژن 12 پروفیشنل 150 سے 170 ڈالر یا 130 سے 140 یورو میں دستیاب ہے۔ اس کے باوجود کہ جدید ترین ورژن 'فائن‌ریڈر 12 پروفیشنل' عربی کو سپورٹ کرتا ہے، اسے اردو کے لئے استعمال کرنا مشکل ہے۔ ایک بڑا مسئلہ اس کی قیمت ہے، لیکن اس کے لئے اردو کی فائلیں تیار کرنا بھی طویل کام ہے۔

چند سال پہلے ریڈ‌آئرس پرو میں بھی عربی کی سپورٹ شامل کی گئی تھی لیکن یہ بھی صرف عربی کے مخصوص نسخ فونٹس کو ہی شناخت کرتا تھا، معلوم نہیں کہ اس کے جدید ترین ورژن میں کیا صورتِ حال ہے۔ یہ بھی کمرشل سوفٹویئر ہے۔

ایک بات ہمیں سمجھ لینی چاہیے کہ ہاتھ کی خطاطی کو او سی آر کرنے میں کافی عرصہ لگے گا اور خصوصاً ہاتھ سے لکھی ہوئی نستعلیق کی شناخت کے لئے طویل عرصہ درکار ہو گا۔ نوری نستعلیق کی شناخت کے لئے اب بھی کچھ ذرائع موجود ہیں لیکن ہمیں ان کے ٹیسٹ ڈیٹا تک رسائی نہیں ہے۔ ہر سال کمپیوٹر سائنس کے درجنوں طلبا اردو او سی آر کا پروجیکٹ کرتے ہیں لیکن کوئی بھی ٹیسٹ ڈیٹا ظاہر نہیں کرتا۔

اب میں سوچ رہا ہوں کہ آزاد مصدر (اوپن سورس) سوفٹویئر پر تجربے کیے جائیں تاکہ اگر کچھ کامیابی حاصل ہو تو سب اس سے فائدہ اٹھا سکیں۔ اس کے لئے ٹیسیریکٹ ہی بہتر ہے۔ اکتوبر 2011 میں اس کے ورژن 3.01 میں عربی کی سپورٹ شامل کی گئی تھی۔
گوگل کوڈ نے کہا:
Added Cube, a new recognizer for Arabic. Cube can also be used in combination with normal Tesseract for other languages with an improvement in accuracy at the cost of (much) lower speed. There is no training module for Cube yet.​
اکتوبر 2012 میں ورژن 3.02.02 میں دائیں سے بائیں/بائی ڈائریکشن سپورٹ شامل کی گئی تھی۔
گوگل کوڈ نے کہا:
Added Right-to-left/Bidi capability in the output iterators for Hebrew/Arabic.​
فروری 2014 میں ورژن 3.03 (rc1) میں کچھ نئی سہولیات مہیا کی گئی ہیں، میرا خیال ہے کہ یہ عربی/اردو کے لئے بھی کسی حد تک کارآمد ہوں گی۔
گوگل کوڈ نے کہا:
Added new training tool text2image to generate box/tif file pairs from text and truetype fonts.

Added set_unicharset_properties to training tools.​

ٹیسیریکٹ کا ڈاؤنلوڈ صفحہ۔ اس صفحے پر سورس کوڈ، ونڈوز کے لئے انسٹالر ورژن 3.02.02(12.9 ایم بی) اور مختلف زبانوں کا ڈیٹا موجود ہے۔

جدید ترین ورژن (3.03) ونڈوز کے لئے دستیاب نہیں ہے اور اسے سورس سے کمپائل کرنے کی ضرورت ہو گی۔ ویژؤل سٹوڈیو 2013 میں اسے کمپائل کرنے کی تفصیل اس صفحے پر موجود ہے۔ اگر کوئی اسے کمپائل کر کے مہیا کر سکے تو بہت اچھا ہو گا۔ کیونکہ لگتا ہے کہ بوکس/ٹِف فائل پیئر سے شناخت کا معیار بہتر ہوتا ہے اور یہ جدید ترین ورژن میں ہی دستیاب ہے۔

ٹیسیریکٹ 3 کی ٹریننگ کرنے کا طریقہ اس صفحے پر موجود ہے۔ میں 3.02.02 میں کوشش کروں گا کہ اردو زبان کے لئے فائلیں تیار کر سکوں۔ کوئی بھی نئی زبان شامل کرنے کے لئے اس زبان کی کئی فائلیں تیار کرنی ہوتی ہیں۔ بعد میں ان تمام فائلوں کو یکجا کیا جاتا ہے اور یہ فائل کوئی بھی استعمال کر سکتا ہے۔
 

نبیل

تکنیکی معاون
ٹیسریکٹ کے نئے ورژن کو کمپائل کرنے کی کوشش کی جا سکتی ہے۔ اس ربط پر نئے ورژن کی بائنری فراہم کی گئی ہے اور اسے چلانے کا طریقہ یہ بتایا گیا ہے کہ پرانے ورژن 3.02 کو انسٹال کرکے اس کی tesseract.exe کو نئے ورژن سے بدل دیا جائے۔ اس طریقے کو پہلے آزما کر دیکھ لیں۔
 

اسد

محفلین
پرانی tesseract.exe کو نئے ورژن سے تبدیل کرنے پر یہ کام کرتی ہے۔ لیکن ہمیں نئے ورژن کے ٹولز کی بھی ضرورت ہے، خصوصاً text2image جو صرف 3.03 میں ہی دستیاب ہے۔

میرا ارادہ ٹائپ رائٹر سے ٹائپ کیے ہوئے صفحات سے ٹریننگ کرنے کا ہے، لیکن اس سے ملتے جلتے فونٹ اردو میں دستیاب نہیں ہیں۔ میں اسی پر توجہ دوں گا۔ ایک مسئلہ یہ ہے کہ عربی کی شناخت کے لئے کیوب استعمال ہو رہا ہے لیکن اس کے بارے میں معلومات نہ ہونے کے برابر ہیں۔ بہرحال جو کچھ ہو سکتا ہے اس کی کوشش کروں گا، ہو سکتا ہے کہ مزید معلومات حاصل ہو جائیں۔

آپ کی بتائی ہوئی سائٹ کے کچھ دوسرے صفحات پر میں جا چکا ہوں، اس صفحے پر موجود ٹولز خاصے کارآمد لگتے ہیں۔ میں انہیں بھی دیکھوں گا۔
 

نبیل

تکنیکی معاون
کیا text2image کو الگ سے کمپائل کرنے کی ضرورت پیش آئے گی؟

ٹائپ رائٹر کی بجائے اگر نوری نستعلیق کے لگیچرز کے لیے ٹرین کیا جائے تو کیا بہتر نہیں ہوگا؟
 

اسد

محفلین
کیا text2image کو الگ سے کمپائل کرنے کی ضرورت پیش آئے گی؟
3.03 میں ٹریننگ ٹولز علیحدہ سے کمپائل ہوتے ہیں۔ ٹریننگ ٹیسریکٹ3 کے صفحے پر یہی لکھا ہے۔
ٹائپ رائٹر کی بجائے اگر نوری نستعلیق کے لگیچرز کے لیے ٹرین کیا جائے تو کیا بہتر نہیں ہوگا؟
جیسا کہ میں نے بتایا عربی کی شناخت کے لئے 'کیوب' استعمال ہو رہا ہے اور اس کے بارے میں معلومات بہت کم ہیں۔ اس کے ٹریننگ ٹولز بھی نہیں ہیں۔ نوری نستعلیق کی ٹریننگ کافی طویل اور وقت طلب کام ہو گا، اگر ہم اس سے ٹریننگ شروع کریں اور کوئی غلط طریقہ استعمال کر لیں تو دوبارہ سے بہت زیادہ محنت کرنی پڑے گی۔ میں چاہتا ہوں کہ پہلے عربی کی ٹیکسٹ فائلوں کے مطابق اردو کی فائلیں تیار کروں اور پھر کوئی آسان ٹریننگ کروں جس سے بائنری فائلیں تیار ہو جائیں۔ اس عمل میں کامیابی کے بعد اس کی تفصیل لکھ دی جائے۔ پھر کیوب کی فائلوں کے ساتھ یہی طریقِ کار اپنایا جائے۔ ایک مرتبہ ٹائپ رائٹر فونٹ 'کیوب' میں چل جائے تو پھر تمام عمل کی تفصیلات لکھ دی جائیں اور پھر فیصلہ کیا جائے کہ نوری نستعلیق کی ٹریننگ کس طرح سے ہو۔
اس کا فونٹ تو شاید نسخ ہو گا جو شاید آسانی سے ٹرین ہو جائے
فونٹ نسخ ہے لیکن ٹائپ رائٹر میں حروف کے جوڑ نسخ فونٹس سے کافی مختلف ہیں اور کیرج کی حرکت کی وجہ سے اشکال (کی طوالت) بھی مختلف ہیں۔ میں نے بعض تھرڈ پارٹی ٹولز دیکھے ہیں جو شاید براہِ راست صفحات کی تصاویر سے ٹریننگ کا کام کرتے ہیں، شاید ان میں فونٹس کے بغیر بھی کام چل جائے۔ ان کے بارے میں مزید تحقیق کی ضرورت ہے۔

پہلے جب او سی آر سوفٹویئر عربی/اردو کو سپورٹ نہیں کرتے تھے تو صفحات کی تصاویر کا عمودی مِرر بنا کر بائیں سے دائیں رومن حروف میں شناخت کرنے کی کوششیں کی گئی تھیں۔ اگر 'کیوب' کے سلسلے میں کامیابی نہیں ہوتی تو یہی عمودی مرر کا طریقہ استعمال کر کے براہِ راست اردو حروف کو شناخت کیا جا سکتا ہے۔
 

arifkarim

معطل
نوری نستعلیق کی ٹریننگ کافی طویل اور وقت طلب کام ہو گا، اگر ہم اس سے ٹریننگ شروع کریں اور کوئی غلط طریقہ استعمال کر لیں تو دوبارہ سے بہت زیادہ محنت کرنی پڑے گی۔
چونکہ نوری نستعلیق کے ترسیمہ جات کی تعداد محدود ہے یعنی 24000 یوں ہم ان ترسیموں کے امیج بنا کر ٹیسیریکٹ کے ذریعہ پراسیس کر وا سکتے ہیں۔ محفل پر ایک صاحب ہوا کرتے تھے jawad101 کے نام سے کسی زمانہ میں۔ انکے ساتھ کوئی 7 سال قبل اس سلسلہ میں تجربات بھی کئے تھے جو کہ محض ابتدائی نوعیت کے تھے۔ اسوقت یہ پروگرام نہایت کمزور تھا البتہ کام تب بھی کر رہا تھا۔ اگر آپکو نوری نستعلیق کے ترسیمہ جات امیج کی صورت میں فراہم کر دئے جائیں تو کیا یہ حالیہ صورت میں انہیں ٹریس کر پائے گا؟
 

اسد

محفلین
اگر آپکو نوری نستعلیق کے ترسیمہ جات امیج کی صورت میں فراہم کر دئے جائیں تو کیا یہ حالیہ صورت میں انہیں ٹریس کر پائے گا؟
میرے خیال میں ترسیموں کی شناخت کے لئے کیوب کی ضرورت نہیں پڑے گی۔ لیکن ہر صورت میں اردو زبان کی فائلیں پہلے تیار کرنی ہوں گی اس کے بعد ہی ٹریننگ کی جا سکے گی۔
ٹیسیریکٹ کا عربی کے لیے رزلٹ کیسا اور کتنا فیصد ھے ؟
میں عربی نہیں جانتا، سو میں نے اس بارے میں اعداد و شمار نہیں دیکھے، لیکن جو لوگ نئے فونٹ یا دوسری زبانوں پر ٹریننگ کرنا چاہتے ہیں انہیں یہی شکایت ہے کہ کیوب کے بارے میں معلومات فراہم نہیں کی گئی ہیں۔

میں پچھلے ایک ہفتے سے لاہور میں ہوں اور واپسی پر ہی اس بارے میں مزید کام کر سکوں گا۔
 

دوست

محفلین
آج ڈاکٹر سرمد حسین سے مختصر سی بات چیت میں پتا چلا کہ ان کا او سی آر بیک اینڈ پر ٹیسریکٹ کا استعمال کرتا ہے۔
ان کے ٹریننگ ڈیٹا کے حوالے سے بات چیت ہو چکی ہے یہیں کہیں۔ ان کا کہنا تھا کہ یہ ٹریننگ ڈیٹا تحقیقی مقاصد کے لیے بلا معاوضہ بھی دستیاب ہے، جیسے میرا آجر ادارہ جامعہ گجرات۔ لیکن اگر اردو محفل کے پلیٹ فارم سے ایسی کوئی درخواست کی جائے تو اس کا کیا ہو گا، اس حوالےسے سوال پوچھنے کا موقع نہیں مل سکا۔
اور آخری بات کہ ان کا او سی آر 300 ڈی پی آئی پر کام کرتا ہے۔ عین اسی ڈی پی آئی پر اسکین شدہ تصویر کو استعمال کر کے دیکھیں کیا نتیجہ نکلتا ہے۔ ان کا کہنا تھا کہ اگر او سی آر مسئلہ کرتا ہے تو انہیں متعلقہ امیج کے ہمراہ ایک فیڈ بیک ای میل ضرور بھیجی جائے تاکہ مسئلے کا حل تلاش کر کے او سی آر بہتر بنایا جا سکے۔
 

arifkarim

معطل
اور آخری بات کہ ان کا او سی آر 300 ڈی پی آئی پر کام کرتا ہے۔ عین اسی ڈی پی آئی پر اسکین شدہ تصویر کو استعمال کر کے دیکھیں کیا نتیجہ نکلتا ہے۔ ان کا کہنا تھا کہ اگر او سی آر مسئلہ کرتا ہے تو انہیں متعلقہ امیج کے ہمراہ ایک فیڈ بیک ای میل ضرور بھیجی جائے تاکہ مسئلے کا حل تلاش کر کے او سی آر بہتر بنایا جا سکے۔
اس حوالہ سے ہم نے باقائدہ کورل ڈرا میں 300 DPI کے سیمپل بنا کر چیک کئے تھے جنہیں انکا آن لائن او سی آر پڑھنے سے ہی انکاری تھا۔
 

arifkarim

معطل
میرے خیال میں ترسیموں کی شناخت کے لئے کیوب کی ضرورت نہیں پڑے گی۔ لیکن ہر صورت میں اردو زبان کی فائلیں پہلے تیار کرنی ہوں گی اس کے بعد ہی ٹریننگ کی جا سکے گی۔
اردو زبان کی فائلوں سے کیا مراد ہے؟ اور یہ کیوب کیا بلا ہے؟ ہمارے پاس نوری نستعلیق کے 24000 ترسیمے امیج فارمیٹ میں الگ الگ دستیاب ہیں۔ انکی خودکار ٹریننگ کروانا تو کوئی زیادہ مشکل نہیں ہونا چاہئے۔ خاص کر کے جب مطلوبہ امیج کا نام متعلقہ ترسیمے کے صوتی نام پر ہو :)
 

دوست

محفلین
کمپیوٹر پر تیار کی گئی نہیں اسکین کردہ فائلیں۔ کمپیوٹر پر تیار کردہ فائلوں کو او سی آر نہیں مانتا۔ اب اللہ جانے ایسی فائلوں میں کیا مسئلہ آتا ہے۔ لیکن میں نے یہی ذکر کیا تھا۔ انہوں نے کہا آپ 300 ڈی پی آئی پر اسکین کر کے چیک کریں اور پھر بتائیں۔
 

arifkarim

معطل
کمپیوٹر پر تیار کی گئی نہیں اسکین کردہ فائلیں۔ کمپیوٹر پر تیار کردہ فائلوں کو او سی آر نہیں مانتا۔ اب اللہ جانے ایسی فائلوں میں کیا مسئلہ آتا ہے۔ لیکن میں نے یہی ذکر کیا تھا۔ انہوں نے کہا آپ 300 ڈی پی آئی پر اسکین کر کے چیک کریں اور پھر بتائیں۔
چلیں یہ تجربہ بھی ہو جائے گا۔ پھر بتا تے ہیں۔
 

دوست

محفلین
جی مجھے بھی انتظار ہے۔ چونکہ اگر ایسا ہی ہے تو اردو کا ایک قابلِ عمل او سی آر ایک عرصے سے موجود ہے لیکن ہم اسے استعمال نہیں کر رہے۔
 

arifkarim

معطل
جی مجھے بھی انتظار ہے۔ چونکہ اگر ایسا ہی ہے تو اردو کا ایک قابلِ عمل او سی آر ایک عرصے سے موجود ہے لیکن ہم اسے استعمال نہیں کر رہے۔
میرے پاس نوری نستعلیق میں چھپی کئی کتب موجود ہیں۔ جلد ہی انہیں 300 ڈی پی آئی پر اسکین کر کے چیک کر لیتا ہوں۔ اس او سی آر کا ربط نہیں ملا رہا۔ اگر آپکے پاس ہے تو فراہم کر دیں۔
 

تجمل حسین

محفلین
کمپیوٹر پر تیار کی گئی نہیں اسکین کردہ فائلیں۔ کمپیوٹر پر تیار کردہ فائلوں کو او سی آر نہیں مانتا۔ اب اللہ جانے ایسی فائلوں میں کیا مسئلہ آتا ہے۔ لیکن میں نے یہی ذکر کیا تھا۔ انہوں نے کہا آپ 300 ڈی پی آئی پر اسکین کر کے چیک کریں اور پھر بتائیں۔
میں نے بہت بار کوشش کی ہے۔ مختلف حالت کی کتابیں سکین کرکے بھی اور بالکل نیا پرنٹ نکال کر اسے سکین کرکے بھی ٹیسٹ کیا ہے۔
او سی آر تو ہوجاتا ہے لیکن غلطیاں اتنی ہوتی ہیں کہ غلطیاں درست کرنے کے بجائے دوبارہ ٹائپ کرنا زیادہ آسان لگتا ہے۔ :)
 

اسد

محفلین
اردو زبان کی فائلوں سے کیا مراد ہے؟ اور یہ کیوب کیا بلا ہے؟ ہمارے پاس نوری نستعلیق کے 24000 ترسیمے امیج فارمیٹ میں الگ الگ دستیاب ہیں۔ انکی خودکار ٹریننگ کروانا تو کوئی زیادہ مشکل نہیں ہونا چاہئے۔ خاص کر کے جب مطلوبہ امیج کا نام متعلقہ ترسیمے کے صوتی نام پر ہو :)
ٹیسیریکٹ میں جس زبان کو او سی آر کرنا ہوتا ہے اس زبان کی معلومات اور خصوصیات پر مبنی کچھ فائلیں موجود ہونی چاہییں۔ ان میں سے کچھ فائلیں ٹیکسٹ فورمیٹ میں ہوتی ہیں اور کچھ بائنری فورمیٹ میں۔ ٹیکسٹ فورمیٹ کی فائلوں میں زبان کے حروف، اعداد اور اوقاف وغیرہ کی تفصیلات، الفاظ کے فریکونسی ٹیبل اور بعض دیگر معلومات ہوتی ہیں۔ یہ فائلیں ٹریننگ کا عمل شروع کرنے سے پہلے موجود ہونی چاہییں۔ اس کے بعد ٹریننگ کروائی جاتی ہے جس کے نتیجے میں کچھ بائنری اور ٹیکسٹ فائلیں جنریٹ ہوتی ہیں۔ اس کے بعد او سی آر کا عمل شروع ہوتا ہے۔

او سی آر کا عام طریقہ پہلے سے موجود تھا، اب کیوب نامی ایک اور طریقہ شامل کیا گیا ہے۔ کہا جاتا ہے کہ عربی کے لئے اس کا نتیجہ بہتر ہے۔

خودکار طور پر کوئی بھی کام کروانا میرے لیے ممکن نہیں ہے، اس کے لئے کوئی پروگرامر ہی سکرپٹ تیار کر سکتا ہے۔
 
Top