'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

فلسفی

محفلین
میں نے متن والی فائل کو "tesstrain.sh" میں استعمال کیا ہے۔ اس کے ذریعے جو باکس فائل بنی ہے وہ بائیں سے دائیں بنی ہے۔ جبکہ متن اور ٹف فائل دائیں سے بائیں ہی ہے۔ سکرپٹ موجودہ تربیتی مواد کے مطابق کوئی فلیگ کی بنیاد پر باکس فائل کو الٹ کرتا ہے۔

کمانڈ
./tesstrain.sh --fonts_dir /usr/share/fonts --lang urd --training_text ./urd.training_text --linedata_only --noextract_font_properties --langdata_dir ./langdata --tessdata_dir ./tesseract/tessdata --fontlist "Jameel Noori Nastaleeq Regular" --output_dir ./traindata --save_box_tif

باکس فائل
ٹف
متن
اس سے یہ بات بھی سمجھ آتی ہے کہ متن کی ہر لائن کے لیے علیحدہ فائل بنانے کی ضرورت نہیں۔ ٹیسریکٹ کا اپنا تربیتی مواد ایک ہی فائل میں ہے۔
 

دوست

محفلین
اس طریقے میں تو صرف ٹیکسٹ فائل دیں گے باقی سارا کام تو ٹیس ٹرین نے کرنا ہے، امیج ٹو ٹیکسٹ استعمال کر کے۔
 

فلسفی

محفلین
اس طریقے میں تو صرف ٹیکسٹ فائل دیں گے باقی سارا کام تو ٹیس ٹرین نے کرنا ہے، امیج ٹو ٹیکسٹ استعمال کر کے۔
جی ایسا ہی ہے۔ اگر "generate_line_box.py" سکرپٹ کو اپ ڈیٹ کردیا جائے (یعنی باکس فائل بائیں سے دائیں بنے) تو "OCR-D" والا ٹول بھی شاید استعمال ہو سکتا ہے۔
 

متلاشی

محفلین
جی ایسا ہی ہے۔ اگر "generate_line_box.py" سکرپٹ کو اپ ڈیٹ کردیا جائے (یعنی باکس فائل بائیں سے دائیں بنے) تو "OCR-D" والا ٹول بھی شاید استعمال ہو سکتا ہے۔
السلام علیکم
فلسفی بھائی خوشی ہوئی کہ آپ حضرت نفیس شاہ صاحب کے عقیدت مندوں میں سے ہیں۔ میں اردو فونٹ سازی کے شعبہ سے منسلک ہوں اور کئی نستعلیق و دیگر فونٹس تیار کر چکا ہوں۔ جن میں سے ایک قبلہ نفیس شاہ صاحب کی طرز خطاطی پر مشتمل ہے۔
اردو او سی آر کے بارے میں میری رائے یہ ہے کہ لگیچرز کی بجائے کریکٹرز پر کام کیا جائے تو یہ پروجیکٹ بہت کم وقت میں بہتر نتائج کے ساتھ مکمل ہو سکتا ہے۔
سوفٹویئر کو الفاظ پر ٹرین کرنے کی بجائے حروف کی مختلف اشکال پر ٹرین کیا جائے۔ زیادہ سے زیادہ پانچ چھ سو اشکال بنیں گی۔ ان چھ سو اشکال کو اگر پین کی مدد سے ڈرا کر کے امیج پراسیسنگ کروائی جائے تو زیادہ بہتر رزلٹس ملیں گے اور پروجیکٹ بہت آسانی سے اور بہت جلد مکمل ہو سکتا ہے۔ نیز ٹریننگ کے لیے مہر نستعلیق ویب فونٹ جو کہ مفت دستیاب ہے کو لیا جا سکتا ہے۔
اس تیکنیک میں سب سے اہم اور مشکل کام لگیچرز کو توڑ کر کریکٹرز حاصل کرنا ہے۔
یہ مرحلہ سر ہو جائے تو محض چھ سو اشکال کو رینڈر کروانا چنداں مشکل نہ ہو گا۔
اور یہی اردو او سی آر کا آسان اور فونٹ اسپیسیفکیشن سے مبرا قابل عمل او سی آر بنانے کا واحد طریقہ ہے۔
 

دوست

محفلین
میرا آج کا دن کچھ احباب کے لیے پراٹھے بنانے اور پھر سونے میں گزرا ہے۔ کل پہلے متن فائل اپلوڈ کروں جس میں سب علامات ہوں، پھر یونی کریسٹ فائل پر کچھ دیکھتا ہوں۔
کچھ تجربات مزید ہونے کے بعد اندازہ ہو گا کہ مکمل الفاظ بہتر ہیں یا لگیچرز۔
جمیل نوری نستعلیق 3 والی لگیچرز لسٹ کہاں ہے بھلا؟ ٹیکسٹ فائل۔
 
جمیل نوری نستعلیق 3 استعمال کرنے سے قبل دیکھ لیجیے گا کہ وہ کرننگ سمیت درست رینڈر ہوتا ہے یا نہیں کیونکہ عمومی طور پر لینکس کی ایپس میں جمیل نوری 3 کی کرننگ کام نہیں کرتی۔ اس صورت میں جمیل نوری 2 یا پیامی نستعلیق کا استعمال بہتر رہے گا۔
 

جاسم محمد

محفلین
اردو او سی آر کے بارے میں میری رائے یہ ہے کہ لگیچرز کی بجائے کریکٹرز پر کام کیا جائے تو یہ پروجیکٹ بہت کم وقت میں بہتر نتائج کے ساتھ مکمل ہو سکتا ہے۔
او سی آر میں کیریکٹر یا لگیچر کا مسئلہ نہیں ہوتا۔ بلکہ جس خط سے متن حاصل کرنا مقصود ہے اس کو ترجیح دی جاتی ہے۔
آج بھی پرنٹ شدہ اردو مواد کی اکثریت نوری نستعلیق خط میں ہے۔ اسی لئے اس پر پہلے کام کیا جا رہا ہے۔ جب یہ مرحلہ پار ہو جائے گا تو پرانی ہاتھ کی کتابت والی کتب کیلئے مہر نستعلیق خط سے استفادہ کیا جا سکتا ہے۔
 
آخری تدوین:

جاسم محمد

محفلین
جمیل نوری نستعلیق 3 استعمال کرنے سے قبل دیکھ لیجیے گا کہ وہ کرننگ سمیت درست رینڈر ہوتا ہے یا نہیں کیونکہ عمومی طور پر لینکس کی ایپس میں جمیل نوری 3 کی کرننگ کام نہیں کرتی۔ اس صورت میں جمیل نوری 2 یا پیامی نستعلیق کا استعمال بہتر رہے گا۔
او سی آر ٹریننگ ڈیٹا پرنٹ شدہ مواد کے جتنا قریب ہوگا نتائج اتنے ہی بہتر آئیں گے۔ معلوم نہیں گوگل او سی آر نے ٹریننگ ڈیٹا کیسے اکٹھا کیا ہے۔ البتہ وہاں نوری نستعلیق امیج سکین کے نتائج بہت حد تک قابل قبول ہیں۔
 

فلسفی

محفلین
السلام علیکم
فلسفی بھائی خوشی ہوئی کہ آپ حضرت نفیس شاہ صاحب کے عقیدت مندوں میں سے ہیں۔ میں اردو فونٹ سازی کے شعبہ سے منسلک ہوں اور کئی نستعلیق و دیگر فونٹس تیار کر چکا ہوں۔ جن میں سے ایک قبلہ نفیس شاہ صاحب کی طرز خطاطی پر مشتمل ہے۔
وعلیکم السلام محترم۔ اللہ تعالی آپ کے کام میں، علم میں برکت عطا کرے۔ حضرت شاہ صاحب رحمہ اللہ کی طرز خطاطی کی باریکیوں کے بارے میں خود شاہ صاحب بتا سکتے تھے یا ان کا کوئی قابل شاگرد اس ضمن میں رائے دے سکتا ہے۔ میں ذاتی طور پر حضرت کے جن شاگردوں سے مل چکا ہوں ان میں محترم جمیل صاحب حضرت کے بھانجے اور شاگرد، محترم جمیل الرحمن صاحب اور قاری افتخار رشیدی صاحب (جدہ والے) شامل ہیں۔ قاری افتخار رشیدی صاحب آج کل پاکستان میں ہیں (باقی دو حضرات بھی شاید لاہور میں ہی موجود ہیں)۔ ان کی رائے اس بارے میں طلب کی جاسکتی ہے جو بلاشبہ سند کا درجہ رکھتی ہے۔ یا پھر حضرت کے خادم خاص بھائی رضوان نفیس صاحب وہ بھی لاہور میں ہیں ان سے اس بارے میں پوچھا جا سکتا ہے کہ حضرت خود اپنے کس شاگرد کے طرز خطاطی سے مطمئن تھے تو آپ کے فونٹ کے حوالے سے ان کی رائے بھی طلب کی جاسکتی ہے۔

حضرت کی بیماری کے آخری دنوں میں مجھے موقع ملا تھا کہ حضرت سے براہ راست اس موضوع پر گفتگو کرسکوں۔ میرے ذہن میں حضرت کا نورانی چہرہ، سفید داڑھی، سفید کرتا، تہبند اور سفید ٹوپی کا ایک خاکہ تھا۔ لیکن جب حضرت سے عرض کی کہ میں فونٹ پر کام کرنا چاہتا ہوں تو غیر متوقع طور پر حضرات نے سوال کیا کہ "کریکٹر بیس بنانا چاہتے ہو یا لیگیچر بیس"۔ ایک لمحے کو تو میں ٹھٹک گیا۔ کیونکہ اس وقت اس ڈومین کی معلومات تقریبا نہ ہونے کے برابر تھیں۔ خیر اس سے اندازہ ہوا کہ حضرت خود روایتی خطاطی کے علاوہ بھی معلومات رکھتے تھے۔ آہ ہ ہ کیسے حضرات تھے کہ سمندر کے سمندر علم کے نوش کیے سمندر کے جیسے ہی خاموش طبع کے مالک تھے اور ہم جیسے ندی نالے ان کے آس پاس شور مچایا کرتے تھے۔

خیر ضمنا بات آگئی بیچ میں، میرے لائق اگر کوئی خدمت اس حوالے سے ہو تو ضرور یاد کیجیے گا۔ میں اس کو اپنی سعادت سمجھوں گا۔

اردو او سی آر کے بارے میں میری رائے یہ ہے کہ لگیچرز کی بجائے کریکٹرز پر کام کیا جائے تو یہ پروجیکٹ بہت کم وقت میں بہتر نتائج کے ساتھ مکمل ہو سکتا ہے۔
سوفٹویئر کو الفاظ پر ٹرین کرنے کی بجائے حروف کی مختلف اشکال پر ٹرین کیا جائے۔ زیادہ سے زیادہ پانچ چھ سو اشکال بنیں گی۔ ان چھ سو اشکال کو اگر پین کی مدد سے ڈرا کر کے امیج پراسیسنگ کروائی جائے تو زیادہ بہتر رزلٹس ملیں گے اور پروجیکٹ بہت آسانی سے اور بہت جلد مکمل ہو سکتا ہے۔ نیز ٹریننگ کے لیے مہر نستعلیق ویب فونٹ جو کہ مفت دستیاب ہے کو لیا جا سکتا ہے۔
اس تیکنیک میں سب سے اہم اور مشکل کام لگیچرز کو توڑ کر کریکٹرز حاصل کرنا ہے۔
یہ مرحلہ سر ہو جائے تو محض چھ سو اشکال کو رینڈر کروانا چنداں مشکل نہ ہو گا۔
اور یہی اردو او سی آر کا آسان اور فونٹ اسپیسیفکیشن سے مبرا قابل عمل او سی آر بنانے کا واحد طریقہ ہے۔

او سی آر میں کیریکٹر یا لگیچر کا مسئلہ نہیں ہوتا۔ بلکہ جس خط سے متن حاصل کرنا مقصود ہے اس کو ترجیح دی جاتی ہے۔
آج بھی پرنٹ شدہ اردو مواد کی اکثریت نوری نستعلیق خط میں ہے۔ اسی لئے اس پر پہلے کام کیا جا رہا ہے۔ جب یہ مرحلہ پار ہو جائے گا تو پرانی ہاتھ کی کتابت والی کتب کیلئے مہر نستعلیق خط سے استفادہ کیا جا سکتا ہے۔

جہاں تک ٹیسریکٹ کو میں سمجھ سکا ہوں یہ حرف بہ حرف ہی کام کرتا ہے۔ باکس فائل کا مقصد شاید یہی ہے۔ جس میں متن میں استعمال شدہ حروف اور تصویر میں موجود ان کی پوزیشن ہوتی ہے۔ اس طرح نیورول نیٹورک کے ذریعے بہت سی تصاویر اور ان کے مطابق باکس فائلز کے ذریعے انجن کی تربیت کی جاتی ہے۔ جس کے بعد انجن اصل تصویر کو دیکھ کر اپنی تربیت کے مطابق حروف کی پیش گوئی کرتا ہے۔ یہ مشین لرننگ کی ایک بہت اچھی مثال بھی ہے۔
 
آخری تدوین:

عباس اعوان

محفلین
میری رائے میں ابھی لگیچرز سے ٹرین کرنے کی کوشش نہ کی جائے۔
فی الوقت موجودہ سمت میں ہی کام کا جاری رکھنا چاہیے۔
 

فلسفی

محفلین
میں نے "generate_line_box.py" سکرپٹ اپ ڈیٹ کیا ہے۔ باکس فائل بائیں سے دائیں بنانے کے لیے۔ یہاں سے حاصل کیجیے۔ دیکھیے "OCR-D train" ٹول کام کرتا ہے کہ نہیں۔
 

دوست

محفلین
آج ٹریننگ ٹیکسٹ بن جائے گی، زیادہ سے زیادہ ممکن سطروں کے ساتھ۔ منفرد الفاظ جمع لگیچرز دونوں کو کام میں لا کر سطور جنریٹ ہو جائیں گی، ابھی تجربات جاری ہیں۔
 

جاسم محمد

محفلین
میری رائے میں ابھی لگیچرز سے ٹرین کرنے کی کوشش نہ کی جائے۔
منفرد الفاظ جمع لگیچرز دونوں کو کام میں لا کر سطور جنریٹ ہو جائیں گی
متفق۔ نوری نستعلیق کے 23000 لگیچرز سے اردو زبان کے 95 فیصد سے زائد الفاظ لکھے جا سکتے ہیں۔
 

دوست

محفلین
7 گھنٹے کم و بیش کی ڈونکی، اردو میں جسے گدھا اور پنجابی میں کھوتا کہتے ہیں، محنت سے ایک فرینکسٹائن پروگرام لکھا، مٹا مٹا کر لکھا۔ اور اب تقریباً ایک لاکھ تیس ہزار الفاظ کی فہرست سے ہر لفظ کے لیے 21 الفاظ کے تین ٹکڑے بن رہے ہیں۔ کُل قریباً 4 لاکھ سطریں۔ نہ ملنے والے لگیچر حروف آخر پر ویسے ہی شامل ہو جائیں گے۔ ساڑھے پانچ سو کتب اور پچیس تیس جمبو سائز کی اخبارات کی ٹیکسٹ فائلیں لوپ سے گزرنی ابھی باقی ہیں۔ اسے (اس مرتبہ بغیر ایرر) چلتے ڈیڑھ گھنٹہ ہو چکا ہے۔ اگر سب ٹھیک رہا تو کل صبح تک کچھ اپلوڈ کر دوں گا، پروگرام کا کوڈ بھی گِٹ ہب پر۔
فی الحال انجوائے کریں (دائیں سے بائیں) فائل، کُل الفاظ، اس فائل میں دیکھ لیے گئے/ سکپ کردہ الفاظ۔
D02N9dOW0AEwsI6.png
 

دوست

محفلین
اور اس کے بعد کل سے واپس پرانی تنخواہ پر کام پر واپسی۔ اس کی ٹریننگ دیکھتے ہیں پھر وقت ملنے پر۔
 

فلسفی

محفلین
اگر جوڑے بن گئے ہوں تو ان کو ٹریننگ سے گزارا جائے ؟
فلسفی
ہم نے تو سنا تھا کہ جوڑے آسمانوں پر بنتے ہیں۔ :D


میں نے اس فائل سے لیگیچر اٹھا کر اس کی سطریں بنائیں ہیں۔ تقریبا چار لاکھ۔ "OCR-D" والا سکرپٹ چلایا ہے۔ تربیتی مواد بننے کے بعد اس کی آزمائش کر کے پھر ان شاءاللہ نتائج پیش کروں گا۔
 

عباس اعوان

محفلین
ہم نے تو سنا تھا کہ جوڑے آسمانوں پر بنتے ہیں۔ :D
ہاہاہاہاہاہا، فی الحال تو ادھر ہی بن رہے ہیں۔
میں نے اس فائل سے لیگیچر اٹھا کر اس کی سطریں بنائیں ہیں۔ تقریبا چار لاکھ۔ "OCR-D" والا سکرپٹ چلایا ہے۔ تربیتی مواد بننے کے بعد اس کی آزمائش کر کے پھر ان شاءاللہ نتائج پیش کروں گا۔
ان شاء اللہ تعالیٰ
تقریباًً کتنی دیرلگے گی ؟
 
Top