'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

دوست

محفلین
میرے حساب سے 90 فیصد سے زائد امیجز میں یہی پیغام ہے
Generating training data for 0 words
اور یہ بالکل بھی اچھی بات نہیں لگ رہی۔ بہرحال میں اس کو مزید چلا کر دیکھتا ہوں۔
 

دوست

محفلین
فلسفی امیج پروگرام کا سورس مل سکتا ہے؟ میں سسٹم ڈاٹ ڈرائنگ استعمال کر کے امیجز بنا کر تجربہ کرنا چاہتا ہوں۔ یہاں جواب میں مہیا کردہ کوڈ کے مطابق امیج بہت وسیع و عریض نہیں بلکہ ٹیکسٹ کے مطابق بنے گی۔ بٹ میپ سے ٹِف میں بعد میں بدلا جا سکتا ہے، یا شاید سی شارپ میں سے ہی کام چل جائے۔
اس ورک فلو کو استعمال کر کے
 

فلسفی

محفلین
فلسفی امیج پروگرام کا سورس مل سکتا ہے؟ میں سسٹم ڈاٹ ڈرائنگ استعمال کر کے امیجز بنا کر تجربہ کرنا چاہتا ہوں۔ یہاں جواب میں مہیا کردہ کوڈ کے مطابق امیج بہت وسیع و عریض نہیں بلکہ ٹیکسٹ کے مطابق بنے گی۔ بٹ میپ سے ٹِف میں بعد میں بدلا جا سکتا ہے، یا شاید سی شارپ میں سے ہی کام چل جائے۔
اس ورک فلو کو استعمال کر کے
میں نے "jtextboxeditor" جاوا والا پروگرام ہی استعمال کیا ہے۔ اس میں تھوڑی سے تبدیلی کی تھی اس جا جاوا (گرووی) کوڈ یہاں سے حاصل کیجیے۔ اس کی runable جار بنا کر ڈاٹ نیٹ کے پروگرام سے جاوا کا پروگرام چلایا ہے۔ ڈاٹ نیٹ کا پروگرام یہاں سے حاصل کیجیے۔ "jtextboxeditor" کا سورس کوڈ یہاں موجود ہے۔ تصویر بناتے ہوئے لمبائی اور چوڑائی "jtextboxeditor" کی ڈیفالٹ ویلیو استعمال کی ہے جو (2550, 3300) ہے۔
 

عباس اعوان

محفلین
میں نے "jtextboxeditor" جاوا والا پروگرام ہی استعمال کیا ہے۔ اس میں تھوڑی سے تبدیلی کی تھی اس جا جاوا (گرووی) کوڈ یہاں سے حاصل کیجیے۔ اس کی runable جار بنا کر ڈاٹ نیٹ کے پروگرام سے جاوا کا پروگرام چلایا ہے۔ ڈاٹ نیٹ کا پروگرام یہاں سے حاصل کیجیے۔ "jtextboxeditor" کا سورس کوڈ یہاں موجود ہے۔ تصویر بناتے ہوئے لمبائی اور چوڑائی "jtextboxeditor" کی ڈیفالٹ ویلیو استعمال کی ہے جو (2550, 3300) ہے۔
jtextboxeditor کیREADME میں لکھا ہے کہ
Note: LSTM Training for Tesseract 4.0x is not supported.
اس کو کیسے حل کیا جا رہا ہے ؟
 

عباس اعوان

محفلین
میں نے "jtextboxeditor" جاوا والا پروگرام ہی استعمال کیا ہے۔ اس میں تھوڑی سے تبدیلی کی تھی اس جا جاوا (گرووی) کوڈ یہاں سے حاصل کیجیے۔ اس کی runable جار بنا کر ڈاٹ نیٹ کے پروگرام سے جاوا کا پروگرام چلایا ہے۔ ڈاٹ نیٹ کا پروگرام یہاں سے حاصل کیجیے۔ "jtextboxeditor" کا سورس کوڈ یہاں موجود ہے۔ تصویر بناتے ہوئے لمبائی اور چوڑائی "jtextboxeditor" کی ڈیفالٹ ویلیو استعمال کی ہے جو (2550, 3300) ہے۔
تمام پراجیکٹ کے لیے کیا یوں بہتر نہیں ہو گا کہ آپ کے بنائے ہوئے تمام کوڈ مع رن فائل کو گوگل ڈرائیو کے بجائے گٹ ہب پر رکھا جائے؟
یوں بہترین قسم کی ورژننگ بھی ہوتی رہے گی۔
 

فلسفی

محفلین
jtextboxeditor کیREADME میں لکھا ہے کہ

اس کو کیسے حل کیا جا رہا ہے ؟
یہ تو دیکھا ہی نہیں :cry:، اب کیا کریں؟
تمام پراجیکٹ کے لیے کیا یوں بہتر نہیں ہو گا کہ آپ کے بنائے ہوئے تمام کوڈ مع رن فائل کو گوگل ڈرائیو کے بجائے گٹ ہب پر رکھا جائے؟
یوں بہترین قسم کی ورژننگ بھی ہوتی رہے گی۔
جی وقت نکال کر اپ لوڈ کرتا ہوں، ان شاءاللہ
 

دوست

محفلین
میں وقت ملنے پر سطر بہ سطر امیجز بنانے کا کچھ کرتا ہوں۔ ونڈوز والا سیٹ اپ تو نہیں چلے گا 4 والے ورژن پر۔
 

عباس اعوان

محفلین
آخری تدوین:

عباس اعوان

محفلین
میں وقت ملنے پر سطر بہ سطر امیجز بنانے کا کچھ کرتا ہوں۔ ونڈوز والا سیٹ اپ تو نہیں چلے گا 4 والے ورژن پر۔
سطر بہ سطر امیج بنانے کے لیے سی# کا جو کوڈ آپ نے شئیر کیا ہے، وہ بہترین ہے۔
ضرورت پڑنے پر اس کا میک او ایس ورژن بھی بنا کر د یا جا سکتا ہے، اگر چاہیے تو۔
 

فلسفی

محفلین
jtextboxeditor کیREADME میں لکھا ہے کہ

اس کو کیسے حل کیا جا رہا ہے ؟
ویسے تو حل اس کا بھی ہے لیکن ہے ڈونکی ورک۔

3.0 version of box files can be converted for use with LSTM training by adding a tab character at end of each line and boxes with space after each word. Mark EOL and Mark EOL Bulk functions under Edit in Box Editor tab of latest version of jTessBoxEditor - jTessBoxEditor-2.0-Beta can be used to add the EOL tabs automatically. Insert mode can be used on last letter of each word to add a box with space. There is no automated way to do this.
 

دوست

محفلین
ابھی ٹریننگ کرواتے ہوئے ایک اور ایرر آیا تھا، فائل نیم ٹو لانگ کا۔ اور پروگرام رک گیا تھا۔ پچھلے مراسلے میں بتانا بھول گیا۔
 

عباس اعوان

محفلین
ویسے تو حل اس کا بھی ہے لیکن ہے ڈونکی ورک۔
3.0 version of box files can be converted for use with LSTM training by adding a tab character at end of each line and boxes with space after each word. Mark EOL and Mark EOL Bulk functions under Edit in Box Editor tab of latest version of jTessBoxEditor - jTessBoxEditor-2.0-Beta can be used to add the EOL tabs automatically. Insert mode can be used on last letter of each word to add a box with space. There is no automated way to do this.
اس طریقے سے ٹریننگ ڈیٹا تیار کرتے ہوئے کتنی محنت زیادہ صرف ہو گی ؟
 

فلسفی

محفلین
اس طریقے سے ٹریننگ ڈیٹا تیار کرتے ہوئے کتنی محنت زیادہ صرف ہو گی ؟
بہت زیادہ، اسی لیے ڈونکی ورک لکھا تھا۔ ویسے میں نے ڈاٹ نیٹ والے پروگرام میں تبدیلی کردی ہے۔ اب پروگرام ٹف فائل اور ٹیکسٹ فائل بناتا ہے۔ جس کو "ocrd-train" والے سکرپٹ میں استعمال کر سکتے ہیں۔ پروگرام گٹ ہب پر موجود ہے۔
 

عباس اعوان

محفلین
بہت زیادہ، اسی لیے ڈونکی ورک لکھا تھا۔ ویسے میں نے ڈاٹ نیٹ والے پروگرام میں تبدیلی کردی ہے۔ اب پروگرام ٹف فائل اور ٹیکسٹ فائل بناتا ہے۔ جس کو "ocrd-train" والے سکرپٹ میں استعمال کر سکتے ہیں۔ پروگرام گٹ ہب پر موجود ہے۔
ابھی یہ کوڈ دیکھا۔
زبردست کام ہو گیا یہ تو۔
دوسرے لوگ، جو تجربہ جات میں معاونت کر رہے ہیں، ان کے لیے ، ہر ورژن کی ایگزی فائل بھی گٹ ہب پر آ جائے تو کیا ہی بات ہے۔
جاسم
 

دوست

محفلین
وائے او سی آر ڈی کا انسٹالیشن کا طریقہ ابھی میری سمجھ نہیں آیا۔ جیسے ہی یہ ہوا تو لینکس سب سسٹم یا ورچوئل مشین میں ٹرائی کرتا ہوں۔
 

فلسفی

محفلین
وائے او سی آر ڈی کا انسٹالیشن کا طریقہ ابھی میری سمجھ نہیں آیا۔ جیسے ہی یہ ہوا تو لینکس سب سسٹم یا ورچوئل مشین میں ٹرائی کرتا ہوں۔
میرے خیال میں لینکس پر ٹیسریکٹ انسٹال ہونا چاہیے۔ اس کے بعد یہ سکریپٹ ڈاونلوڈ کر کے میک کی کمانڈ چلانی ہے۔ میں نے چلایا ہے تقریبا 972 لائنز کے لیے۔

 

دوست

محفلین
اے تاں چل جاوے گا۔ اس میں زبان بتانے کا کوئی آپشن نہیں ہے۔ ابھی میں دھینگا مشتی کر رہا ہوں اس کے ساتھ۔ چلو دیکھتے ہیں، کوئی کٹا کٹی نکلے گا۔
 

فلسفی

محفلین
میرے خیال میں MODEL_NAME زبان کے لیے۔ اور START_MODEL پہلے سے موجود زبان کے تربیتی مواد کو استعمال کرنے کے آرگومنٹس ہیں۔ ویسے میرے پاس باکس فائل بن گئ ہے اس سکرپٹ سے لیکن unicharset_extractor کی کمانڈ پر اٹک گیا ہے۔ شاید وقت لے گا۔ دیکھتے ہیں صبح تک ہوتا ہے یا نہیں۔
 

فلسفی

محفلین
آخر کار "ocrd-train" سے 972 تصاویر بمعہ متن کے تربیتی مواد بنانے میں کامیاب ہو گیا۔ فونٹ تجرباتی طور پر ایریل استعمال کیا تھا۔ لیکن یہ پورا پروسیس بہت ہی آہستہ کام کرتا ہے جیسا ٹیسریکٹ کی ویب سائٹ پر بھی لکھا ہے۔ 972 تصاویر کے لیے تقریبا ۵ گھنٹے لگے۔ میرے خیال میں 972 بہت کم لائنز ہیں۔ میں یہ گٹ ہب پر لوڈ کر رہا ہوں اگر باقی حضرات اس میں مزید لائنز شامل کر سکیں یا درست کر سکیں تو اچھا رہے گا۔ میں نے جو پروسیس چلایا اس کا ایرر ریٹ بہت زیادہ ہے۔ اس کی تفصیل تو نہیں معلوم البتہ کہیں پڑھا تھا کہ ابتدا سے تربیتی مواد بنانے میں ایرر ریٹ زیادہ ہوتا ہے اس سے بہتر ہے کہ اوپر والی لئیر (نیورول نیٹورک) کو تبدیل کیا جائے (مجھے فی الحال اس کی سمجھ نہیں آئی)۔


اس تربیتی مواد کو نستعلیق والے تصویر پر استعمال کرنے پر نتیجہ تو درست نہیں لیکن ایک وارننگ یہ بھی نظر آئی ہے۔

Failed to load any lstm-specific dictionaries for lang urd!!

میرے خیال میں فونٹ کے سائز سے زیادہ مختلف فونٹس کے ساتھ تصاویر اور ان کا متن زیادہ ضروری ہے۔ آپ حضرات کی کیا رائے ہے؟

مجھے اگر آپ حضرات فونٹس کی لسٹ اور سائز بتا دیں تو میں اپنی مشین تربیتی مواد تیار کر دوں گا۔ تربیتی متن میں نے محترم اعجاز عبید صاحب کی تیار کردہ تین کتب (Muqadma، PaniSatah، Valentine) سے اکھٹا کیا ہے۔ جو یہاں موجود ہے۔
 
Top