'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

زیک

مسافر
میرا خیال ہے فونٹ اور ذرا بندے کے پُتروں والا ڈیٹا یعنی کتب کا ڈیٹا استعمال کر کے یہ کام کر لیا جائے۔ لینکس پر کمانڈ لائن میں باآسانی ہو جائے گا۔ الگ سے باکس فائل وغیرہ بنانے کی ضرورت نہیں ہے۔ کاش میرے پاس لینکس سسٹم ہوتا، میں تے انھی پا دینی تھی۔ ورچوئل مشین انتہائی ذلالت والا کام ہے، فائل ٹرانسفر کا سیاپا ہی حل نہیں ہوتا مین سسٹم اور ورچوئل مشین میں۔ اگے امب کرنا
اگر آپ کے پاس ونڈوز 10 ہے تو اس میں لینکس انسٹال کر سکتے ہیں
 
میرا خیال ہے فونٹ اور ذرا بندے کے پُتروں والا ڈیٹا یعنی کتب کا ڈیٹا استعمال کر کے یہ کام کر لیا جائے۔ لینکس پر کمانڈ لائن میں باآسانی ہو جائے گا۔ الگ سے باکس فائل وغیرہ بنانے کی ضرورت نہیں ہے۔ کاش میرے پاس لینکس سسٹم ہوتا، میں تے انھی پا دینی تھی۔ ورچوئل مشین انتہائی ذلالت والا کام ہے، فائل ٹرانسفر کا سیاپا ہی حل نہیں ہوتا مین سسٹم اور ورچوئل مشین میں۔ اگے امب کرنا
لینکس سسٹم تو میرے پاس ہے بھائی، اوبنٹو 18۔10 ۔ اس میں ٹیسیریکٹ 4 دستیاب ہے۔ طریقہ کار کی تفصیل مل جائے تو میں تجربہ کر سکتا ہوں۔
 

دوست

محفلین
یہاں تشریف لے جائیں۔
ٹریننگ کے دو آپشن ہیں باکس فائل (امیج پر باکس بنا کر۔۔۔) یا ٹیکسٹ اور فونٹ مہیا کر کے۔
Using tesstrain والے سیکشن میں دیکھیں، دوسرا طریقہ۔ ٹیکسٹ لائبریری سے کوئی منتخب کر لیں افسانہ وغیرہ۔
یہ ابھی ٹریننگ ڈیٹا کی تیاری ہے۔ پھر ماڈل ٹریننگ ہو گی جو کہ اوپر والے لنک پر ہی تفصیلاً موجود ہے۔
 

فلسفی

محفلین
"jtextboxeditor" کے سورس کوڈ سے ایک نئی جار بنائی ہے جس کو ضروری معلومات دے کر ٹف اور باکس فائل بنائی جاسکتی ہے۔ اس کو ڈاٹ نیٹ کے کسی ٹول میں شامل کر کے ایک ایسا پروگرام لکھنے کا ارادہ ہے جس میں فونٹ، سائز اور سٹائل بتا کر کسی بھی متن (n number of lines) کی تصویر اور باکس فائل بنا سکیں۔ جس کو "serak-tesseract-trainer" میں استعمال کر کے اصل تربیتی فائل حاصل کی جاسکتی ہے۔

مہیا کردہ جار فائل کو چلانے کے لیے یہ کمانڈ استعمال کی جاسکتی ہے۔ یہ ونڈوز پر بھی چلا سکتے ہیں۔ اس کے لیے جاوا انسٹال ہونا ضروری ہے۔

کوڈ:
java -jar GenerateTiffBox.jar "Simple One Line Text Here" "eng" "Arial" 0 12 "exp0" "D:/OCR/test" false
آرگومنٹس کی تفصیل یہ ہے کہ
1: ایک لائن میں متن
2: زبان کا کوڈ (eng, urd)
3: فونٹ کا نام
4: فونٹ کا اسٹائل (0 پلین ٹیکسٹ)
5: فونٹ کا سائز
6: لائن نمبر (اس میں exp ضروری ہے ، معلوم نہیں شاید بیس کوڈ میں کوئی ویلیڈیشن ہے، اس کی تفصیل دیکھی نہیں، فی الحال میرے خیال ایسے ہی استعمال ہوسکتاہے)
7: آؤٹ پٹ ڈائریکٹری جہاں ٹف اور باکس فائلز چاہیے
8: اس کا استعمال بعد میں دیکھوں گا فی الحال false پاس کریں۔
 

دوست

محفلین
لینکس سب سسٹم فار ونڈوز پر ٹرائی کیا ہے۔ ایک تو بنیادی ٹرین ڈیٹا traineddata فائل بنی ہو، یہ پہلے بنانا ضروری ہے، ابھی اس کی سمجھ نہیں آئی۔
دوسرے اگر یہ ٹھیک بھی ہو تو پہلے ہی فونٹ کام نہیں کرتے۔ ونڈوز فونٹس کسی وجہ سے لینکس میں نہیں چل پا رہے، کوشش کر دیکھی ہے، لینکس سب سسٹم کی جگاڑ سے کام خراب لگتا ہے۔
تیسرے ٹیسرکٹ کی ٹریننگ سکرپٹ چلانے کے لیے اسے کمپائل کرنا پڑے گا جیسا کہ درج بالا لنک میں درج ہے۔ ڈیبین انسٹالیشن سے او سی آر نصب ہو جاتا ہے، ٹیس ٹرین کی سمجھ نہیں آتی کدھر ہے اور کہاں سے چلانی ہے۔
فلسفی والا پروگرام جب تک ٹیکسٹ فائل کی ان پٹ نہ لے، یعنی سی شارپ میں رکھ کر لوپ سے سطر بہ سطر فیڈ نہ کروایا جائے، بے کار ہے۔
 
میرا خیال ہے فونٹ اور ذرا بندے کے پُتروں والا ڈیٹا یعنی کتب کا ڈیٹا استعمال کر کے یہ کام کر لیا جائے۔ لینکس پر کمانڈ لائن میں باآسانی ہو جائے گا۔ الگ سے باکس فائل وغیرہ بنانے کی ضرورت نہیں ہے۔ کاش میرے پاس لینکس سسٹم ہوتا، میں تے انھی پا دینی تھی۔ ورچوئل مشین انتہائی ذلالت والا کام ہے، فائل ٹرانسفر کا سیاپا ہی حل نہیں ہوتا مین سسٹم اور ورچوئل مشین میں۔ اگے امب کرنا
فرہنگ:
انھی پا دینا: اندھیر نگری مچا دینا
امب: آم
دوست ، ورچول مشین کی سیٹنگ میں کاپی پیسٹ کو انیبل کرکے دیکھ لیں۔:):)
 

دوست

محفلین
میں نے پہلے کافی مرتبہ ورچوئل مشین استعمال کر رکھی ہے، ورچوئل باکس کے ذریعے۔ کبھی کاپی پیسٹ یا فائل شئیرنگ میں کامیابی نہیں ہوئی۔ اگے رب جانے
 
میری تجویز بھی تقریباً یہی تھی۔
ہمارے پاس بہت سی کتابیں اور دیگر مواد یونی کوڈمیں موجود ہے، ان کا متن رینڈر کر کے امیج اور ڈیٹا کا جوڑا حاصل کیا جا سکتا ہے۔
اس تکنیک کے کچھ فوائد مندرجہ ذیل ہیں:
  • ڈیٹا: ہمارے پاس بہت کم وقت میں کافی سارا ڈیٹا دستیاب ہو گا۔
  • درستی: امیج اور ڈیٹا آپس میں عین مطابقت رکھتے ہوں گے، بغیر کسی اغلاط کے۔
  • وقت اور محنت کی بچت: اس تکنیک سے ہمارے پاس بہت کم وقت اور محنت سے بہت سارا ڈیٹا دستیاب ہو گا۔
  • مختلف فونٹس کی سہولت: یونی کوڈ ڈیٹا کو ہم اپنی مرضی کے کسی بھی فونٹ میں رینڈر کر سکتے ہیں، یوں ہمارا ماڈل بیک وقت کئی فونٹس کو سپورٹ کرے گا۔
  • متن کا بگاڑ: ہم اپنے ڈیٹا کو مصنوعی طریقے سے بگاڑ کر رینڈر کر سکتے ہیں، مثلاً لکھائی کا مدہم ہونا، متن کا بیک گراؤنڈ میں ضم ہونا، دھندلا متن، صفحے پر چائے کافی کے نشانات، صفحے کا یوں نظر آنا جیسے سکین کرتے ہوئی صفحہ ہِل گیا ہو، وغیرہ وغیرہ
یونیکوڈ ٹیکسٹ متن تو متعدد اردو ویب وسائٹ سے حاصل کیا جاسکتا ہے ۔:):)
 

دوست

محفلین
اصل چیز ٹریننگ ڈیٹا کی تیاری ہے، کوئی ایک بندہ کر سکتا ہے اس میں ایسی کوئی بات نہیں۔ کل تو میں اس پر توجہ نہیں دے سکوں گا کام کافی ہے۔
لینکس پر البتہ ٹرین ڈیٹا فائل بنانے کا مسئلہ زیادہ پیچیدہ لگ رہا تھا اس کی کوئی مثال بھی موجود نہیں ہے وہاں۔ شاید سادہ سی چیز ہے لیکن اس پر کام کرنا پڑے گا۔ ورنہ پھر جاوا ایک لائن فی کمانڈ والا سافٹویئر استعمال کیا جائے۔
میرا مقصد یہ تھا کہ آفیشل ویب سائٹ پر موجود ریسورسز کو ہی استعمال کر لیا جائے لیکن ابھی کچھ سمجھ میں کمی ہے۔
 

جاسم محمد

محفلین
میں نے ٹیسریکٹ استعمال نہیں کیا۔ کیا کوئی دوست بتا سکتا ہے کہ اس کے انجن میں جملوں اور الفاظ کی آٹو سیگمنٹیشن اردو نستعلیق کے تقاضوں پر پوری اترتی بھی ہے یا نہیں؟
 

فلسفی

محفلین
اس کا کیا مطلب ہے؟ او سی آرانجن کمزور ہے؟ جو ڈیٹا آپ نے فیڈ کیا کم از کم اس پر تو نتیجہ درست دینا چاہئے۔
تربیتی مواد والی فائل کو ٹیسٹ نہیں کیا تھا۔ مقصد صرف یہ دیکھنا تھا کہ جو تربیتی مواد والی فائل بنتی ہے وہ درست بھی ہے کہ نہیں۔ آج ان شاءاللہ اس کو بھی ٹیسٹ کروں گا۔
 

فلسفی

محفلین
یہ بہت ابتدائی نتائج ہیں۔ ابھی سو فیصد کچھ کہا نہیں جاسکتا۔ آج کوشش کروں گا ایک ٹول بنا دوں جس کے ذریعے مخلتف فونٹس اور سائز کے ساتھ متن کی مہیا کردہ سطروں کی ٹف اور باکس فائلز بن جائیں۔ اس کے بعد بس پھر تجربے کرنے ہیں کہ کون سا تربیتی مواد بہتر رہے گا۔
 
Top