'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

دوست

محفلین
گٹ ہب پر کنٹریبیوٹر نہیں ہوں اس لیے کچھ نہیں کر سکتا۔ truefriend2004 کو اگر اس میں شامل کر دیں تو میں آگے کچھ کروں۔ ذرا پریکٹس بھی ہو جائے گی، کوڈ تو 2 لائنوں کا فائل نیم میں تبدیلی ہے۔
 

دوست

محفلین
میں مختلف فانٹ سائز کی فائلز تیار کر کے بس چلانے کی کوشش میں ہوں، اگر لینکس سب سسٹم پر چل جائے۔
 

فلسفی

محفلین
میرا خیال تھا پبلک پروجیکٹ کے لیے علیحدہ سے شامل کرنے کی ضرورت نہیں ہوتی۔ خیر تینوں پروجیکٹس کے لیے "collaboration" کے ذریعے آپ کو ریکویسٹ بھیج دی ہے۔
 

دوست

محفلین
بصد شکریہ قبول ہو گئی ہے۔
میری طرف ٹیسرکٹ دو نمبر ہے یا سارا سسٹم ہی، ٹریننگ فائل نیمز کی لسٹ لوڈ نہیں کرتا۔ شاید ٹریننگ ڈیٹا کم ہے۔ بہرحال اب جمعے کے بعد۔ یا پھر ورچوئل مشین پر۔ لینکس سب سسٹم پر مسئلہ نہیں ہونا چاہیئے سب کمانڈ لائن ہے، بہرحال۔۔۔
 

دوست

محفلین
پورے پیرا گراف کو ایک لائن سمجھنے سے بھی ایرر ریٹ زیادہ ہونے کا امکان ہے۔ میرا خیال تھا کہ لائن 25 الفاظ تک محدود کر دی جائے۔ ریگولر ایکسپریشن سے یہ ہو سکتا ہے۔ دوسرے فائل نیم میں تبدیلی کی تھی (لوڈ نہ ہونے کی وجہ سے، لیکن فرق نہیں پڑا)۔ فی الوقت یہیں کوڈ پیسٹ ہے۔
کوڈ:
var filename = uiFileName.Text + item.SubItems[0].Text + item.SubItems[1].Text + item.SubItems[2].Text + (i++);
                        filename = System.Text.RegularExpressions.Regex.Replace(filename, " ", "_");
 

فلسفی

محفلین
پہلے ورژن میں فائل کی ایکسٹینشن tiff بنا دی تھی وہ اسکرپٹ میں لوڈ نہیں ہوتی۔ بعد میں کوڈ گٹ ہپ پر اپ ڈیٹ کیا تھا اور ایکسٹینشن tif بنا دی تھی اس کے بعد ڈیٹا لوڈ ہوا۔ آپ کے پاس بھی شاید یہی مسئلہ ہو۔
 

عباس اعوان

محفلین
آخر کار "ocrd-train" سے 972 تصاویر بمعہ متن کے تربیتی مواد بنانے میں کامیاب ہو گیا۔ فونٹ تجرباتی طور پر ایریل استعمال کیا تھا۔ لیکن یہ پورا پروسیس بہت ہی آہستہ کام کرتا ہے جیسا ٹیسریکٹ کی ویب سائٹ پر بھی لکھا ہے۔ 972 تصاویر کے لیے تقریبا ۵ گھنٹے لگے۔ میرے خیال میں 972 بہت کم لائنز ہیں۔ میں یہ گٹ ہب پر لوڈ کر رہا ہوں اگر باقی حضرات اس میں مزید لائنز شامل کر سکیں یا درست کر سکیں تو اچھا رہے گا۔ میں نے جو پروسیس چلایا اس کا ایرر ریٹ بہت زیادہ ہے۔ اس کی تفصیل تو نہیں معلوم البتہ کہیں پڑھا تھا کہ ابتدا سے تربیتی مواد بنانے میں ایرر ریٹ زیادہ ہوتا ہے اس سے بہتر ہے کہ اوپر والی لئیر (نیورول نیٹورک) کو تبدیل کیا جائے (مجھے فی الحال اس کی سمجھ نہیں آئی)۔
زبردست۔
تربیتی مواد بننے میں بہت وقت صرف ہو رہا ہے۔ اگر تو یہ ٹیزرکٹ کے حساب سے معمول کی بات ہے، تو ہمیں اس قدم کو دو طریقوں سے ڈسٹریبیوٹ کر دینا چاہیے۔
اول مشین یوزیج کو دیکھنا پڑے گا کہ اس پراسیس میں کمپیوٹر پر کتنا بوجھ پڑتا ہے۔ اگر تو نارمل سا لوڈ ہے تو ہمیں پروگرام کو ملٹی تھریڈڈ بنانے کے بارے میں سوچنا ہو گا۔
دوسرے جو لوگ حصہ ڈالنا چاہتے ہیں، ان میں اردو متن تقسیم کر دیا جائے مع سافٹ وئیر کے، اور ان سے تربیتی مواد واپس لے لیا جائے۔
اس تربیتی مواد کو نستعلیق والے تصویر پر استعمال کرنے پر نتیجہ تو درست نہیں لیکن ایک وارننگ یہ بھی نظر آئی ہے۔
Failed to load any lstm-specific dictionaries for lang urd!!
ایریل والا تربیتی مواد نستعلیق پر شاید ہی درست نتائج دے سکے۔ ایریل نسخ ہے۔
میرے خیال میں فونٹ کے سائز سے زیادہ مختلف فونٹس کے ساتھ تصاویر اور ان کا متن زیادہ ضروری ہے۔ آپ حضرات کی کیا رائے ہے؟
مجھے اگر آپ حضرات فونٹس کی لسٹ اور سائز بتا دیں تو میں اپنی مشین تربیتی مواد تیار کر دوں گا۔ تربیتی متن میں نے محترم اعجاز عبید صاحب کی تیار کردہ تین کتب (Muqadma، PaniSatah، Valentine) سے اکھٹا کیا ہے۔ جو یہاں موجود ہے۔
میرے خیال میں فی الوقت ایک ہی فونٹ کو ٹارگٹ کیا جائے۔
چونکہ ہمارا مقصد نستعلیق او سی آر ہے، تو جمیل نوری نستعلیق سے تربیتی مواد تیار کیا جائے اور اس سے تجربات کیے جائیں۔
ابھی کے لیے فونٹ سائز وہی بہتر ہے جو محفل میں ڈیفالٹ نظر آتا ہے۔
 

جاسم محمد

محفلین
میرے خیال میں فی الوقت ایک ہی فونٹ کو ٹارگٹ کیا جائے۔
چونکہ ہمارا مقصد نستعلیق او سی آر ہے، تو جمیل نوری نستعلیق سے تربیتی مواد تیار کیا جائے اور اس سے تجربات کیے جائیں۔
متفق۔ کیونکہ اکثر اردو کتب کی پرنٹنگ اسی خط میں ہے۔
 

فلسفی

محفلین
تربیتی مواد بننے میں بہت وقت صرف ہو رہا ہے۔ اگر تو یہ ٹیزرکٹ کے حساب سے معمول کی بات ہے
ٹیسریکٹ کے تربیتی صفحے پر یہ لکھا ہے

Neural networks require significantly more training data and train a lot slower than base Tesseract.
ویسے بھی مختلف فورمز پر پڑھا کہ حقیقی تربیتی کام میں گھنٹے نہیں بلکہ دن لگتے ہیں :D، فقط کمپیوٹر پروسیسسنگ میں۔ خیر اس کو بہتر کرنے کے لیے ٹیسریکٹ کے کوڈ کو دیکھنا ہوگا۔ اس کے لیے مزید وقت درکار ہوگا جو شاید فی الحال مناسب نہیں۔ میرے خیال میں پروگرامرز نے اس بات کا خیال رکھا ہی ہوگا۔ بصورت دیگر شاید ہم ٹیسریکٹ کی ڈویلپمنٹ میں پھنس جائیں گے، جو ایک علیحدہ ٹریک ہے۔

میرے خیال میں فی الوقت ایک ہی فونٹ کو ٹارگٹ کیا جائے۔
چونکہ ہمارا مقصد نستعلیق او سی آر ہے، تو جمیل نوری نستعلیق سے تربیتی مواد تیار کیا جائے اور اس سے تجربات کیے جائیں۔
ابھی کے لیے فونٹ سائز وہی بہتر ہے جو محفل میں ڈیفالٹ نظر آتا ہے۔
متفق۔ کیونکہ اکثر اردو کتب کی پرنٹنگ اسی خط میں ہے۔
فونٹ کا سائز کیا ہے؟ یہ فونٹ کہاں سے لوں؟ فونٹ تو گوگل دے دے گا لیکن بے شمار لنکس ہوتے ہیں یہ نہ ہوکہ پھر غلط فونٹ پر تجربہ کرنے لگوں۔

ایک کام جس میں باقی محفلین ہاتھ بٹا سکتے ہیں بلکہ جو اردو زبان کی ڈومین کو سمجھتے ہیں وہ زیادہ اہم ہیں، یعنی تربیتی متن۔ ابھی جو فائل پہلے گٹ ہب پر شئیر کی ہے اس میں صرف ۹۰۰ کچھ لائنز ہیں۔ میرے خیال میں ایک یا دو لاکھ لائنز کے ساتھ تجربہ کرنا ٹھیک رہے گا، آپ کیا کہتے ہیں؟
 

عباس اعوان

محفلین
ٹیسریکٹ کے تربیتی صفحے پر یہ لکھا ہے
Neural networks require significantly more training data and train a lot slower than base Tesseract.
ویسے بھی مختلف فورمز پر پڑھا کہ حقیقی تربیتی کام میں گھنٹے نہیں بلکہ دن لگتے ہیں :D، فقط کمپیوٹر پروسیسسنگ میں۔ خیر اس کو بہتر کرنے کے لیے ٹیسریکٹ کے کوڈ کو دیکھنا ہوگا۔ اس کے لیے مزید وقت درکار ہوگا جو شاید فی الحال مناسب نہیں۔ میرے خیال میں پروگرامرز نے اس بات کا خیال رکھا ہی ہوگا۔ بصورت دیگر شاید ہم ٹیسریکٹ کی ڈویلپمنٹ میں پھنس جائیں گے، جو ایک علیحدہ ٹریک ہے۔
پھر ٹھیک ہے۔
اور میں متفق ہوں کہ ہمیں ٹیزرکٹ کے کوڈ کو اس معاملے میں نہیں چھیڑنا چاہیے، ان کے ڈویلپرز نے اچھی اوپٹی مائزیشن کر رکھی ہوگی۔
فونٹ کا سائز کیا ہے؟ یہ فونٹ کہاں سے لوں؟ فونٹ تو گوگل دے دے گا لیکن بے شمار لنکس ہوتے ہیں یہ نہ ہوکہ پھر غلط فونٹ پر تجربہ کرنے لگوں۔
جاسم
جمیل نوری نستعلیق کا کون سا ورژن بہتر رہے گا؟ میر ے خیال میں پچھلا ورژن ٹھیک ہے جس میں آٹو کشیدہ اور آٹو کرننگ نہیں تھی۔
لنک دے دیں اور ساتھ میں فونٹ سائز بھی بتا دیں۔
ایک کام جس میں باقی محفلین ہاتھ بٹا سکتے ہیں بلکہ جو اردو زبان کی ڈومین کو سمجھتے ہیں وہ زیادہ اہم ہیں، یعنی تربیتی متن۔ ابھی جو فائل پہلے گٹ ہب پر شئیر کی ہے اس میں صرف ۹۰۰ کچھ لائنز ہیں۔ میرے خیال میں ایک یا دو لاکھ لائنز کے ساتھ تجربہ کرنا ٹھیک رہے گا، آپ کیا کہتے ہیں؟
اس ضمن میں میرے دو سوالات ہیں:
  1. ایک لاکھ سطروں کے ساتھ تربیتی مواد تیار کرنے میں کتنا وقت لگے گا ؟
  2. اگر ایک لاکھ سطروں کو 2 مختلف کمپیوٹرز پر تقسیم کر دیا جائے، تو کیا تربیتی مواد یکجا کیا جا سکے گا ؟
 

فلسفی

محفلین
ایک لاکھ سطروں کے ساتھ تربیتی مواد تیار کرنے میں کتنا وقت لگے گا ؟
سادہ سے حساب کتاب کے مطابق تقریبا اکیس دن :LOL:، حقیقتا معلوم نہیں۔
  1. اگر ایک لاکھ سطروں کو 2 مختلف کمپیوٹرز پر تقسیم کر دیا جائے، تو کیا تربیتی مواد یکجا کیا جا سکے گا ؟
اس کو دیکھنا پڑے گا۔ ویسے کسی نے جگاڑ :) بتائی ہے جس کا تجربہ کیا جاسکتا ہے، میں وقت نکال کر اس کا تجربہ کرتا ہوں

Tesseract does not look for language data at two different folders. What you can do is rename one of them, e.g., to eng1.traineddata, and then specify them as -l eng+eng1 option to the tesseractcommand.
 

عباس اعوان

محفلین
سادہ سے حساب کتاب کے مطابق تقریبا اکیس دن :LOL:، حقیقتا معلوم نہیں۔
ابھی مندرجہ ذیل والا تجربہ پہلے کر لیں۔
اس کو دیکھنا پڑے گا۔ ویسے کسی نے جگاڑ :) بتائی ہے جس کا تجربہ کیا جاسکتا ہے، میں وقت نکال کر اس کا تجربہ کرتا ہوں
Tesseract does not look for language data at two different folders. What you can do is rename one of them, e.g., to eng1.traineddata, and then specify them as -l eng+eng1 option to the tesseractcommand.
اس کو ضرور دیکھیں۔
اگر تو یہ ممکن ہے تو ہم ایک لاکھ سطروں کو مختلف لوگوں میں بانٹ سکتے ہیں، جس سے ہمیں کم وقت میں زیادہ تربیتی مواد حاصل ہو جائے گا۔
 

دوست

محفلین
ہماری آج کی کارگزاری یہ رہی کہ ٹیسرکٹ چلانے سے پہلے کیا نہ کیا جائے۔
ٹِف ایکسٹینشن کا مسئلہ حل ہوا تو دماغ پر بھوت سوار ہو گیا کہ سطور چھوٹی بڑی نہیں بلکہ یکساں لمبائی کی حامل ہونی چاہئیں۔ دو گھنٹے اس پر سر کھپانے اور گردن میں درد کروانے کے بعد اس نتیجے پر پہنچے کہ سطور جیسے ہیں اور جہاں ہیں کی بنیاد پر استعمال کرنا ہی مناسب رہے گا کیوں کہ اگر ریگولر ایکسپریشن یا کسی دوسرے طریقے سے سٹرنگ کو سپلِٹ کروایا جائے تو اس کے آخر میں سپیس رہ جاتی ہے۔ اس سپیس کو اڑانے کے چکر میں جی ڈی آئی رینڈم انداز میں ایرر پھینکنے لگتا ہے۔ جس کا کوئی حال کسی کے پاس نہ ہے۔ نتیجہ نمبر1 کہ ایسے کاموں میں جمالیاتی حس کو ایک طرف رکھ کر کام کیا جائے۔
خدا خدا کرکے یہ نتیجہ نکالنے کے بعد اب او سی آر ڈی 14ویں فائل پر آکر پھنس گیا اور مندرجہ ذیل ایرر بلکہ راگ گنگناتا ہے۔
کوڈ:
Traceback (most recent call last):
  File "generate_line_box.py", line 41, in <module>
    print(u"%s %d %d %d %d 0" % (prev_char, 0, 0, width, height))
UnicodeEncodeError: 'ascii' codec can't encode character u'\u062a' in position 0: ordinal not in range(128)
بظاہر اردو حرف ت کے ساتھ کوئی ازلی دشمنی ہے، جس کا کوئی حل ابھی مجھے سمجھ نہیں آ رہا۔ نتیجہ نمبر 2 کہ لینکس سب سسٹم فار ونڈوز استعمال کرنے سے پرہیز کیا جائے۔
نوٹ: 1 میرے پاس ڈراپ باکس پر اردو کا مواد موجود ہے جسے میں شیئر کرسکتا ہوں۔ اس میں اعجاز اختر صاحب کی تدوین کردہ کتابیں بھی موجود ہیں جو تقریبا چھ سات سال قبل انہوں نے نظرثانی کی تھیں، یہ فولڈر انھوں نے تیار کیا تھا لیکن بعد میں اسے اپڈیٹ کرنا چھوڑ دیا۔ یہ ڈیٹا امید ہے کہ کئی کروڑ الفاظ پر مشتمل ہے۔
نوٹ 2: یہ پیغام لکھنے کے لئے گوگل وائس کا استعمال کیا گیا چونکہ ماؤس کلک کر کر کر کر کر کے ہاتھوں اور شانوں کا بیڑا غرق ہو چکا ہے۔
اعلان ختم ہوا
 

جاسم محمد

محفلین
جمیل نوری نستعلیق کا کون سا ورژن بہتر رہے گا؟ میر ے خیال میں پچھلا ورژن ٹھیک ہے جس میں آٹو کشیدہ اور آٹو کرننگ نہیں تھی۔
لنک دے دیں اور ساتھ میں فونٹ سائز بھی بتا دیں۔
پرانا ورژن تو محفل فانٹ سرور پر ہی موجود ہے۔
http://font.urduweb.org/downloads/249-jameel-noori-nastaleeq-regular
سائز 13 ایم بی
 

دوست

محفلین
بیشتر اردو کتب ان پیج میں بن کر شائع ہوتی ہیں جس کی کرننگ اپنی مثال آپ ہے۔ کرننگ والا ورژن بہتر رہے گا۔
 

دوست

محفلین
12 سے 30 تک کم از کم 2 پوائنٹ کے وقفے سے تمام سائز ہونے چاہئیں۔ اردو والے زیادہ تر 16 یا 14 استعمال کرتے ہیں۔ سی ایل ای والوں کا 14 تا 44 ہے۔
 
Top