'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

دوست

محفلین
آج دماغ کا دہی اور لسی بنانے کے بعد اپنے ہاتھ کھڑے ہیں فی الحال۔
کوڈ:
combine_lang_model --input_unicharset ~/shared-windows10/langdata/urd.unicharset --script_dir ~/langdata/ --output_dir ~/langdata  --lang urd --lang_is_rtl TRUE
مینوئل پیج کے مطابق بالا کمانڈ لگائی تھی۔ سٹروک فائل، یونی کریسٹ، ایکس ہائٹس عربی اور لاطینی دونوں ڈاؤنلوڈ کی تھیں۔ اس طرح کی کمانڈ سے:
کوڈ:
mkdir langdata
cd langdata
wget https://raw.githubusercontent.com/tesseract-ocr/langdata_lstm/master/radical-stroke.txt
wget https://raw.githubusercontent.com/tesseract-ocr/langdata_lstm/master/common.punc
لیکن یہ اور بھی مانگتا ہے۔
کوڈ:
Failed to read data from: /home/ss/langdata//urd/urd.config
Failed to read data from: /home/ss/langdata//radical-stroke.txt
Error reading radical code table /home/ss/langdata//radical-stroke.txt
 

فلسفی

محفلین
آج دماغ کا دہی اور لسی بنانے کے بعد اپنے ہاتھ کھڑے ہیں فی الحال۔
کوڈ:
combine_lang_model --input_unicharset ~/shared-windows10/langdata/urd.unicharset --script_dir ~/langdata/ --output_dir ~/langdata  --lang urd --lang_is_rtl TRUE
مینوئل پیج کے مطابق بالا کمانڈ لگائی تھی۔ سٹروک فائل، یونی کریسٹ، ایکس ہائٹس عربی اور لاطینی دونوں ڈاؤنلوڈ کی تھیں۔ اس طرح کی کمانڈ سے:
کوڈ:
mkdir langdata
cd langdata
wget https://raw.githubusercontent.com/tesseract-ocr/langdata_lstm/master/radical-stroke.txt
wget https://raw.githubusercontent.com/tesseract-ocr/langdata_lstm/master/common.punc
لیکن یہ اور بھی مانگتا ہے۔
کوڈ:
Failed to read data from: /home/ss/langdata//urd/urd.config
Failed to read data from: /home/ss/langdata//radical-stroke.txt
Error reading radical code table /home/ss/langdata//radical-stroke.txt

radical-stroke تو آپ کو یہاں سے مل جائے گی۔

کوڈ:
https://github.com/tesseract-ocr/langdata_lstm/raw/master/radical-stroke.txt

urd.config فائل جب آپ پہلے سے موجود تربیتی مواد کو ایکسٹریٹ کرتے ہیں تو اس میں ملتی ہے۔ اس کے لیے یہ ٹول دیکھیے۔ میرے پاس جو فائل بنی ہے وہ اس طرح کی ہے

کوڈ:
# We do not yet have Tesseract for Arabic, so use OEM_CUBE_ONLY
# (see OcrEngineMode enum in third_party/tesseract/ccmain/tesseractclass.h).
tessedit_ocr_engine_mode    1

# Arabic page layout variables
segment_nonalphabetic_script 1

# Avoid dropping rows
textord_noise_rowratio 20.0
textord_noise_syfract 0.6

# Avoid over-estimating intra-word spacing at both row and
# block levels when using old to method
tosp_old_to_method T
tosp_old_to_constrain_sp_kn T
tosp_old_sp_kn_th_factor 4.0

tosp_only_small_gaps_for_kern T
tosp_use_pre_chopping T
 
جناب لگتا ہے آپ نے زرلٹ دیکھنا گوارا بھی نہیں کیا فقط تنقید ہی کی ہے
ایکوریسی تقریبا ۸۵ فیصد سے زیادہ ہے
خیر آپ پائیتھن کو دیکھیے اس میں کئی لائبریز موجود ہیں جو این ایل پی میں اردو سپورٹ رکھتی ہیں
مابدولت نےآپ کا مراسلہ ملاحظہ کرتے ہی فراہم شدہ روابط پر بنفس نفیس قدم رنجہ فرمانے میں ساعت قلیل بھی ضایع کرنا درخوراعتناء نا سمجھا اور تصاویری متن کے اوسی آر شدہ نتائج کو بہ چشم خود ملاحظہ کیا اور درجہ غائت متاثر بھی ہوئے ۔ تاہم ، بطور آزمائش جب ایک اسکین شدہ اردو صفحہ اپلوڈ کیا تو ایک تو یہ ویب سائٹ سراپا تقاضائے کھاتہ و اندراج ہے اور دوسرے اوسی آر رزلٹ حاصل کرنے کا آپشن یا طریقہ ندارد ، نامعلوم یا بعیدازفہم ہے ! لہذا اس ضمن میں مفصل راہنمائی فرمائیے برادرم لام الف ، تاکہ جملہ محفلین بشمول مابدولت ، سہولت ہذا سے کماحقہ مستفید ہوں اور اس طور آپ ثواب دارین حاصل کرنے میں اپنے تئیں حقدار ٹھہریں ۔:):)
 

جاسم محمد

محفلین
مابدولت نےآپ کا مراسلہ ملاحظہ کرتے ہی فراہم شدہ روابط پر بنفس نفیس قدم رنجہ فرمانے میں ساعت قلیل بھی ضایع کرنا درخوراعتناء نا سمجھا اور تصاویری متن کے اوسی آر شدہ نتائج کو بہ چشم خود ملاحظہ کیا اور درجہ غائت متاثر بھی ہوئے ۔ تاہم ، بطور آزمائش جب ایک اسکین شدہ اردو صفحہ اپلوڈ کیا تو ایک تو یہ ویب سائٹ سراپا تقاضائے کھاتہ و اندراج ہے اور دوسرے اوسی آر رزلٹ حاصل کرنے کا آپشن یا طریقہ ندارد ، نامعلوم یا بعیدازفہم ہے ! لہذا اس ضمن میں مفصل راہنمائی فرمائیے برادرم لام الف ، تاکہ جملہ محفلین بشمول مابدولت ، سہولت ہذا سے کماحقہ مستفید ہوں اور اس طور آپ ثواب دارین حاصل کرنے میں اپنے تئیں حقدار ٹھہریں ۔:):)
حجور یہ صرف امیج سیمپل والی سائٹ ہے۔ اپنی او سی آر ویب سائٹ کا ربط لام الف نے پوسٹ نہیں کیا :)
 

زہیر عبّاس

محفلین
rasheed
rahseed khan

یہ دونوں تصاویر ملاحضہ فرمائیں اس سے آپکو معلوم ہو گا کہ کمپیوٹر ویزن کیوں فیل ہو گیا۔
گوگل ڈاکس اچھا نتیجہ دیتا ہے آپ اپنے مہیا کردہ صفحہ کا او سی آر ملاحظہ کیجئے :


اداری سایر تاریخجالب (کراچی ) کا ممنون ہوں کہ وہ میری ناب املاے غالب کا پاکستان إدلیننتال کرنا چاہتاہے۔ میرے لیے یہ بات خاص ریون با عن تسترت ہے کہ اس طرح إلا سے تالب دیے اہم موضوع سے متعلق تفصیلات بیشتر رو زار تک پہنچ سکیں گی اور مرزاصا حب کے

اردو، فارسی کلام نظم ونثری ترون سے نہایت ضروری مسائل سامنے آئیں گے۔

متر رهن

۲۰۰۰
 

دوست

محفلین
آج ٹیس ٹرین چلا کر دیکھا ہے۔ ان کی تیار کردہ ٹریننگ فائل پر بھی اور اپنی پر بھی، ہر دو صورتوں میں یہی کہانی ہے:
کوڈ:
tesstrain.sh --fonts_dir '/usr/share/fonts' --lang urd --linedata_only  --noextract_font_properties --langdata_dir '/home/ss/input' --fontlist "Jameel Noori Nastaleeq"  --tessdata_dir '/home/ss/tesstutorial/tesseract/tessdata' --output_dir 'home/ss/urdtrain'

=== Starting training for language 'urd'
[Fri Mar 8 10:29:02 EST 2019] /usr/local/bin/text2image --fonts_dir=/usr/share/fonts --font=Jameel Noori Nastaleeq --outputbase=/tmp/font_tmp.l3icTX3tra/sample_text.txt --text=/tmp/font_tmp.l3icTX3tra/sample_text.txt --fontconfig_tmpdir=/tmp/font_tmp.l3icTX3tra
Rendered page 0 to file /tmp/font_tmp.l3icTX3tra/sample_text.txt.tif

=== Phase I: Generating training images ===
Rendering using Jameel Noori Nastaleeq
[Fri Mar 8 10:30:14 EST 2019] /usr/local/bin/text2image --fontconfig_tmpdir=/tmp/font_tmp.l3icTX3tra --fonts_dir=/usr/share/fonts --strip_unrenderable_words --leading=32 --xsize=3600 --char_spacing=0.0 --exposure=0 --outputbase=/tmp/urd-2019-03-08.lG1/urd.Jameel_Noori_Nastaleeq.exp0 --max_pages=0 --font=Jameel Noori Nastaleeq --text=/home/ss/input/urd/urd.training_text
Stripped 7 unrenderable words
Rendered page 0 to file /tmp/urd-2019-03-08.lG1/urd.Jameel_Noori_Nastaleeq.exp0.tif
Stripped 12 unrenderable words
Rendered page 1 to file /tmp/urd-2019-03-08.lG1/urd.Jameel_Noori_Nastaleeq.exp0.tif
Stripped 8 unrenderable words
Rendered page 2 to file /tmp/urd-2019-03-08.lG1/urd.Jameel_Noori_Nastaleeq.exp0.tif
Stripped 4 unrenderable words
Rendered page 3 to file /tmp/urd-2019-03-08.lG1/urd.Jameel_Noori_Nastaleeq.exp0.tif
Stripped 3 unrenderable words
Rendered page 4 to file /tmp/urd-2019-03-08.lG1/urd.Jameel_Noori_Nastaleeq.exp0.tif
Stripped 4 unrenderable words
Rendered page 5 to file /tmp/urd-2019-03-08.lG1/urd.Jameel_Noori_Nastaleeq.exp0.tif
Stripped 6 unrenderable words
Rendered page 6 to file /tmp/urd-2019-03-08.lG1/urd.Jameel_Noori_Nastaleeq.exp0.tif
Stripped 2 unrenderable words
cluster_text.size() == start_byte_to_box.size():Error:Assert failed:in file stringrenderer.cpp, line 546
/usr/local/bin/tesstrain_utils.sh: line 71:  2337 Illegal instruction     (core dumped) "${cmd}" "$@" 2>&1 1>&2
      2338 Done                    | tee -a ${LOG_FILE}
ERROR: /tmp/urd-2019-03-08.lG1/urd.Jameel_Noori_Nastaleeq.exp0.box does not exist or is not readable
اس سے قبل یونی کریکٹر سیٹ تیار کی تھی۔ بس اردو کی پرانی فائل ان پُٹ کر کے اگلی نکلوا لی تھی۔ اس کا نتیجہ یہ رہا تھا۔:
کوڈ:
combine_lang_model --input_unicharset '/home/ss/input/langdata/urd.unicharset' --script_dir '/home/ss/tesstutorial/langdata/' --output_dir '/home/ss/temp'  --lang urd --lang_is_rtl TRUE --words file '/home/ss/input/langdata/urd.wordlist' --puncs file '/home/ss/input/langdata/urd.punc' --numbers file '/home/ss/input/langdata/urd.numbers'
Loaded unicharset of size 127 from file /home/ss/input/langdata/urd.unicharset
Setting unichar properties
Setting script properties
Failed to load script unicharset from:/home/ss/tesstutorial/langdata//Inherited.unicharset
Warning: properties incomplete for index 23 = ُ
Warning: properties incomplete for index 25 = ٞ
Warning: properties incomplete for index 26 = ْ
Warning: properties incomplete for index 44 = ‬
Warning: properties incomplete for index 52 = َ
Warning: properties incomplete for index 69 = ِ
Warning: properties incomplete for index 74 = ّ
Warning: properties incomplete for index 77 = ‪
Warning: properties incomplete for index 78 = ‫
Warning: properties incomplete for index 79 = ٍ
Warning: properties incomplete for index 83 = ٛ
Warning: properties incomplete for index 84 = ٜ
Warning: properties incomplete for index 86 = ٰ
Warning: properties incomplete for index 87 = ٝ
Warning: properties incomplete for index 89 = ٗ
Warning: properties incomplete for index 91 = ٌ
Warning: properties incomplete for index 93 = ً
Warning: properties incomplete for index 96 = ٓ
Warning: properties incomplete for index 97 = ‌
Warning: properties incomplete for index 98 = ٕ
Warning: properties incomplete for index 99 = ٙ
Warning: properties incomplete for index 101 = ٔ
Warning: properties incomplete for index 102 = ٚ
Warning: properties incomplete for index 103 = ٘
Warning: properties incomplete for index 106 = ۫
Warning: properties incomplete for index 107 = ٖ
Warning: properties incomplete for index 110 = ‍
Warning: properties incomplete for index 111 = ۡ
Warning: properties incomplete for index 112 = ‭
Warning: properties incomplete for index 113 = ۖ
Warning: properties incomplete for index 114 = ۤ
Warning: properties incomplete for index 115 = ‮
Warning: properties incomplete for index 116 = ۢ
Warning: properties incomplete for index 118 = ۭ
Warning: properties incomplete for index 119 = ۘ
Warning: properties incomplete for index 121 = ۜ
Warning: properties incomplete for index 122 = ۛ
Warning: properties incomplete for index 124 = ۚ
Warning: properties incomplete for index 125 = ۠
Config file is optional, continuing...
Null char=2
 

فلسفی

محفلین
حاضری لگانے حاضر ہوا ہوں۔ تجربات جاری ہیں۔ کچھ مصروفیت کی وجہ سے کام ذرا آہستہ آہستہ چل رہا ہے۔ ایک دو دن میں ان شاءاللہ تجربات کی روشنی جو کچھ سمجھ پایا ہوں اس کی تفصیل عرض کروں گا۔
 

دوست

محفلین
میں نے آج پھر کوشش کی ہے کہ کنفگریشن فائل اردو ٹرینڈ ڈیٹا سے نکال کر استعمال کروں۔ اس میں (اوپر مہیا کردہ مثال کے برعکس) اردو کے لیے صرف ایک سطر ہے۔ اس کے ساتھ سٹارٹر ٹرین ڈیٹا فائل کی آؤٹ پٹ وہی ہے اور ٹیس ٹرین نے وہی راگ الاپنا ہے جیسے اوپر مثال دی تھی۔
اگر ایل ایس ٹی ایم کی ٹرینڈ ڈیٹا فائل مل جائے تو اس کو نئے فونٹ کے لئے ٹرین کیا جا سکتا ہے۔ لیکن اس میں بھی یہی مراحل ہوں گے شاید۔ اور یہ فائل دستیاب بھی نہیں لگتی۔
 

دوست

محفلین
اگلی کوشش اور کچھ سرچ کے بعد۔ یہ ایرر 35 کریکٹرز فی سطر کی حد کی وجہ سے آتا ہے۔ جمیل نوری نستعلیق کے علاوہ فجر نوری نستعلیق استعمال کیا تو ملتا جلتا ایرر ملا۔ یہ دیکھیں
اس کے بعد بس لگیچر والی فائل کے ہی ایک لفظ فی سطر (1000 سطریں) دیں۔ اور آؤٹ پُٹ یہ رہی۔ کچھ پیش رفت نظر آئی ہے لیکن ابھی مزید مسائل ہیں۔ شاید کچھ میری ناسمجھی کی وجہ سے بھی ہیں:
کوڈ:
=== Phase UP: Generating unicharset and unichar properties files ===
[Sun Mar 10 15:35:42 EDT 2019] /usr/local/bin/unicharset_extractor --output_unicharset /tmp/urd-2019-03-10.mMW/urd.unicharset --norm_mode 2 /tmp/urd-2019-03-10.mMW/urd.Jameel_Noori_Nastaleeq.exp0.box
Extracting unicharset from box file /tmp/urd-2019-03-10.mMW/urd.Jameel_Noori_Nastaleeq.exp0.box
Wrote unicharset file /tmp/urd-2019-03-10.mMW/urd.unicharset
[Sun Mar 10 15:35:42 EDT 2019] /usr/local/bin/set_unicharset_properties -U /tmp/urd-2019-03-10.mMW/urd.unicharset -O /tmp/urd-2019-03-10.mMW/urd.unicharset -X /tmp/urd-2019-03-10.mMW/urd.xheights --script_dir=/home/ss/input
Loaded unicharset of size 41 from file /tmp/urd-2019-03-10.mMW/urd.unicharset
Setting unichar properties
Setting script properties
Failed to load script unicharset from:/home/ss/input/Latin.unicharset
Failed to load script unicharset from:/home/ss/input/Arabic.unicharset
Failed to load script unicharset from:/home/ss/input/Inherited.unicharset
Warning: properties incomplete for index 3 = ن
Warning: properties incomplete for index 4 = ی
Warning: properties incomplete for index 5 = ل
Warning: properties incomplete for index 6 = غ
Warning: properties incomplete for index 7 = ت
Warning: properties incomplete for index 8 = ش
Warning: properties incomplete for index 9 = م
Warning: properties incomplete for index 10 = ک
Warning: properties incomplete for index 11 = ع
Warning: properties incomplete for index 12 = ط
Warning: properties incomplete for index 13 = س
Warning: properties incomplete for index 14 = ق
Warning: properties incomplete for index 15 = ہ
Warning: properties incomplete for index 16 = ض
Warning: properties incomplete for index 17 = ف
Warning: properties incomplete for index 18 = ں
Warning: properties incomplete for index 19 = پ
Warning: properties incomplete for index 20 = ھ
Warning: properties incomplete for index 21 = گ
Warning: properties incomplete for index 22 = ا
Warning: properties incomplete for index 23 = ٹ
Warning: properties incomplete for index 24 = چ
Warning: properties incomplete for index 25 = ب
Warning: properties incomplete for index 26 = و
Warning: properties incomplete for index 27 = ر
Warning: properties incomplete for index 28 = ج
Warning: properties incomplete for index 29 = ے
Warning: properties incomplete for index 30 = خ
Warning: properties incomplete for index 31 = ڈ
Warning: properties incomplete for index 32 = ئ
Warning: properties incomplete for index 33 = ص
Warning: properties incomplete for index 34 = ح
Warning: properties incomplete for index 35 = ز
Warning: properties incomplete for index 36 = ث
Warning: properties incomplete for index 37 = ّ
Warning: properties incomplete for index 38 = ظ
Warning: properties incomplete for index 39 = ۂ
Warning: properties incomplete for index 40 = د
Writing unicharset to file /tmp/urd-2019-03-10.mMW/urd.unicharset

=== Phase E: Generating lstmf files ===
Using TESSDATA_PREFIX=/home/ss/tesstutorial/tesseract/tessdata
[Sun Mar 10 15:35:42 EDT 2019] /usr/local/bin/tesseract /tmp/urd-2019-03-10.mMW/urd.Jameel_Noori_Nastaleeq.exp0.tif /tmp/urd-2019-03-10.mMW/urd.Jameel_Noori_Nastaleeq.exp0 --psm 6 lstm.train /home/ss/input/urd/urd.config
Error opening data file /home/ss/tesstutorial/tesseract/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
ERROR: /tmp/urd-2019-03-10.mMW/urd.Jameel_Noori_Nastaleeq.exp0.lstmf does not exist or is not readable
 

فلسفی

محفلین
لیں جی حضرات اب تک کی تحقیق کے مطابق میری رائے

"OCRD-Train" کا پائتھون سکرپٹ صرف سادہ باکس فائل بناتا ہے جس میں ہر حرف کی پوزیشن صفر پر ہوتی ہے۔ یعنی باکس فائل درست نہیں ہوتی۔ اس کو خود درست کرنا ہوتا ہے۔ اسی طرح ٹیسریکٹ text2image کے ذریعے جو فائل بناتا ہے وہ زیادہ مناسب ہوتی ہے لیکن جمیل نوری فونٹ کے لیے وہ درست نہیں بنتی کیوں کہ بہت سے حروف ایک دوسرے کے اوپر نظر آتے ہیں۔ لہذا باکس فائل میں حرف کے بجائے کئی جگہ ایک سے زیادہ حرف کے لیے ایک لائن مختص ہو جاتی ہے جو ٹیسریکٹ فور کے لیے درست نہیں۔ لہذا اب تک جتنے تجربات کرنے کی کوشش کی وہ سب بیکار ۔۔۔ خیر بیکار تو نہیں ان سے کچھ نہ کچھ سیکھنے کو ہی ملا۔

اب میں نے تجربہ کرنے کے لیے صرف ایک لائن، درست باکس فائل کے ساتھ، جو ایک ٹول میں کھول کر، ایک ایک حرف کو درست کر کے بنائی تھی، کی ٹرینگ دس مرتبہ کروائی۔ یعنی ایک ٹف فائل، اس کی درست باکس فائل (بائیں سے دائیں) اور پھر اس فائل کے مزید نو کاپیز۔ لائن یہ تھی۔ باکس فائل۔

ان فائلز کی نو کاپیز اور بنائیں۔ یعنی ٹوٹل دس فائل لیکن متن ایک ہی تھا۔ پھر "OCRD-Train" کا اسکرپٹ استعمال کیا۔ باکس فائل چونکہ پہلے سے موجود تھیں تو دوبارہ نہیں بنی۔ بلکہ اس کے بعد والا حصہ سکرپٹ نے چلایا۔ جس کے نتیجے میں فائنل تربیتی مواد کی فائل حاصل ہوئی جس کو ذیل میں دی گئی تصویر سے ٹیسٹ کیا اور نتیجہ؟؟؟

ٹیسٹ فائل

uc


نتیجہ
کوڈ:
کوٹھی کے آہنی گیٹ کی کھڑکی میں اندر قدم رکھتے
اکردیا جائے تو ازیادہ بہتر ہو گا‌
مکھڑکی میں بہو ٹھی سے

تربیتی مواد یہاں سے حاصل کیجیے۔

اس سے یہ بات تو واضح ہوئی کہ جمیل نوری والے فونٹ یا اسی طرح نستعلیق فونٹ کے ساتھ کام کرنے کے لیے باکس فائل کو مینویل طریقے سے بنانا پڑے گا۔ کیونکہ ٹیسریکٹ یا کسی اور سکرپٹ سے بنانے میں حرف کے بجائے لفظ باکس فائل میں شامل ہو جاتے ہیں۔ اس کا حل میں نے یہ تلاش کیا کہ پہلے ایریل فونٹ کے ذریعے text2image سے فائلز بنائیں جس سے ٹف اور باکس فائلز (علیحدہ علیحدہ حروف کے ساتھ) بن جاتیں ہیں۔ باکس فائلز محفوظ کر کے دوبارہ text2image کے ذریعے جمیل فونٹ کو استعمال کیا اور اس کی ٹف فائلز حاصل کرلیں۔ پھر jTessBoxEditor یا کسی اور ٹول میں جا کر باکس فائل کو درست کیا۔ پھر اس کو تربیت کروانے کے لیے استعمال کیا۔ اب ٹف اور باکس فائلز تو بن سکتی ہیں۔ لیکن باکس فائلز کو درست کرنا ایک عذاب ہے۔ ایک فائل کو درست کرنے میں سر چکرا گیا۔ میرے خیال میں یہ کام ہے جس کو تقسیم کیا جاسکتا ہے۔ ڈاٹ نیٹ کا ایک ٹول ہاتھ لگا ہے جس میں ٹف اور باکس فائل کو کھول کر ڈریگ ڈراپ سے یعنی ڈرائنگ کے ذریعے سے باکسز درست کیے جاسکتے ہیں۔ یہ jTessBoxEditor بہت بہتر ہے۔ لیکن کچھ خامیاں بھی ہیں۔ میں ذرا اس کو ٹھیک کر کے ایک تربیتی فائل بناتا ہوں جس میں اس ٹول کو استعمال کرنے کا طریقہ دیا گیا ہو۔ اس کے بعد سوچتے ہیں کیا کرنا ہے۔
 

دوست

محفلین
ورک فلو وضع کر دیں تو اس پر لیبر کے بندوبست کو دیکھ لیتے ہیں۔ یہ ہاتھ سے ہی ہونا تھا ، نستعلیق فونٹ اوکھا کام تھا ویسے۔
 

فلسفی

محفلین
ورک فلو وضع کر دیں تو اس پر لیبر کے بندوبست کو دیکھ لیتے ہیں۔ یہ ہاتھ سے ہی ہونا تھا ، نستعلیق فونٹ اوکھا کام تھا ویسے۔
پورا ویک اینڈ بیگم صاحبہ سے گالیاں کھاتے گزرا اور پھر اتوار کو سر میں شدید درد ہونے کے باجوود تجربے میں لگا رہا۔ کل دفتر سے چھٹی کر لی تھی لیکن کل کا سارا دن بھی غلط باکس فائلوں کے ساتھ الجھا رہا۔ رات کو سوتے سوتے خیال آیا تھا وہ صبح دفتر آ کر چلانے کی کوشش کی تھی۔ نتائج آپ کے سامنے ہیں۔ اب فی الحال تو لیپ ٹاپ بند کر کے رکھ دیا ہے۔ لیکن پہلی فرصت میں ان شاءاللہ ورک فلو بنا کر آپ حضرات سے شئیر کروں گا۔
 
اسی طرح ٹیسریکٹ text2image کے ذریعے جو فائل بناتا ہے وہ زیادہ مناسب ہوتی ہے لیکن جمیل نوری فونٹ کے لیے وہ درست نہیں بنتی کیوں کہ بہت سے حروف ایک دوسرے کے اوپر نظر آتے ہیں۔ لہذا باکس فائل میں حرف کے بجائے کئی جگہ ایک سے زیادہ حرف کے لیے ایک لائن مختص ہو جاتی ہے جو ٹیسریکٹ فور کے لیے درست نہیں۔
ایک سے زیادہ حروف کے لیے ایک باکس بننا درست ہے کیونکہ لگیچرز کی صورت میں پورا لگیچر اکٹھا ہی ڈیٹیکٹ ہو گا۔ یہ ایک سے زیادہ حروف جہاں باکس فائل میں نظر آتے ہیں وہ لگیچر کے لیے ہوتے ہیں اور لگیچر سے الٹ ترتیب میں ہی ہوتے ہیں۔
 

فلسفی

محفلین
ایک سے زیادہ حروف کے لیے ایک باکس بننا درست ہے کیونکہ لگیچرز کی صورت میں پورا لگیچر اکٹھا ہی ڈیٹیکٹ ہو گا۔ یہ ایک سے زیادہ حروف جہاں باکس فائل میں نظر آتے ہیں وہ لگیچر کے لیے ہوتے ہیں اور لگیچر سے الٹ ترتیب میں ہی ہوتے ہیں۔
اس کا تجربہ کرنا پڑے گا۔ کیونکہ جو ٹول باکس فائلز کو تبدیل کرنے کے لیے میں استعمال کر رہا تھا اس میں وہ لیگیچر کا پہلا حرف ہی دکھاتا تھا۔ jTessBoxEditor میں نہیں دیکھا اس میں باکس کو تبدیل کرنا بہت مشکل ہے۔
 
اس کا تجربہ کرنا پڑے گا۔ کیونکہ جو ٹول باکس فائلز کو تبدیل کرنے کے لیے میں استعمال کر رہا تھا اس میں وہ لیگیچر کا پہلا حرف ہی دکھاتا تھا۔ jTessBoxEditor میں نہیں دیکھا اس میں باکس کو تبدیل کرنا بہت مشکل ہے۔
ایک دفعہ ٹیکسٹ ٹو امیج سے حاصل ہونے والی اصل باکس فائل کے ساتھ ٹریننگ کر کے بھی دیکھ لیں۔۔۔ لگیچرز میں مسئلہ تو نہیں ہونا چاہیے ٹریننگ میں!
 

جاسم محمد

محفلین
پورا ویک اینڈ بیگم صاحبہ سے گالیاں کھاتے گزرا اور پھر اتوار کو سر میں شدید درد ہونے کے باجوود تجربے میں لگا رہا۔ کل دفتر سے چھٹی کر لی تھی لیکن کل کا سارا دن بھی غلط باکس فائلوں کے ساتھ الجھا رہا۔
بھائی ذرا حوصلہ! اردو او سی آر کی خاطر تکنیکی شہادت سے پرہیز کریں۔ جب کام اور گھر سے فراغت ملے تو اس پر تحقیق کر لیا کریں۔ ہر چیز اعتدال کے ساتھ ہی بہترین بنتی ہے :)
 

فلسفی

محفلین
ایک دفعہ ٹیکسٹ ٹو امیج سے حاصل ہونے والی اصل باکس فائل کے ساتھ ٹریننگ کر کے بھی دیکھ لیں۔۔۔ لگیچرز میں مسئلہ تو نہیں ہونا چاہیے ٹریننگ میں!
جی اس کو بھی دیکھتا ہوں۔ میں یہی سمجھا تھا کہ حروف کا علیحدہ علیحدہ ہونا ضروری ہے۔ اُس پر ڈاٹ نیٹ کے ٹول نے کنفیوز کردیا۔ تجربے کے بعد نتائج شئیر کروں گا۔ ان شاءاللہ۔
 

فلسفی

محفلین
لیجیے حضرات مزید ایک تجربہ اور اس کا نتیجہ۔

text2image سے ٹف اور باکس فائل بنانے کے بعد، بغیر تبدیل کیے اس کو تربیت کے لیے استعمال کیا۔ اس میں لیگیچر موجود تھے۔
متن یہی پہلے والا استعمال کیا تھا۔ باکس فائل۔
تربیتی مواد
کوڈ:
کوٹھی کآ ییٹ کی٦ھڑکییاد:_قدم رکھتے
مگکرےھیا جالنتنتنےخ نتو زریادہم آپیپیتمرا پچپو گای
بکھڑی وج۴غ- کوی ٹھی ک کے۔
 
Top