'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

دوست

محفلین
سطری فائل اور اضافی الفاظ جو نہیں مل سکے یہاں سے حاصل کیے جا سکتے ہیں۔
کل سطور 223,397 جن میں کہیں کہیں مسائل بھی نظر آئیں گے، یہ میری دانست میں بہترین دستیاب حل تھا۔
لائن جنریٹر پروگرام کو اپڈیٹ کر دیا ہے، اب پیرالل لوپنگ سے گھنٹوں کا کام منٹوں میں ہو جاتا ہے۔ شرط یہ ہے کہ پہلے سب سے چھوٹی ٹیکسٹ فائل ان پُٹ میں ہو تاکہ کثیر الفریکوئنسی الفاظ سرچ لوپ میں سے نکل جائیں، اور لسٹ چھوٹی ہوتی چلی جائے۔
اب اسے استعمال کر کے ٹریننگ ڈیٹا اور ٹریننگ کی جائے تاکہ کٹی کٹا نکلے کوئی۔
 

فلسفی

محفلین
ورچول مشین تو نہیں چلا رہے؟ :)
مسئلہ ڈسک سپیس کا نہیں بلکہ آئی نوڈ ٹیبل کا ہے۔ تقریبا چار لاکھ ٹف پھر ان کا ٹیکسٹ ۔۔۔ تو باکس فائل بناتے ہوئے سسٹم چکرا گیا۔ سیدھا سادا حل تو رات کو کوئی ملا نہیں۔ اب دفتر جا کر دیکھو گا اسے کیا کرنا ہے۔
 

فلسفی

محفلین
صبح نیا فائل سسٹم ، آئی نوڈز کی اضافی تعداد کے ساتھ بنا کر دوبارہ سکرپٹ چلایا تھا۔ ابھی تک یہ صورت حال یہ ہے کہ فی الحال باکس فائلز ہی بن رہی ہیں۔ اس کے بعد اصل تربیتی پروسیس شروع ہو گا۔

sudo python generate_line_box.py -i "data/ground-truth/Jameel_Noori_Nastaleeq_12_292853.tif" -t "data/ground-truth/Jameel_Noori_Nastaleeq_12_292853.gt.txt" > "data/ground-truth/Jameel_Noori_Nastaleeq_12_292853.box"
sudo python generate_line_box.py -i "data/ground-truth/Jameel_Noori_Nastaleeq_12_292854.tif" -t "data/ground-truth/Jameel_Noori_Nastaleeq_12_292854.gt.txt" > "data/ground-truth/Jameel_Noori_Nastaleeq_12_292854.box"
فی الحال صرف ڈیفالٹ فانٹ سائز (12) لیا ہے۔ اس سے جو تربیتی مواد بنے گا اس کو دیکھتے ہیں کیسا کام کرتا ہے۔ ویسے جو تربیتی مواد بنے گا اسی کے اندر مزید بہتری بھی لائی جاسکتی ہے۔ PRONTO_MODEL کا آرگومنٹ "OCR-D train" والے سکرپٹ میں شاید اسی لیے ہے۔ آپ حضرات کا کیا خیال ہے؟
 

فلسفی

محفلین
کل سے "OCR-D train" کوئی پانچ، چھے مرتبہ کریش کر چکا ہے، میموری کی وجہ سے۔ لیپ ٹاپ میں سولہ جی بی میموری ہے۔ ورچول مشین کو آٹھ جی بی مہیا کی تھی لیکن اس کی بنیاد پر فقط تین لاکھ چالیس ہزار فائلز کی باکس فائلز بن سکی ہیں۔ معلوم نہیں یہ سکرپٹ ڈیٹا میموری میں رکھتا ہے؟ چلتے چلتے سکرپٹ کریش کر جاتا ہے اور دوبارہ چلانے پر تقریبا آدھ سے ایک گھنٹے پوری ڈائریکٹری سکین کرنے کے بعد کام کرنا شروع کرتا ہے۔ اب اگر پھر کریش ہوا تو ڈیٹے کو دو حصوں میں تقسیم کرنا پڑے گا۔ یعنی دو، دو لاکھ اور پھر باری باری تربیت کروانے پڑے گے۔ دیکھتے ہیں، جو اللہ پاک کو منظور۔
 

دوست

محفلین
میں کل سے کچھ مزید تحقیق کر رہا ہوں ٹریننگ ڈیٹا بنانے کے حوالے سے۔ ایک تو ٹریننگ ڈیٹا موجود ہے یہاں، جیسا کہ اوپر بھی دو ایک مرتبہ اس کا ذکر کیا گیا لیکن تب میری ستر سی سی کھوپڑی میں یہ بات نہیں آ رہی تھی۔
ٹریننگ ٹیکسٹ اور ورڈ لسٹ میں تقریباً ایک لاکھ الفاظ موجود نہیں ہیں۔ پھر بھی ٹریننگ ٹیکسٹ تقریبا 27 میگابائٹ کی سطری فائل ہے۔ اس میں سطروں کی تعداد تقریبا تین لاکھ 84 ہزار ہے۔ تاہم اردو کے کچھ کریکٹرز جیسے ژ اور رضی اللہ عنہ جیسی علامات موجود نہیں تھیں۔ میں نے ان علامات پر مشتمل اضافی سطریں جنریٹ کی ہیں۔ نا موجود الفاظ کو تقریبا 25 الفاظ فی سطر اور اضافی جنریٹ کردہ سطروں کو ملا کر اس کے آخر میں ڈال رہا ہوں۔ ورڈ لسٹ کو بھی اپڈیٹ کرنا ہے، اور مندرجہ بالا ربط پر موجود پنکچوایشن فائل میں بھی سوالیہ نشان وغیرہ ڈالا ہے۔ میرے خیال میں ان سب کو آفیشل ریپازیٹری میں شامل کروانے کے لیے ایک عدد پُل ریکویسٹ وہاں ڈالی جائے۔
مزید ٹریننگ کے حوالے سے سٹارٹر ٹرینڈ ڈیٹا فائل تخلیق کرنے کا ارادہ اس سے اگلا قدم ہے۔ اس حوالے سے یہ ٹول بتایا گیا ہے۔ بظاہر اس میں کوئی پیچیدگی نظر نہیں آ رہی، اوپر بیان کردہ ریپازیٹری میں موجود یونی کریسٹ فائل کے استعمال اور میری اپڈیٹ کردہ فائلوں کو کام میں لا کر اس ٹول کو چلایا جاسکتا ہے۔ یہ اس لئے ضروری ہے کہ اس میں یونیکوڈ ٹیکسٹ کی ری کوڈنگ بھی ملوث ہو گی، اس لئے میرے خیال جگاڑ لگانے کی بجائے آفیشل ٹیوٹوریل پر دیے گئے طریقے کے مطابق آگے بڑھا جائے۔
کمبائن لینگویج ماڈل کے بعد اگلا کام ٹیس ٹرین چلا کر باکس فائلوں کا حصول ہے۔ اور اس کے بعد ٹریننگ شروع کی جائے گی۔
طریقہ چاہے یہ ہو یا دوسرا، باکس فائلوں کی تیاری اور ٹریننگ کے دوران مسائل متوقع ہیں، جن میں میموری ناکافی ہونے کا مسئلہ بھی ہے۔ یہاں پر سوال پیدا ہو رہا ہے کہ لیپ ٹاپ کیا پرسنل کمپیوٹر پر یہ کام بہتر رہے گا یا اس کے لئے کوئی اور طریقہ سوچا جائے۔
 

دوست

محفلین
خاکسار بہت سے پروجیکٹ پر کام کر رہا ہے کچھ عرصہ قبل فورم پر بھی رابطہ کیا تھا کہ ہم خیال لوگ مل جائیں لیکن :disapointed:

JC — Postimage.org
JC OCR — Postimage.org
Modren F — Postimage.org
Modren OCR — Postimage.org
TF — Postimage.org
TF OCR — Postimage.org

مندرجہ بالا رزلٹ ملاحضہ فرمائیں
بھائی ویب سائٹ اشتہارات سمیت بہت اچھی لگ رہی ہے۔ یہاں پر ہمارا مقصد یہ ہے کہ ایک عدد ڈیسکٹاپ ایپلیکیشن تیار ہو جائے، جو مفت بھی ہو۔ مزید برآں اس ایپلیکیشن کو مختلف پروگرامنگ لینگویجز میں استعمال کرکے اپنے مطلب کی اپلیکیشنز بھی بنائی جا سکتی ہیں۔ مثلاً ڈیٹا پروسیسنگ کے لئے مجھے اس کا اطلاق آر پروگرامنگ لینگویج کے ساتھ موجود بائنڈنگ کے ہمراہ استعمال کرنے کے حوالے سے نظر آ رہا ہے۔ چونکہ میں اس پروگرامنگ لینگویج کو خود بھی استعمال کرتا ہوں، اور اردو کے لسانیاتی تجزیہ پر کام کرنا چاہتا ہوں، میرے خیال میں اگر ٹیسرکٹ کا ایک نوری نستعلیق پر مشتمل ماڈل تیار ہو جائے اور وہ آر میں استعمال کیا جا سکے تو اس میں سب کے ساتھ میرا بھی بھلا ہو جائے۔ اس کے علاوہ اس پروگرام کی لچک کی وجہ سے اطلاقات کا میدان بہت وسیع ہے۔
اگر اس سلسلے میں کوئی تعاون ہو سکے تو بسم اللہ۔
 

لام الف

محفلین
بھائی ویب سائٹ اشتہارات سمیت بہت اچھی لگ رہی ہے۔ یہاں پر ہمارا مقصد یہ ہے کہ ایک عدد ڈیسکٹاپ ایپلیکیشن تیار ہو جائے، جو مفت بھی ہو۔ مزید برآں اس ایپلیکیشن کو مختلف پروگرامنگ لینگویجز میں استعمال کرکے اپنے مطلب کی اپلیکیشنز بھی بنائی جا سکتی ہیں۔ مثلاً ڈیٹا پروسیسنگ کے لئے مجھے اس کا اطلاق آر پروگرامنگ لینگویج کے ساتھ موجود بائنڈنگ کے ہمراہ استعمال کرنے کے حوالے سے نظر آ رہا ہے۔ چونکہ میں اس پروگرامنگ لینگویج کو خود بھی استعمال کرتا ہوں، اور اردو کے لسانیاتی تجزیہ پر کام کرنا چاہتا ہوں، میرے خیال میں اگر ٹیسرکٹ کا ایک نوری نستعلیق پر مشتمل ماڈل تیار ہو جائے اور وہ آر میں استعمال کیا جا سکے تو اس میں سب کے ساتھ میرا بھی بھلا ہو جائے۔ اس کے علاوہ اس پروگرام کی لچک کی وجہ سے اطلاقات کا میدان بہت وسیع ہے۔
اگر اس سلسلے میں کوئی تعاون ہو سکے تو بسم اللہ۔

جناب لگتا ہے آپ نے زرلٹ دیکھنا گوارا بھی نہیں کیا فقط تنقید ہی کی ہے
ایکوریسی تقریبا ۸۵ فیصد سے زیادہ ہے
خیر آپ پائیتھن کو دیکھیے اس میں کئی لائبریز موجود ہیں جو این ایل پی میں اردو سپورٹ رکھتی ہیں
 

فلسفی

محفلین
خاکسار بہت سے پروجیکٹ پر کام کر رہا ہے کچھ عرصہ قبل فورم پر بھی رابطہ کیا تھا کہ ہم خیال لوگ مل جائیں لیکن :disapointed:

JC — Postimage.org
JC OCR — Postimage.org
Modren F — Postimage.org
Modren OCR — Postimage.org
TF — Postimage.org
TF OCR — Postimage.org

مندرجہ بالا رزلٹ ملاحضہ فرمائیں

جناب لگتا ہے آپ نے زرلٹ دیکھنا گوارا بھی نہیں کیا فقط تنقید ہی کی ہے
ایکوریسی تقریبا ۸۵ فیصد سے زیادہ ہے
خیر آپ پائیتھن کو دیکھیے اس میں کئی لائبریز موجود ہیں جو این ایل پی میں اردو سپورٹ رکھتی ہیں
میرے پاس یہ ویب سائٹ نہیں کھل رہی شاید بلاک ہے۔ آپ ذرا کچھ تفصیل بتائیے اپنے کام کے بارے میں۔
 

دوست

محفلین
آپ کا کام بہت اچھا ہے، اسی طرح کا کام سنٹر فار لینگوئج انجینرنگ والے بھی کر چکے ہیں، ملاحظہ کیجیے۔ آنلائن اور ڈیکسٹاپ بھی قیمتاً۔
میں پائتھون میں این ایل ٹی کے وغیرہ سے واقف ہوں۔ اور ان کی اردو کی صلاحیت سے بھی۔ مقصد میں اوپر عرض کر چکا ہوں، اگر ٹیسرکٹ کی ٹریننگ میں مدد کر سکتے ہیں تو کیا کہنے۔ چونکہ میں کوئی پروگرامر نہیں ہوں، بس جگاڑیا ہوں، جسے اردو کے لیے آسان جگاڑ کی تلاش ہے۔ ٹیسرکٹ میں پوٹینشل نظر آیا تو اس پر توجہ دی، شاید سب کا فائدہ ہو جائے۔
 

لام الف

محفلین
آپ کا کام بہت اچھا ہے، اسی طرح کا کام سنٹر فار لینگوئج انجینرنگ والے بھی کر چکے ہیں، ملاحظہ کیجیے۔ آنلائن اور ڈیکسٹاپ بھی قیمتاً۔
میں پائتھون میں این ایل ٹی کے وغیرہ سے واقف ہوں۔ اور ان کی اردو کی صلاحیت سے بھی۔ مقصد میں اوپر عرض کر چکا ہوں، اگر ٹیسرکٹ کی ٹریننگ میں مدد کر سکتے ہیں تو کیا کہنے۔ چونکہ میں کوئی پروگرامر نہیں ہوں، بس جگاڑیا ہوں، جسے اردو کے لیے آسان جگاڑ کی تلاش ہے۔ ٹیسرکٹ میں پوٹینشل نظر آیا تو اس پر توجہ دی، شاید سب کا فائدہ ہو جائے۔

جناب آپکی بتائی ہوئی سائیٹ میں بھی واقف ہوں لیکن یہ صرف نستعلق کی سپورٹ دیتی
اور وہ بھی صرف ان پیج میں ٹائپ شدہ کی
میں نے ٹائپ فاونٹ کی او سی آر بھی بھیجی ہے کیا آپ نے وہ دیکھی ہے
 

دوست

محفلین
جی میں دیکھ چکا ہوں، بہت اچھا کام ہے۔ ہمارے لیے تو ونڈو شاپنگ جسے اردو میں کھڑکی خریداری کہتے ہیں، ہوا نا۔ ہمیں کیا فائدہ ہے آپ کے ٹیلنٹ کا۔ آپ کا حلوہ میٹھا لگ رہا ہے، لیکن ہم کھائیں گے تو پتہ چلے گا۔ ہماری تو اتنی عرض ہے کہ اردو کا او سی آر مل جاوے، اور اللہ واسطے مل جاوے جسے عربی میں فی سبیل اللہ کہتے ہیں۔ اور ہم مفتو مفت استعمال کرتے چلے جائیں، آپ کو ثواب ملتا جائے۔
اور کسی کا تو معلوم نہیں میں حلفاً ٹیسرکٹ پر کام بند کرنے کا کہتا ہوں، اگر آپ او سی آر اردو والوں کے لیے جاری کر دیں۔ آپ کا پہلا مفت خورا فین۔ حکم فرمائیں؟
 

لام الف

محفلین
جی میں دیکھ چکا ہوں، بہت اچھا کام ہے۔ ہمارے لیے تو ونڈو شاپنگ جسے اردو میں کھڑکی خریداری کہتے ہیں، ہوا نا۔ ہمیں کیا فائدہ ہے آپ کے ٹیلنٹ کا۔ آپ کا حلوہ میٹھا لگ رہا ہے، لیکن ہم کھائیں گے تو پتہ چلے گا۔ ہماری تو اتنی عرض ہے کہ اردو کا او سی آر مل جاوے، اور اللہ واسطے مل جاوے جسے عربی میں فی سبیل اللہ کہتے ہیں۔ اور ہم مفتو مفت استعمال کرتے چلے جائیں، آپ کو ثواب ملتا جائے۔
اور کسی کا تو معلوم نہیں میں حلفاً ٹیسرکٹ پر کام بند کرنے کا کہتا ہوں، اگر آپ او سی آر اردو والوں کے لیے جاری کر دیں۔ آپ کا پہلا مفت خورا فین۔ حکم فرمائیں؟

درحقیت میں ریختہ ویب سائٹ کی ویب سائٹ پر کام کر رہا پچھلے دو سال ہے۔ ہم نے تقریبا ۳ ہزار کے قریب کتابیں سکین کر لی ہیں اور ان میں بہت سی ٹائپ فاونٹ میں اور بہت سی سو برس سے زیادہ پرانی ہیں۔ پرانی طرز کی اردو پر کام چل رہا ہے اسکے لیے مجھے مزید وقت درکار ہے اور بھی بہت سے کام باقی ہیں امید ہے ہماری ویب سائٹ اور موبائل اپس اس سال لانچ ہو جائیں گی
 

جاسم محمد

محفلین
خاکسار بہت سے پروجیکٹ پر کام کر رہا ہے کچھ عرصہ قبل فورم پر بھی رابطہ کیا تھا کہ ہم خیال لوگ مل جائیں لیکن :disapointed:

JC — Postimage.org
JC OCR — Postimage.org
Modren F — Postimage.org
Modren OCR — Postimage.org
TF — Postimage.org
TF OCR — Postimage.org

مندرجہ بالا رزلٹ ملاحضہ فرمائیں
بہترین۔ کیا یہ او سی آر صرف آن لائن ہی کام کرتا ہے؟ یا اسے آف لائن بنانے کا بھی ارادہ ہے؟ نیز اس میں انجن کونسا استعمال کر رہے ہیں؟ گوگل، ٹیسریکٹ؟
 

فلسفی

محفلین
رزلٹ تو اچھا ہے لیکن جیسے محترم دوست نے فرمایا کہ ہم اوپن سورس پروجیکٹ کے حق میں ہیں۔ کیا آپ اپنی تحقیق کی مزید تفصیل بتانا پسند فرمائیں گے۔

اور کسی کا تو معلوم نہیں میں حلفاً ٹیسرکٹ پر کام بند کرنے کا کہتا ہوں، اگر آپ او سی آر اردو والوں کے لیے جاری کر دیں۔ آپ کا پہلا مفت خورا فین۔ حکم فرمائیں؟
متفق، دوسرا مجھے سمجھ لیں۔
 
Top