'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

جاسم محمد

محفلین
آپ کو لگتا ہے کہ اس کو مزید درست کرنے کی گنجائش ہے؟
میں نے اس حوالہ سے کہا تھا:
تاہم کچھ مسائل ہیں جن کو مزید ٹریننگ سے پہلے دیکھا جانا ضروری ہے: مثال کے طور پر باکس فائل میں اسپیس کے مقام اور تعداد میں غلطی۔۔۔۔
بہرحال اس مسئلہ کو ڈائگ نوز کیا جا سکتا ہے۔ وہ ایسے کہ آپ پہلے ایک ہی متن کا نسخ ونستعلیق خط میں اور سائز کاسیمپل بنائیں۔ اور ان دونوں کے باکس فائل نکال کر موازنہ کریں۔ پھر کوشش کر کے نستعلیق کا باکس فائل نسخ سے قریب تر کر لیں۔ اب اس پر ٹیسریکٹ رن کریں اور دیکھیں کہ کوئی بہتری ہوئی یا نہیں۔
 

فلسفی

محفلین
میں نے اس حوالہ سے کہا تھا:

بہرحال اس مسئلہ کو ڈائگ نوز کیا جا سکتا ہے۔ وہ ایسے کہ آپ پہلے ایک ہی متن کا نسخ ونستعلیق خط میں اور سائز کاسیمپل بنائیں۔ اور ان دونوں کے باکس فائل نکال کر موازنہ کریں۔ پھر کوشش کر کے نستعلیق کا باکس فائل نسخ سے قریب تر کر لیں۔ اب اس پر ٹیسریکٹ رن کریں اور دیکھیں کہ کوئی بہتری ہوئی یا نہیں۔
یہی تو کیا پچھلے تجربات میں، آپ لڑی دوبار ملاحظہ کیجیے۔

اب ارادہ یہ ہے کہ ایک تجربہ زیادہ متن (بجائے ایک لائن کے) کے ساتھ، لیگیچر والا، جمیل نستعلیق فونٹ پر کرتا ہوں۔ اس کے نتائج دیکھتے ہیں۔
 

فلسفی

محفلین
حضرات میرا خیال ہے کہ کھوتا کام (ڈونکی ورک) ہی کرنا پڑے گا۔ تقریبا دس ہزار لائنز کے ذریعے تربیت کروانے کے بعد بھی نتیجہ یہ نکلا (قدرے بہتر ہے)

کوڈ:
کو نھی کےآہفیگیٹکیکھرکی میں اندررقد رکھتے
کرنیا جان ے نتو زیات بہنر بہو عا
کھٹرکی میں کوتھی کے

اس صفحے کا نتیجہ

کوڈ:
ورقی ورآل ے تےہُ
طرحکگزشتبین برسں میں پہھینارباے

وں تولاناکومادرلتکا سالکہدیاگیا ےگرکیا ہ انکی اس زا نےکیتقرریں شاعکر
رسے ہیں جواہوں تنے ایب تانکیآعرنبت کے خلاف ا اتخجراور ہصبہرکوکی ھیں و ہقوانیتقریوں
کے ذرے بورے سالکی یات اوراس کے ذریھیت پہاٹ اتکا جاتز لییتھیں ۔ اس وت رٹڑو
اکستان کے را رڈمیں و ساریترریںیں یں ۔کیا ہمادرلت کے سال کےلنلے میں یاکوار یکراککتے
یںکیتر منیا طہ بناجح کی موتکیوں ا و رکیسے ہوی ھی کیا قراہو نے وا پچنی تا ب میہرے چھلُ کی‪ُ کحخ
ی وےی ا تاکہ جوکا ڈڑ ی یاا پبجویی ان کے ھیا ُیُ یی قاسدمکو لے ایسریورتٹکیتی اس ککا ن راتے ی
پچڑرل ہیت ہدگیاتھا۔ سلوککیاتھا ہم نے اینے اند کے ساتو ِف

حطینف را سے ان تام اتوںکا تچہک تٹےہ ہو ے کتے وی ک مسج ھاا لے ہور ہلی ےک۱
نے احتقاعکرنابندکردیاے شایدنفیف را ےکھرسےیں ثے ورنو دیکےککیکس طرح آح کےنو جوان
امریی رگروں اورپگن ریبٹورنٹ کے سا نےکوڑزرے ہوگرلوگوںکقنکررہے تھےکہہ دہی ری پنٹے
دہی مرنخ اوررولیکھاسیں ے۔ ہم نہو بلیں چین ے اورنہو مرخیا ںکھاسں ے۔ تیف راسے بی ا
آن ہی کوعلوم تہپےےل اتن ا ڈوےُ جوالنع تےچعخُ کے ساتھکیا ہوُ تبسرہے ونعتشجیکلا ہہا۹ہہللد للدن1 ھخُ ا ٹاکر
کاڑیوں میں ڈال کرشہرسے با ہرھوڈآے ۱ُ

[امتی اور تمتی کواتٹی دصعا کے کے خلاف اہراکرتنے مکے لےسو یقدرب لوگ ح ہوکے
کدباتی لوگ کیتے ر ےکنہہ سے بو کرابی ظاہراکیاتااورندہ سے یوکری م چائیں گےلوگو
اتے سےھات ہو گئ ہیںکہلاہوشریںراصبلیوں رڑڑے جں رے تے اوراگ نا منی سے انی
گا ڑ پوں میں ر واں دواں تھے ۔کوی رک رد پیھیہیی ہاتھا کککیا ہورہاہے۔

لگ تواس بات پہھی احتقاج یںکررہے ںکصاب میں ایگکربن یکیم اس یے یالیحی
دیےکی متھیُ مشییُی تے یاا میں لظطدر ریپ کات ا3 اآ تا ہے۔ جان ڑنک جسں کواگکریے شا حری کا دا
جتے ہیں اس کیمتاب سےال د یےکی سنا زڑشںکیی ہے

ارینفیات پچے ںکہ یسب لؤگ اس بات پرشرند ہعلوم د ے ہیںکہد ایکورت
کلن سے پیاہوئے ہیں ۔ میں نے راحلقاتھی ییی قاتیسجن اتدکی بنی سےکہاکیطڑکیکی شا دیکی ر
اب اسالکردینی جا ے لیںکفرب میںتوں سالکی بی اں نکتی ے۔ اس پتوآپ اتراخں
نبھی تقیُ ویںقو پچھرچںً عتراصںکہو ں کہہا رے یہا ں چھوٹی ھرکیڈڑکیکی تی1 دکیکروی یً یُ ے

میرے احتیاج کڑمیرے اھتراضںکونتینف راے ا نے ہں اورندراتیقاتی ۔کیاان کےبہں
میں ڈانٹڈ ے ای طرجح لے ہو ے جسے وردی اورہ آا ب مسب جا نتے یں ۔

ابھی تک کا سب سے اچھا نتیجہ اس باکس فائل کا ہے جو حرف بہ حرف تھی اور جس کو مینوئل طریقے سے درست کیا تھا۔ کسی بھائی کے پاس کوئی اور حل ہے تو شئیر کرے۔

شب بخیر
 
کچھ حد تک تو مسئلہ اسپیسز کا ہی ہے جو کہ باکس فائل میں بعض جگہوں پہ غلط جنریٹ ہو رہی تھیں۔
یہ نتیجہ کتنی آئٹریشنز کے بعد کا ہے؟ہو سکتا کچھ مزید بہتری آ جائے زیادہ آئٹریشنز میں۔
اس کے علاوہ فائلز مختلف فونٹ سائز اور مختلف ایکسپوژر کے ساتھ جنریٹ کروا کے ٹریننگ کروانے سے بھی کچھ بہتری آ سکتی ہے۔
ورنہ آخری حل تو مینوئلی باکسز کو درست کرنے کا ہی ہے۔
 

فلسفی

محفلین
کچھ حد تک تو مسئلہ اسپیسز کا ہی ہے جو کہ باکس فائل میں بعض جگہوں پہ غلط جنریٹ ہو رہی تھیں۔
یہ نتیجہ کتنی آئٹریشنز کے بعد کا ہے؟ہو سکتا کچھ مزید بہتری آ جائے زیادہ آئٹریشنز میں۔
اس کے علاوہ فائلز مختلف فونٹ سائز اور مختلف ایکسپوژر کے ساتھ جنریٹ کروا کے ٹریننگ کروانے سے بھی کچھ بہتری آ سکتی ہے۔
ورنہ آخری حل تو مینوئلی باکسز کو درست کرنے کا ہی ہے۔
جی یہ دس ہزار آئٹریشن کا نتیجہ ہے۔ ایکسپوژر اور فونٹ سائز کے ساتھ بھی کھیل کر دیکھتے ہیں۔

ایکسپوژر ڈیفالٹ 0، فونٹ سائز ڈیفالٹ 12،14، 16
ایکسپوژر 2-، فونٹ سائز ڈیفالٹ 12، 14،16
ایکسپوژر 3-، فونٹ سائز ڈیفالٹ 12، 14،16

یہ ٹھیک یا اس کے علاوہ بھی کمبینیشن ہونا چاہئے؟
 

زیک

مسافر
جی یہ دس ہزار آئٹریشن کا نتیجہ ہے۔ ایکسپوژر اور فونٹ سائز کے ساتھ بھی کھیل کر دیکھتے ہیں۔

ایکسپوژر ڈیفالٹ 0، فونٹ سائز ڈیفالٹ 12،14، 16
ایکسپوژر 2-، فونٹ سائز ڈیفالٹ 12، 14،16
ایکسپوژر 3-، فونٹ سائز ڈیفالٹ 12، 14،16

یہ ٹھیک یا اس کے علاوہ بھی کمبینیشن ہونا چاہئے؟
فونٹ سائز کم ہے۔
 

جاسم محمد

محفلین
ویسے آپ کی رائے میں فونٹ سائز کتنا ہونا چاہیے؟
نستعلیق اور نسخ خط کے سائز اور لائن ہائٹ میں کافی فرق ہے۔ موازنہ حاضر ہے:
Capture.jpg
 

فلسفی

محفلین
جی یہ دس ہزار آئٹریشن کا نتیجہ ہے۔
دس ہزار آئٹریشنز کافی ہیں اتنی آئٹریشنز پر تو بہتر نتائج ہونے چاہئیں تھے۔ ٹریننگ امیجز پر کارکردگی کیسی تھی؟
اگلے تجربات میں فونٹ سائز میں ایک ویلیو 20 کی بھی شامل کر لیں۔ ایکسپوژر1 -بھی شامل کر لیں۔
نوری نستعلیق سے مشابہت رکھنے والا کوئی کریکٹر فونٹ بھی استعمال کیا جا سکتا ہےکریکٹر بیس باکس فائل جنریٹ کروانے کے لیے تاہم ایسا کوئی فونٹ پتہ نہیں ملتا بھی ہے کہ نہیں ۔
 

فلسفی

محفلین
فونٹ سائز 12 سے 18 استعمال کیا ہے۔ اور ایکسپوژر 1- ، 2- (پہلے سے موجود اردو کے تربیتی مواد سے کے ساتھ) نتائج، آئٹریشن دس ہزار

کوڈ:
With base Model
Finished! Error rate = 24.961

کوٹی کےآہفی گیٹکیکھڑرکی میں ادرقدمرکھتے
مز نیاجافسے نو زیانت بہن بو ا
کھٹرکی میں کوی کے

فونٹ سائز 12 سے 18 استعمال کیا ہے۔ اور ایکسپوژر 1- ، 2- (بغیر تربیتی مواد کے) نتائج، آئٹریشن دس ہزار

کوڈ:
Without base model
Finished! Error rate = 24.287

کوھ کےآہنیگیٹ کیکھڑی میں ندرقدمرکتے
ر صاست سے سذ سز نسکزسا
کھڑکی میں سکونھی کے

فونٹ سائز 12 سے 18 استعمال کیا ہے۔ اور ایکسپوژر 1- ، 2- (پہلے سے موجود اردو کے تربیتی مواد سے کے ساتھ) نتائج، آئٹریشن پچیس ہزار
کوڈ:
کوٹھی کےآ ہنیگیٹ کیکھڑرکی میں اندرقدم رکھتے
ر دیاافسے نو زیادہ بہت ب ا
کھٹکی میں کوتھی کے
 

فلسفی

محفلین
دس ہزار آئٹریشنز کافی ہیں اتنی آئٹریشنز پر تو بہتر نتائج ہونے چاہئیں تھے۔ ٹریننگ امیجز پر کارکردگی کیسی تھی؟
اگلے تجربات میں فونٹ سائز میں ایک ویلیو 20 کی بھی شامل کر لیں۔ ایکسپوژر1 -بھی شامل کر لیں۔
نوری نستعلیق سے مشابہت رکھنے والا کوئی کریکٹر فونٹ بھی استعمال کیا جا سکتا ہےکریکٹر بیس باکس فائل جنریٹ کروانے کے لیے تاہم ایسا کوئی فونٹ پتہ نہیں ملتا بھی ہے کہ نہیں ۔
بہت دیر کردی مہرباں آتے آتے ۔۔۔
 
فونٹ سائز 12 سے 18 استعمال کیا ہے۔ اور ایکسپوژر 1- ، 2- (پہلے سے موجود اردو کے تربیتی مواد سے کے ساتھ) نتائج، آئٹریشن پچیس ہزار
زبردست سر! پہلی لائن میں سوائے ایک اضافی حرف کے تمام حروف درست ڈیٹیکٹ ہوئے۔ اب اسپیس والا مسئلہ باقی رہ جاتا ہے۔
خودکار جنریٹ ہونے والی باکس فائل میں اسپیس کی معلومات کئی جگہ غلط ہوتی ہے اور اسی وجہ سے اس لائن میں بھی اسپیس غلط ڈیٹیکٹ ہوئی۔
ٹیکسٹ ٹو امیج میں چند آپشن ہیں جن کی مدد سے حروف کی بجائے الفاظ کے باکسز بنتے ہیں، ان میں اسپیس کی معلومات تو درست ہوتی ہیں لیکن جہاں پہلے ہی لگیچرز کے نتائج کم ہوں تو الفاظ کی وجہ سے مزید مسئلہ بھی ہو سکتا ہے۔
 

فلسفی

محفلین
زبردست سر! پہلی لائن میں سوائے ایک اضافی حرف کے تمام حروف درست ڈیٹیکٹ ہوئے۔ اب اسپیس والا مسئلہ باقی رہ جاتا ہے۔
خودکار جنریٹ ہونے والی باکس فائل میں اسپیس کی معلومات کئی جگہ غلط ہوتی ہے اور اسی وجہ سے اس لائن میں بھی اسپیس غلط ڈیٹیکٹ ہوئی۔
ٹیکسٹ ٹو امیج میں چند آپشن ہیں جن کی مدد سے حروف کی بجائے الفاظ کے باکسز بنتے ہیں، ان میں اسپیس کی معلومات تو درست ہوتی ہیں لیکن جہاں پہلے ہی لگیچرز کے نتائج کم ہوں تو الفاظ کی وجہ سے مزید مسئلہ بھی ہو سکتا ہے۔
فیر کی کریے اے وی تے دسو

یعنی کیا کیا جائے؟
 

جاسم محمد

محفلین
فیر کی کریے اے وی تے دسو
یعنی کیا کیا جائے؟
اگر ٹیسرکٹ پر تمام تجربات فیل ہو رہے ہیں تو کوئی متبادل او سی آر انجن دیکھا جا سکتا ہے۔ یا ٹیسریکٹ ماہرین جو عربی و فارسی پر کافی عرصہ سے کام کر رہے ہیں سے رابطہ کرکے ان مسائل سے آگاہ کیا جا سکتا ہے۔
معلوم نہیں گوگل ویژن کے پس پردہ کونسا انجن کارفرما ہے۔ نیز ایک صاحب جو اس دھاگے میں اپنے او سی آر کی نمائش کرنے آئے تھے وہ کونسا انجن استعمال کر رہے ہیں۔ فی الحال تو ان دونوں کے نتائج ہی قابل قبول لگے ہیں۔
ٹیسریکٹ نسخ کی حد تک ٹھیک نتائج دے رہا ہے۔ جبکہ نستعلیق میں اب تک کے تجربات کے تناظر میں فیل ہے۔
 

فلسفی

محفلین
نیز ایک صاحب جو اس دھاگے میں اپنے او سی آر کی نمائش کرنے آئے تھے وہ کونسا انجن استعمال کر رہے ہیں۔

وہ بھی ٹیکسریٹ استعمال کر رہے ہیں۔ باکس فائلز کے بارے میں تفصیلا انھوں نے کچھ بتایا نہیں۔

ٹیسریکٹ نسخ کی حد تک ٹھیک نتائج دے رہا ہے۔ جبکہ نستعلیق میں اب تک کے تجربات کے تناظر میں فیل ہے۔

ایک تجربہ کامیاب رہا ہے۔ حروف والا اس کے لیے باکس فائلز مینویلی اپ ڈیٹ کرنی پڑیں گیں۔
 

جاسم محمد

محفلین
ایک تجربہ کامیاب رہا ہے۔ حروف والا اس کے لیے باکس فائلز مینویلی اپ ڈیٹ کرنی پڑیں گیں۔
ٹھیک ہے۔ اس سلسلہ میں دوست عباس اعوان اور دیگر ماہرین کی رائے بھی لے لیتے ہیں۔ اگر آٹومیشن سے کام نہیں چل رہا تو پھر مجبوراً لاہوری (کھوتا) اسٹائل ہی اپنانا پڑے گا۔
البتہ اس کے لئے پہلے مناسب ورک فلو، مین پاور اور اخراجات کا تفصیل سے جائزہ لینا ہو گا۔
پروجیکٹ فیز ابیلیٹی رپورٹ شائع کرنے کے بعد ہی تعین ہو سکے گا کہ اس پروجیکٹ کو آگے بڑھایا جائے یا یہیں پر زندہ درگور کر دیں :)
 

فلسفی

محفلین
ٹھیک ہے۔ اس سلسلہ میں دوست عباس اعوان اور دیگر ماہرین کی رائے بھی لے لیتے ہیں۔
جی بالکل ان کی رائے کا انتظار ہے۔ زہیر عبّاس بھی اگر کچھ کہنا چاہیں۔ لام الف صاحب اگر کوئی رائے دینا پسند فرمائیں؟

پروجیکٹ فیز ابیلیٹی رپورٹ شائع کرنے کے بعد ہی تعین ہو سکے گا کہ اس پروجیکٹ کو آگے بڑھایا جائے یا یہیں پر زندہ درگور کر دیں :)
حقیقت پسندی، حقیقت میں مجھے بہت پسند ہے۔
 
Top