اردو میں کوئی شناخت برائے بصری الفاظ Ocr کا سوفٹویئر موجود ہے؟؟؟

نبیل · فروری 13، 2008

شکریہ جواد۔ اگرچہ یہ کافی بنیادی نوعیت کی بصری شناخت ہے، لیکن یہ بطور ایک پروف آف کانسپٹ کے استعمال کی جا سکتی ہے۔ آپ نے جو تصویری متن استعمال کیا ہے، اس میں ترسیمے واضح طور پر الگ الگ ہیں اور نسبتاً سادہ ہیں۔غالبا اسی وجہ سے ان کی شناخت ممکن ہوئی ہے۔ میں نے کچھ عرصہ قبل امیج پراسیسنگ کے ماہرین سے اس سلسلے میں بات کی تھی اور انہوں نے کافی مفید باتیں بھی بتائی تھیں۔ اگر اس فیلڈ میں کچھ کام کرنے والے سامنے آ جائیں تو کچھہی عرصے میں حوصلہ افزا نتائج سامنے آ سکتے ہیں۔

میں نے یہ تھیسس ڈیویلپ کیا تھا کہ اگر لگیچرز کی ایک ڈیٹابیس بن جائے تو تصویری متن کو پہلے افقی (horizontal) سمت میں پروسیسنگ کرکے اس کی سطور کو علیحدہ کیا جا سکتا ہے اور اس کے بعد ان سطور کو عمودی (vertical) سکیننگ کے ذریعے ترسیموں میں علیحدہ کیا جا سکتا ہے۔ اس طرح تصویری متن کے ترسیمہ جات تصویری شکل میں ہو جائیں گے جنہیں بصری شناخت کے مرحلے سے گزارا جا سکتا ہے۔ اس تھیسس کا سب سے بڑا مسئلہ یہ assumption ہے کہ تصویری متن کی سطور اور ہر سطر میں ترسیمہ جات کے مابین کچھ نہ کچھ سپیس ہے جس کی بدولت انہیں سادہ پروسیسنگ سے علیحدہ کرنا ممکن ہو سکتا ہے۔ لیکن جب میں نے تصویری اردو کے نمونے دیکھے تو معلوم ہوا کہ اکثر صورتوں میں یہ مفروضہ غلط ثابت ہوتا ہے۔ عام طور پر تصویری اردو کے نمونوں میں عبارت کافی تنگ نظر آتی ہے جس کی وجہ سے ک کی کشش پچھلے لفظ کے اوپر آ رہی ہوتی ہے اور اسی طرح سطور کے درمیان بھی سپیس نہیں ملتی۔ اس طرح اگرچہ تصویری متن سے ترسمیہ جات کا حاصل کرنا ناممکن نہیں ہو جاتا لیکن کم از کم سادہ پیٹرن ریکگنیشن سے ان کا حصول ممکن نہیں رہتا۔ اس کے لیے edge detection جیسے پروسیجر ہی کام دے سکتے ہیں جس پر کوئی امیج پراسیسنگ کے ماہر ہی کام کر سکتے ہیں۔

ایک طریقہ یہ اپنایا جا سکتا ہے کہ شروع میں ایسے ہی تصویری متن پر کام کیا جائے جو کہ مذکورہ بالا مفروضے پر پورا اترتا ہو، یعنی کہ اس کی سطور اور الفاظ کے درمیان کچھ نہ کچھ سپیس ضرور ہو۔ اس طرح کم از کم تحقیق آگے ضرور بڑھتی رہے گی۔ اگر اس میں کامیابی حاصل ہو جاتی ہے تو مزید پیچیدہ پرابلمز کو حل کرنے پر بھی غور کیا جا سکتا ہے۔

زیک · فروری 13، 2008

امیج پراسسنگ کے ماہر ہونے کا دعوٰی کرتے ہوئے مجھے اس موضوع پر بہت کچھ کہنا اور کرنا ہے مگر ابھی کچھ ماہ میں شدید مصروف ہوں۔

قیصرانی · فروری 13، 2008

jawad101 نے کہا:
سلام: چند ہفتے پہلے بھی میں نے Tesseract OCR کے متعلق بتایا تھا۔ اس میں لگیچر استعمال ہوتے ہیں۔اس میں ابھی اردو /عربی کی سپورٹ تو نہیں ہے۔ لیکن اگر آپ اپنا دل خوش کرنا چاہتے ہیں تو یہ رزلٹ دیکھیں۔

اور میرا کام اس فائل میں ہے۔
2.8mb Tesseract.rar
ّ(اس لنک کو ڈاون لوڈ منیجر سے ڈاون لوڈ کر سکتے ہیں۔resume کے ساتھ)
http://www.fileden.com/files/2008/2/13/1757067/Tesseract.rar
abc1.bat کی فائل کو چلاہیں گے تو وہ abc1.tif کو سکین کر کے abc1.txt کی فائل بنائے گا۔
اس کا لگیچر کو شامل کرنے کا طریقہ کچھ مشکل ہے، لیکن اگر کہیں گے توتمام طریقہ بھی بتا دوں گا۔
جواد

لیگیچر شامل کرنے کا طریقہ بتا دیں

jawad101 · فروری 14، 2008

سلام:اس پروگرام میں ocrکے لیے سب سے پہلے الفاظ کا ڈیٹا بیس بنانا پڑتا ہے۔ اور ان کی تربیت کرنی پڑتی ہے۔
ان پیج میں کچھ الفاظ سپیس دے کر لکھیں۔ اور پھر ان الفاظ کو ایک bmp فائل میں save کر لیں، اب کسی پروگرام سے bmp فائل کو uncompress TIF میں کنورٹ کر لیں۔ آپ صرف ان پیج ہی نہیں، بلکہ پاک نستعلیق یا اور فونٹس بھی استعمال کر سکتے ہیں، ہاتھ کی لکھائی کا بھی یہی طریقہ ہے۔
اب اُس tif فائل کو abc.tif سے rename کر کے Tesseract کے فولڈر میں رکھ دیں۔ اور 1.bat فائل چلا ئیں ۔ اس فائل کو چلانے کے بعد آپ کو ایک نئی فائل ملے گی abc.txt ۔ جو اس طرح سے نظر آئے گی
J 28 164 43 187
a 80 162 123 187
y 161 147 204 178
l 242 163 246 195
y 298 152 330 192
w 382 162 421 200
/ 419 198 440 213
Q 506 148 522 198
اب ایک اور پروگرام bbTesseract.exe چلائیں (یہ پروگرام نیٹ فریم ورک میں بنا ہے)اور abc.txt فائل کو لوڈ کریں ۔ آپ دیکھ سکھتے ہیں کہ Tesseract OCR نے اردو الفاظ کو کس طرح detect کرنے کی کوشیش کی ہے۔ کستا اور پا کے الفاظ صحیح طرح سے استعمال نہیں کر سکا۔ آپ کو ان الفاظ کو ٹھیک کر نا پڑے گا۔ جیسےپا کے لیے bottom کی ولیو زیادہ کرنی پڑے گی۔ کستا کو دو لگیچر میں detect کیا گیا ہے۔ اسے ٹھیک کرنے کے لیے کستا کی ڈنڈی کو ڈلیٹ کر دیں، اور پھر کستاکے top اور right ولیوز کو زیادہ کر کے پورے باکس میں کستا کا لفظ لائیں۔ تمام الفاظ ٹھیک کرنے کے بعد ان تبدیلوں کو Save txtfile سےدوبارہ محفوظ کریں، اور Save Box کے آپشن سے ایک نئی فائل abc.box میں بھی محفوظ کر لیں۔
Tesseract نے اردو الفاظ کی جگہ اپنی طرف سے انگلش الفاظ لگائے ہیں۔ آپ کو ان انگلش الفاظ کی جگہ اردو الفاظ شامل کرنے ہوں گے۔ notepad میں abc.box فائل کو لوڈ کر یں،اور انگلش لفظ کو ڈلیٹ کر کے اس کی جگہ اردو لفظ لکھیں۔ یہ بات ذہن میں رکھیں کہ جب آپ اردو لفظ لکھیں گے تو اردو لفظ، لائن کے آخر میں نظر آئے گا، لیکن حقیقت میں یہ لفظ شروع میں ہی ہے۔ اس طرح تمام اردو لفظ لکھ دیں۔ ایک اور بات، یہ فائل utf-8 کے فارمیٹ میں ہونی چاہیے۔
د 28 164 43 187
ت 80 162 123 187
ب 161 147 204 178
ا 242 163 246 195
ن 298 152 330 192
کستا 382 162 441 212
پا 506 139 522 199
abc.box میں اردو الفاظ شامل کرنے کے بعد اس فائل کو محفوظ کر لیں۔ اسی فولڈرمیں کو دو txt فائلیز بھی نظر آئیں گئیں۔
frequent_words_list.txt
words_list.txt
آپ کو یہ کرنا ہو گا کہ آپ نے جن اردو الفاظ کو abc.box میں شامل کیا ہے۔ انہیں الفاظ کو ان دونوں فائلز میں لکھ دیں۔ہر لائن میں ایک اردو لفظ لکھیں گے،اور صرف اردو لفظ۔ یہ دونوں فائلز بھی utf-8 فارمیٹ میں ہونی چاہیے۔
د
ت
ب
ا
ن
کستا
پا
اب 2.bat فائل چلائیں۔ اس فائل میں دو پروگرامزwordlist2dawg.exe اور wordlist2dawg.exe بہت زیادہ وقت اور میموری لیں گے۔
اب آپ نے اپنے الفاظ کی ایک ڈیٹا بیس بنا لی ہے۔ abc.bat اور abc1.bat کی فائلز چلا کر دیکھیں ، کہ کیا آپ کے الفاظ ocr نے سکین کیے ہیں۔ ان دونوںch bat فائلز کے رزلٹ abcc.txt اور abc1.txt میں محفوظ ہوں گے۔
اس پروگرام کو استعمال کرنے کے طریقہ کی یہ swf ویڈیو بھی ڈاون لوڈ کر کے دیکھیں
Tesseract.swf 8mb
http://www.mediafire.com/?ezkws5saijb

دوست · فروری 14، 2008

نوری نستعلیق کے لگیچرز کی ڈیٹابیس کے لیے ڈیٹا تو کرلپ والوں کے ہاں موجود ہے۔ انھوں نے ان بیس ہزار یا کم و بیش ان لگیچرز کو یونیکوڈ میں لکھ کر لسٹ جاری کردی ہے۔

الف نظامی · فروری 14، 2008

jawad101 نے کہا:
اس کا لگیچر کو شامل کرنے کا طریقہ کچھ مشکل ہے، لیکن اگر کہیں گے توتمام طریقہ بھی بتا دوں گا۔
جواد

زبردست جواد۔

محب علوی · فروری 14، 2008

زیک نے کہا:
امیج پراسسنگ کے ماہر ہونے کا دعوٰی کرتے ہوئے مجھے اس موضوع پر بہت کچھ کہنا اور کرنا ہے مگر ابھی کچھ ماہ میں شدید مصروف ہوں۔

زیک کچھ تو لکھو کہ گلشن کا کاروبار چلے

الف نظامی · فروری 14، 2008

jawad101 نے کہا:
ان پیج میں کچھ الفاظ سپیس دے کر لکھیں۔ اور پھر ان الفاظ کو ایک bmp فائل میں save کر لیں، اب کسی پروگرام سے bmp فائل کو uncompress TIF میں کنورٹ کر لیں۔ آپ صرف ان پیج ہی نہیں، بلکہ پاک نستعلیق یا اور فونٹس بھی استعمال کر سکتے ہیں، ہاتھ کی لکھائی کا بھی یہی طریقہ ہے۔

ایک اطلاقیہ بناتا ہوں جو کرلپ کے مہیا کردہ تمام ترسیمہ جات کو تصویری شکل میں منتقل کردے۔

arifkarim · فروری 14، 2008

جی جی بہت اچھا کام کر رہے ہیں جناب۔ شکریہ جواد بھائی!

محمد عویدص عطاری · فروری 14، 2008

یہ کیا چیز ہے کچھ اس کے بارے میں پڑھا ہے آپ نے؟
http://www.abbyy.com/sdk/

والسلام علیکم ورحمۃ اللہ وبارکۃ۔

محمد عویدص عطاری · فروری 14، 2008

کرلپ والو کے تمام لیگچرز ان پیچ میں ۔
تمام حروف کی الگ الگ فائل ان پیچ فارمیٹ میں
والسلام علیکم ورحمۃ اللہ وبارکۃ

دوست · فروری 15، 2008

محمد عویدص نے کہا:
یہ کیا چیز ہے کچھ اس کے بارے میں پڑھا ہے آپ نے؟
http://www.abbyy.com/sdk/

والسلام علیکم ورحمۃ اللہ وبارکۃ۔

یہ ان کی سافٹویر ڈویلپمنٹ کٹ ہے۔ جس کو استعمال کرکے لینکس اور میکنٹوش میں او سی آر بنائے جاسکتے ہیں۔ لیکن یہ قیمتًا دستیاب ہوگی لازمًا۔۔۔ورنہ لینکس والے اس کو اٹھا کر او سی آر نہ بنا ڈالتے۔ اردو کے لیے نہیں ہے یہ۔

محمد عویدص عطاری · فروری 15، 2008

دوست نے کہا:
یہ ان کی سافٹویر ڈویلپمنٹ کٹ ہے۔ جس کو استعمال کرکے لینکس اور میکنٹوش میں او سی آر بنائے جاسکتے ہیں۔ لیکن یہ قیمتًا دستیاب ہوگی لازمًا۔۔۔ورنہ لینکس والے اس کو اٹھا کر او سی آر نہ بنا ڈالتے۔ اردو کے لیے نہیں ہے یہ۔

ہممممم۔ بہت بہت شکریہ ۔ میں سمجھا شاید اس کی مدد سے ہم ocr پروگرام کو Customize کر سکتے ہے ۔ تو کچھ اردو کا بھی کام بن جائے ۔ لیکن یہ تو کچھ اور ہی چیز نکلی ۔
شکریہ والسلام
والصلوۃ والسلام علیک یارسول اللہ

zeteticinksa · مئی 24، 2008

Great Thread

Unfortunately OCR is still a far way off for urdu.

arifkarim · مئی 24، 2008

zeteticinksa نے کہا:
Unfortunately OCR is still a far way off for urdu.

بھائی یہ اردو فارم ہے۔ آپ ہر جگہ انگلش کیوں لکھتے ہو؟؟؟؟

ایک پاکستانی · جولائی 14، 2008

اچھی گفتگو ہوئی ہے اس موضو پر۔ لیکن کیا کسی جانب سے کوئی پیشرفت بھی ہوئی ہے؟

الف نظامی · جولائی 15، 2008

محمد عویدص نے کہا:
کرلپ والو کے تمام لیگچرز ان پیچ میں ۔
تمام حروف کی الگ الگ فائل ان پیچ فارمیٹ میں
والسلام علیکم ورحمۃ اللہ وبارکۃ

محمد عویدص کیا آپ یہ مسل دوبارہ یہاں رکھ سکتے ہیں ، کیونکہ دیے گئے ربط پر یہ موجود نہیں۔

ذیشان سکندر · اکتوبر 6، 2008

آج بہت دنوں‌بعد اس فورم میں آنا ہوا۔ کیااردو "اوسی آر" پہ کچھ پیشرفت ہو ئی؟

دوست · اکتوبر 7، 2008

نہیں بھائی۔۔۔ مسئلہ ہنرمندی اور وقت کی کمی ہے۔

arifkarim · اکتوبر 7، 2008

دوست نے کہا:
نہیں بھائی۔۔۔ مسئلہ ہنرمندی اور وقت کی کمی ہے۔

او سی آر پر محسن حجازی بھائی نے بھی مقتدرہ کے اندر کام کیا تھا۔ شاید وہاں کے ''موجودہ'' ارکان اس بارے میں کچھ بتا سکیں۔۔۔۔۔

اردو میں کوئی شناخت برائے بصری الفاظ Ocr کا سوفٹویئر موجود ہے؟؟؟

تکنیکی معاون

ایکاروس

لائبریرین

محفلین

محفلین

لائبریرین

لائبریرین

لائبریرین

معطل

محفلین

محفلین

محفلین

محفلین

محفلین

معطل

محفلین

لائبریرین

محفلین

محفلین

معطل