NabOCR عربی اردو کا او سی آر

hackerspk

محفلین
السلام علیکم،
پروگرامر (فیصل)نے اردو عربی کے لیے اسے بنایا ہے۔ اور ساتھ یہ بھی کہا ہے کہ اس میں مرضی کی شکلیں شامل کی جا سکتی ہیں۔ ڈاٹ نیٹ اور جی ٹی کے + انسٹالر انسٹال کرنے کے بعد اسے استعمال کر سکتے ہیں۔ الفا ورژن ہے اگر پروگرامر کی مناسب حوصلہ افزائی کی جائے تو شاید کہ بہار آئے۔
http://urduocr.com/index.html
 

hackerspk

محفلین
متن کو رکگنائز تو اس نے نہیں کیا مگر مزیدار بات یہ ہے کہ اس میں او سی آر کی ابتدائی خصوصیات موجود ہیں۔ اگر اس پر دو چار ماہ کام کیا جائے تو ہمارا مطلوبہ رزلٹ مل سکتا ہے۔ پروگرامر نے یہ بھی کہا ہے کہ اس میں لگیچر خود سے شامل کیے جا سکتے ہیں۔
 

محمد اسلم

محفلین
جزاک اللہ

اب لگتا ہے آپ بالکل ٹھیک ہوگئے ہیں،،،
اللہ اور ترقی دے
ویسے کام کیا جائے کا کیا مطلب ہے؟
 

hackerspk

محفلین
مطلب کہ اس سافٹ وئیر پر محنت کی جائے پروگرامر کو اور کچھ نہیں تو اس کی حوصلہ افزائی کی جائے تاکہ وہ اس کام کو جاری رکھے۔ میرے ابتدائی تجربوں میں اس نے "اکتو" "جہا" "ہوتی" "کے" اور بہت سے دوسرے الفاظ کو نستعلیق رسم الخط میں ٹھیک رکگنائز کیا ہے۔ تو لگتا ہے کہ شاید یہ سافٹ وئیر اردو کے لیے نیا در کھول دے۔
 
اس میں جو اسکرین شاٹ موجود ہیں اس سے تو یہی لگتا ہے کہ ایسے متن پر کام کرے گا جس کے لگیچرز کو بغیر دوسرے قریبی لگیچرز کے ساتھ اوور لیپ کے علیحدہ علیحدہ مستطیل باکس میں گھیرا جا سکے۔ اور یہی بنیادی بات اردو میں نہیں ہوتی (ہاں نسخ اردو کو پروسیس کیا جائے تو بات اور ہے)۔ لیکن پرانی کتبایں جن کو او سی آر سے گذارنا سب سے زیادہ کار آمد ہے وہ ہاتھ سے نستعلیق خط میں لکھی گئی ہیں وہ بھی بہت زیادہ کرننگ کے ساتھ۔ ہم نے کسی زمانے میں صفحات پر شئیر فورس لگا کر اردو متن کے جھکاؤ کو کم کرنے کی کوشش کی تک لیکن کوئی خاص فرق نہیں پڑا تھا۔ اگر ایسا ہو جاتا تو ایک عدد اوپن سورس او سی آر انجن ٹیس ایریکٹ کے نام سے زمانے سے موجود ہے۔ :) :) :)
 

hackerspk

محفلین
سعید بھائی آپ اسے ڈاؤنلوڈ کر کے چیک کریں۔ پروگرامر نے نستعلیق خط کے لیے خاص طور پر کام کیا ہے۔ اس کے ایک ورژن میں ٹیس ایریکٹ کا انجن بھی استعمال کیا ہے۔ جس میں عربی کا او سی آر بہت عمدہ کام کر رہا ہے۔
 

نبیل

تکنیکی معاون
میں نے اس سوفٹویر کو کچھ روز قبل ڈاونلوڈ کیا تھا لیکن اسے ٹیسٹ کرنے کا وقت نہیں ملا تھا۔ میرا جہاں تک خیال ہے اس سوفٹویر میں بھی tesseract کا انجن استعمال کیا گیا ہے۔ ٹیسریکٹ میں عربی اور شاید اردو ریکگنائز کرنے کی فیچر موجود ضرور ہے لیکن اس کے لیے گوگل کی جانب سے کوئی ٹریننگ ڈیٹا فراہم نہیں کیا گیا ہے۔ میرے ذہن میں ایک آئیڈیا ضرور موجود ہے کہ اردو کے تمام معلوم ترسیمہ جات کے امیج جنریٹ کرکے ان کے گرد باکس ڈرا کرکے ان کے کوآرڈینیٹس اور سائز محفوظ کر لیے جائیں۔ اس طرح کم ز کم اردو کے لیے ٹریننگ ڈیٹا ضرور دستیاب ہو جائے گا جسے اگلے مرحلے میں استعمال کیا جا سکے گا۔
 
میں نے اس سوفٹویر کو کچھ روز قبل ڈاونلوڈ کیا تھا لیکن اسے ٹیسٹ کرنے کا وقت نہیں ملا تھا۔ میرا جہاں تک خیال ہے اس سوفٹویر میں بھی tesseract کا انجن استعمال کیا گیا ہے۔ ٹیسریکٹ میں عربی اور شاید اردو ریکگنائز کرنے کی فیچر موجود ضرور ہے لیکن اس کے لیے گوگل کی جانب سے کوئی ٹریننگ ڈیٹا فراہم نہیں کیا گیا ہے۔ میرے ذہن میں ایک آئیڈیا ضرور موجود ہے کہ اردو کے تمام معلوم ترسیمہ جات کے امیج جنریٹ کرکے ان کے گرد باکس ڈرا کرکے ان کے کوآرڈینیٹس اور سائز محفوظ کر لیے جائیں۔ اس طرح کم ز کم اردو کے لیے ٹریننگ ڈیٹا ضرور دستیاب ہو جائے گا جسے اگلے مرحلے میں استعمال کیا جا سکے گا۔
ٹریننگ ڈاٹا سے زیادہ ضروری اسکین شدہ مواد میں گلفس کو علیحدہ کرنا مشکل مسئلہ ہے! :) :) :)
 

arifkarim

معطل
ٹریننگ ڈاٹا سے زیادہ ضروری اسکین شدہ مواد میں گلفس کو علیحدہ کرنا مشکل مسئلہ ہے! :) :) :)
ہاتھ سے لکھی گئی کتب کو آپ ڈیجیٹل او سی آر کیلیے استعمال نہیں کر سکتے۔ بس!
ڈیجیٹل اردو جیسے انپیج وغیرہ میں ٹائپ شدہ کتب کیلئے او سی آر یقیناً کرے گا لیکن شرط یہ ہے کہ تمام لگیچرز پہلے سے ڈیٹا بیس میں موجود ہوں۔ او سی آر اس چیز کا محتاج نہیں کہ الفاظ و لگیچرز کا آپس میں فاصلہ کتنا ہے۔ جب تک الفاظ ایک دوسرے کے اوپر پر نہیں چڑ ھ رہے، اسوقت تک ایک قابل استعمال او سی آر کو ڈیٹابیس کے مطابق متن تلاش کرنا چاہئے۔
 

hackerspk

محفلین
میں نے پروگرامر کو ای میل کی ہے اور اس فورم کا ربط لکھ بھیجا ہے شاید وہ ادھر متوجہ ہوں۔
 
Top