اردو او سی ۔ ایک اہم پیش رفت

علوی امجد

محفلین
اردو او سی آر پر بہت سی تحقیقات هورهی هیں اور کئی دوست اس پر کام کررہے اور اچھی پیش رفت کررہے ہیں اورساتھ مجھے پورا یقین هے كه انشاء اللہ بہت جلد اردو او سی آر ایک حقیقت بن کر ابھرے گا۔
پچھلے چند دنوں میں نے مارکیٹ میں دستیاب انگلش کے چند سافٹ وئیر پر تجربات کئے اور خوش قسمتی سے بہت اچھا رزلٹ آیا۔ خصوصا Abbyy Fine Reader میں رزلٹ 90% آرہا ہے۔ اور میرا خیال ہے کہ اسی پر ہی مزید کام کیا جائے تو ہمیں ایک علیٰحدہ سے اوسی آر سافٹ وئیر بنانے کی شائد ضرورت نہ ہے۔
اگرچہ Abbyy والوں نے اپنے سافٹ وئیر میں اردو یا عربی کی سپورٹ بالکل نہیں ڈالی جس کی کمی بہت شدت سے محسوس ہوتی ہے۔ لیکن اگر ہم اس کے Pattern Editor میں اردو کو Read کروالیں‌ تو یہ ایک بہت اچھا او سی آر بن سکتا ہے۔ تھوڑی سے دماغ سوزی کے بعد میرے ذہن میں ایک طریقہ کار سمجھ آیا اور جب میں اس کو عملی جامہ پہنایا تو اللہ کے فضل سے بالکل ٹھیک نتیجہ آرہاہے۔ میں نے سوچا کہ کیوں نا آپ دوستوں کے ساتھ شیئر کروں شائد آپ لوگ اس کو مجھ سے بہتر کرلیں۔
میں اس وقت اس کا Version 8 Professional استعمال کررہا ہوں۔ جن دوستوں کے پاس ہے تو ٹھیک ورنہ Abbyy کی ویب سائٹ پر جاکر بآسانی ٹرائل ورزن ڈاؤن لوڈ کر سکتا ہے۔

سب سے پہلا کام تو یہ ہے کہ اردو زبان کو Abbyy میں read کروایا جائے۔ تو اس کے لئے طریقہ کار یہ ہے کہ اردو کی کوئی لفظی تصویر کو Abbyy میں کھول لیں۔ پھر Tools میں Language Editor میں جائیں۔
9c35d0d3c5fa11f4d2cacd6e869a2b3e6g.jpg
اور Main Language میں English کو سلیکٹ رہنے دیں اور New کا بٹن دبائیں۔

6355071ba4f214ed074653b613fda8726g.jpg

اب انگلش کو منتخب رکھتے ہوئے Create a new language based on existing one کا ریڈیو بٹن چیک کریں۔

905cf8e1f046c81303b6d296044000bb6g.jpg

اب Language کا نام دیں مثلا اردو اور ساتھ Alphabets کے آگے بنے ہوئے نقاط کو کلک کریں

2568e780638f7f4d9e5715583a6a6b3a6g.jpg

اور کوڈ پیج میں Arabic 1256 منتخب کرکے تمام ممکنہ اردو کیریکٹرز کو ایک ایک کرکے منتخب کریں۔ جو کہ نیچے موجود باکس میں نظر آتے رہیں گے۔

dddf5403be07f264836a9b412fb5e2c46g.jpg

جب تمام ممکنہ حروف منتخب ہوجائے تو OK کرکے باہر آجائیں ۔ تو آپ دیکھیں گے کہ User Defined Language میں اردو کا نام لکھا ہوا نظر آئے گا۔

c36d3de64370d1177dc3e3f2c5cf4fdc6g.jpg

یوں آپ کا پہلا مرحلہ مکمل ہوگیا یعنی Abbyy میں اردو زبان شامل ہوگئی۔
 

علوی امجد

محفلین
اب دوسرے مرحلہ میں اردو زبان کو read کروانا ہے۔ تو سب سے پہلے Read کے بٹن کے ساتھ بنے ہوئے چھوٹے سے Arrow کو کلک کرکے Option میں چلے جائیں۔

2596ea32d1e478f6118a304630116a6d6g.jpg

اور Recognition Language میں اردو کو منتخب کرنے کے بعد Train User Pattern کے ریڈیو بٹن کو منتخب کریں اور Pattern Editor کے بٹن کو منتخب کریں۔


84cf6bc47555322aed29a6cd8b2bb86e6g.jpg

اور نیا Pattern منتخب کرکے اس کو کوئی نام دے دیں۔
3b288b5ace394cd7b84479eed23630466g.jpg
 

علوی امجد

محفلین
ابok کرکے باہر آجائیں اور Read کے بٹن کو منتخب کریں۔
تو Pattern Training شروع ہوجائے گی۔

e2fa61af66a4730a9e9a08aaba9e74966g.jpg

اگر چاہیں تو پورا لیگیچر منتخب کریں یا پھر ایک ایک کریکٹر ۔ میں نے پورا لیگیچر منتخب کیا جیسے


6ff063993e6364597e80036e8f0b451e6g.jpg


اور ساتھ نیچے اس کی یونی کوڈ ویلیو دے دی۔
 

علوی امجد

محفلین
04081a0528fc0d1f355f103e1a0b262b6g.jpg

جب آپ ساری ٹریننگ پوری کرلیں گے تو Abbyy اس کو Read کرلے گا اور الفاظ ساتھ والی Window میں دکھائی دے گی۔

6d55a757b59713ddfc44508985d4e6396g.jpg

اب ان الفاظ کو منتخب کریں اور MS Word میں پیسٹ کرکے علوی نستعلیق فانٹ لگا لیں۔

6e5e680cbd012592b9bab106ebecba926g.jpg
 

علوی امجد

محفلین
یہاں پر آپ کو ایک چیز نظر آئے گی کہ الفاظ تو الٹے ہیں ۔ تو اس کے لئے یہی ہے کہ آپ الفاظ کی Mirror تصویر کو لے کر Read کروائیں۔
جیسے

935728c41d0d07d33c67082367c41b786g.jpg

اس کو Pattern Training میں Train کروائیں اور Read کروا لیں۔ اب ایم ایس ورڈ‌میں لائیں گے تو نتیجہ ایسا نظر آئے گا۔

39a089caf193e42ddf234e455823546e6g.jpg
 

علوی امجد

محفلین
میں نے اس کو پورے پیراگراف میں بھی استعمال کیا ہے۔ اور بعض انتہائی قریب قریب موجود لیگیچرز پر بھی تجربات کئے ہیں۔ جس کا رزلٹ مجھے تقریبا 90% ملا ہے۔ جو کہ میرے خیال میں ایک نہایت خوش آئند خبر ہے۔
باقی اس محفل پر بہت سے ذہین لوگ موجود ہیں یقینا وہ اس کو مجھ سے بھی بہتر استعمال کرسکتے ہیں۔ وہ اس سافٹ وئیر کو استعمال کریں اپنے تجربات کو دوسروں کے ساتھ شیئر کریں ۔ تو بہت سی چیزیں دریافت ہوں گی۔ نتیجتاً مجھے یقین ہے کہ انشاء اللہ بہت جلد ہم ایک مکمل اردو او سی آر تک ضرور پہنچیں گے۔
 

علوی امجد

محفلین
یہاں میں ایک بات بتانا بھول گیا کہ آپ Tools میں Pattern Editorمیں جاکر اپنے بنائے گئے Pattern کو Edit بھی کرسکتے ہیں۔ اور اپنے تمام Images کو ترتیب میں بھی رکھ سکتے ہیں۔
 

علوی امجد

محفلین
اس کے موضوع میں اردو او سی تو لکھا گیا لیکن وہ آخری "آر" رہ گیا ۔ میں نے کوشش تو کی ہے لیکن قطع و برید میں عنوان دوبارہ نہیں آرہا ہے۔ کیا کوئی اس کو اردو او سی آر کردے گا۔
 

فاتح

لائبریرین
یہ تو دھماکے دار خبر دی ہے آپ نے۔ خیال رکھیے کہیں اتنے دھماکوں‌پر آپ مشکوک افراد کی فہرست میں نہ آ جائیں۔
اپنے شروع کیے ہوٕے دھاگوں کے عنوان آپ خود بھی تبدیل کر سکتے ہیں۔ بلکہ عناوین کی فہرست میں اس دھاگے کے عنوان پر ڈبل کلک کر کے بھی ایسا کر سکتے ہیں۔
 

علوی امجد

محفلین
یہ تو دھماکے دار خبر دی ہے آپ نے۔ خیال رکھیے کہیں اتنے دھماکوں‌پر آپ مشکوک افراد کی فہرست میں نہ آ جائیں۔
اپنے شروع کیے ہوٕے دھاگوں کے عنوان آپ خود بھی تبدیل کر سکتے ہیں۔ بلکہ عناوین کی فہرست میں اس دھاگے کے عنوان پر ڈبل کلک کر کے بھی ایسا کر سکتے ہیں۔


آخر رہتے تو ہم دھماکوں والے دیس میں ہی ہیں۔۔۔۔ میرا خیال ہے کہ اب آپ لوگ کو بھی اس کا عادی ہوجانا چاہیئے۔

باقی میں چیک کرتا ہوں کہ یہ عناوین کی فہرست کہاں پر ہوگی!!!!!!!!
 
ماشاء اللہ وہ کام جو ابھی دوسرے صرف سوچ رہے تھے آپ کر دکھا ۔ مبارک اسے جاری رکھے گا۔ درمیان نہیں چھوڑنا ۔ اللہ کانام لیں اورجاری رکھیں۔
 

باذوق

محفلین
Readiris کے مڈل ایسٹ ورژن پر چیک کر کے دیکھا گیا تو عربی تحریر کو تو یونیکوڈ میں ضرور منتقل کرتا ہے لیکن اردو کو درست منتقل نہیں کرتا۔
شائد فونٹ ہی کا مسئلہ ہے۔

علوی امجد بھائی ، آپ کا بہت بہت شکریہ کہ اس نئے سافٹ وئر سے متعارف بھی کروایا اور تفصیل بھی بتائی۔
لیکن سوال یہ ہے کہ کیا اس سافٹ وئر میں علوی نستعلیق کے تمام لگیچرز کو manually شامل کرنا پڑے گا؟
اور اگر کوئی فرد تمام لگیچرز کو شامل کر بھی دے تو کیا یہ پیٹرن فائل دوسرے کمپیوٹر میں منتقل کی جا سکے گی ؟؟
 

علوی امجد

محفلین
Readiris کے مڈل ایسٹ ورژن پر چیک کر کے دیکھا گیا تو عربی تحریر کو تو یونیکوڈ میں ضرور منتقل کرتا ہے لیکن اردو کو درست منتقل نہیں کرتا۔
شائد فونٹ ہی کا مسئلہ ہے۔

علوی امجد بھائی ، آپ کا بہت بہت شکریہ کہ اس نئے سافٹ وئر سے متعارف بھی کروایا اور تفصیل بھی بتائی۔
لیکن سوال یہ ہے کہ کیا اس سافٹ وئر میں علوی نستعلیق کے تمام لگیچرز کو manually شامل کرنا پڑے گا؟
اور اگر کوئی فرد تمام لگیچرز کو شامل کر بھی دے تو کیا یہ پیٹرن فائل دوسرے کمپیوٹر میں منتقل کی جا سکے گی ؟؟

Readirisكو میں نے استعمال كیا هے وه عربی كو بھی صحیح طور پر شناخت نهیں كرتا اردو نستعلیق تو دور كی بات ھےۨ
Abbyy Fine Reader كو میں نه صرف انگلش كے لئے استعمال كررھا هوں بلكه اب اردو كی بصری شناخت كے لئے بھی استعمال كرنا شروع كیا هےۨ۔
كسی بھی او سی آر میں اصل فائل اس میں الفاظ كے پیٹرن كا ڈیٹا بیس هےۨ ایك دفعه اگر آپ ممكنه اشكال كو ڈیٹا بیس میں شامل كردیں تو وه پھر دوباره ړPattern Recognize كروانے كی ضرورت نهیںۨ پیش آئے گی۔
اس کا ٰImages کی فائل
C:\Documents and Settings\Administrator\Local Settings\Temp\Untitled1
كے فولڈر میں بنتی هے جس كو آپ باآسانی كاپی كركے كسی بھی كمپیوٹر میں لے جاسكتے هیں اور مزے كی بات ھے كه یه بهت كم سائز كی فائل بناتا هے۔ اس وقت تمام عربی OCR میں سب سے بہتر یہ نان عربیک OCR ہے۔
 
اس وقت تمام عربی OCR میں سب سے بہتر یہ نان عربیک OCR ہے
عربی او سی آر میں اس وقت سب سے بہتر Novodynamics کا Verus اور صخر کا القاری الالی ہے ۔ میں خود صخر کا او سی آر استعمال کر رہا ہوں اور اس کا رزلٹ تقریبا سو فیصد ہے۔یہ اردو اور فارسی کو بھی سپورٹ کرتا ہے تاہم اردو فارسی سپورٹ الگ سے دستیاب ہے جو فی الحال میری دسترس میں نہیں ہے۔
 

دوست

محفلین
ایبی فائن ریڈر واقعی کلاس کی چیز ہے۔ پچھلے دو سال سے اسے کارپس بنانے کے لیے استعمال کررہا ہوں‌ اور اس کا انگریزی نتیجہ 99 فیصد ہوتا ہے۔ ورژن نو میں گرامر کی غلطیاں‌ بھی دکھائی جاتی ہیں۔ آپ کا طریقہ کار پسند آیا اس پر مزید کام کیا جائے تو اردو کا او سی آر واقعی بن سکتا ہے۔ اس سلسلے میں متعلقہ کمپنی سے بھی بات کرلی جائے تو کیا کہنے۔ ٹریننگ ہم مہیا کردیتے ہیں سپورٹ وہ شامل کردیں۔ اور جاری کردیں‌ تو صارفین کا بھلا ہوجائے۔ مزید پیچ وغیرہ کی‌ضرورت بھی ہو تو وہ لوگ یہ کرسکتے ہیں۔ لیکن چلنے پھر وہی کریک ہی ہیں خریدے گا کون۔:cool:
 
علوی صاحب آپ کا تجربہ بہت مفید ہے۔ میرے کچھ سوالات ہیں:

۔ آپ کے اندازے کے مطابق علوی فونٹ کی مکمل ٹریننگ کے لیے کتنی سعی درکار ہوگی۔
۔ کیا یہ ٹریننگ علوی فونٹ سے جڑ جائے گی یا دوسرے فونٹ پر مشتمل دستاویزات کے لیے بھی کارآمد ہوگی؟
 

علوی امجد

محفلین
علوی صاحب آپ کا تجربہ بہت مفید ہے۔ میرے کچھ سوالات ہیں:

۔ آپ کے اندازے کے مطابق علوی فونٹ کی مکمل ٹریننگ کے لیے کتنی سعی درکار ہوگی۔
۔ کیا یہ ٹریننگ علوی فونٹ سے جڑ جائے گی یا دوسرے فونٹ پر مشتمل دستاویزات کے لیے بھی کارآمد ہوگی؟

جی ہاں یہ کسی بھی فانٹ اور کسی بھی نستعلیقی رسم الخط (لاہوری، دہلوی وغیرہ) کے ساتھ کام کرسکتی ہے۔ صرف ایک دفعہ Pattern کو شناخت کروانے کی بات ہے۔ میرا خیال تھا کہ اگر ایک دفعہ دو تین رسم الخط کا ڈیٹا بیس بن جائے تو کاآمد ہے۔

جہاں تک ایک فونٹ کی مکمل ٹریننگ کی بات ہے تو وہ لازمی بات ہے وقت لیتی ہے۔ لیکن اگر ہم بجائے پورے لیگیچرز کو شناخت کروانے کے صرف انفرادی، ابتدائی، درمیانی اور اختتامی اشکال کا ڈیٹا بیس بنا لیں تو بھی ممکن ہے کہ نسبتاکم رزلٹ کے حصول کے ساتھ ایک چھوٹا ڈیٹابیس بنالیں۔ میں اس پر کام کررہا ہوں امید ہے یہ تجربہ بھی کامیاب ہوجائےگا۔ انشاءاللہ
 

محسن حجازی

محفلین
تصویر کو الٹانے کی بجائے حاصل شدہ string کو reverse کر لیا جائے تو کافی رہے گا۔
میری رائے میں یہ محض دہلوی روش پر کام کر پائے گا۔
حرفی بنیاد پر تو حروف کو دکھانا ہی ممکن ثابت نہیں ہو رہا تو پڑھنا تو دور کی بات ہے۔
پاک نستعلیق کے تجربے سے میں نے یہ سیکھا کہ نستعلیق میں محض لفظ کی درمیانی یا ابتدائي شکل دیکھ کر حرف کی بابت فیصلہ نہیں کیا جا سکتا کیوں کہ نقطہ جات لازم نہیں کہ اس شکل کے عین اوپر ہوں۔
نستعلیق کی حرفی پیچیدگیوں کے سبب ہی پاک نوری نستعلیق کا تجربہ کیا گیا تھا۔
 
Top