اردو او سی آر

نبیل · جولائی 12، 2006

میں جانتا ہوں کہ کئی دوست اس موضوع کو دیکھ کر ہی سر ہلا دیں کہ ایسا ہونا ناممکن ہے لیکن میرے خیال میں یہ ہرگز ناممکن نہیں ہے۔ صرف اس سمت میں کام کرنے کے لیے بہت وقت اور ریسورسز کی ضرورت ہوگی۔ ایسی اطلاعات بھی ہیں کہ فاسٹ اور انجینیرنگ یونیورسٹی لاہور کے سٹوڈنٹس نے اس سمت میں کچھ کام کیا ہوا ہے۔ یہ کام غالباً تجارتی انٹرسٹس کی وجہ سے پبلک نہیں کیا گیا۔ ویسے لگتا نہیں کہ یہ سوفٹویر کمرشل بھی کیا گیا ہے۔ یہ افسوسناک صورتحال ضرور ہے لیکن اس پر کام ختم نہیں ہو جانا چاہیے۔ میری دانست میں اردو او سی آر پر کام ماسٹرز کی سطح کا پراجیکٹ مانا جا سکتا ہے، اگرچہ اس میں جزوی کامیابی ہی کیوں نہ حاصل ہو۔

میرا اندازہ ہے کہ اس قسم کے پراجیکٹ پر کام کرنے کے لیے امیج پراسیسنگ اور مصنوعی ذہانت (artificial intelligence) کی فیلڈز میں مہارت ضروری ہوگی۔ اس سمت میں کسی قسم کی کامیابی بھی اردو کمپیوٹنگ کی تاریخ میں ایک سنگ میل ثابت ہو سکتی ہے۔ میں اس پوسٹ میں آپٹیکل کیریکٹر ریکگنیشن سے متعلقہ معلومات اکٹھا کرتا رہوں گا۔

متعلقہ روابط:

[align=left:90852c5332][eng:90852c5332]
Neural Network OCR
[/eng:90852c5332][/align:90852c5332]

قیصرانی · جولائی 12، 2006

شکریہ نبیل بھائی
قیصرانی

محب علوی · جولائی 12، 2006

نبیل یقینا یہ ایک بہت اچھا موضوع ہے اور اس پر ہمیں اپنی تحقیق جاری رکھنی چاہیے۔ میں نے اس پر کچھ ریسرچ کی تھی اور اس بات پاکستان جا کر میں کوشش کروں گا کہ ان سٹوڈنٹس سے مل سکوں جنہوں نے اس پر کام کیا ہے ۔ کوئی سرا بھی ہاتھ آجائے تو ایک دلچسپ اور نہایت مفید تحقیق کو ہم اردو محفل پر آگے بڑھاتے رہیں گے۔

زیک · جولائی 12، 2006

میں ادھر چپ ہی رہوں تو بہتر ہے کہ امیج پراسیسنگ کا بندہ ہوں۔

نبیل · جولائی 12، 2006

اب تو آپ بول پڑے ہیں۔ اب بتائیں کہ اردو او سی آر کیسے بنایا جائے؟

محب علوی · جولائی 12، 2006

زکریا میں تو آج تک خدا کا بندہ سمجھتا رہا آک پتہ چلا کہ امیج پروسیسنگ کے بندے ہیں۔ :lol:

ویسے کچھ اظہار خیال ہو جائے تو کچھ ہم لوگ بھی سیکھ لیں اور کسی بحث میں حوالہ ہی دے سکیں کہ ایک امیج پروسیسنگ کے بندے نے یہ سب بتایا تھا ہمیں۔

زیک · جولائی 12، 2006

پیپر پڑھ کر بعد میں بتاتا ہوں پہلے یہ دیکھ لیں:

اردو او‌سی‌آر
عربی او‌سی‌آر اور یہاں
فارسی او‌سی‌آر اور یہاں
Script-independent OCR

زیک · جولائی 12، 2006

محب علوی نے کہا:
زکریا میں تو آج تک خدا کا بندہ سمجھتا رہا آک پتہ چلا کہ امیج پروسیسنگ کے بندے ہیں۔

کسی نے خدا کے بندے کی یہ تعریف کی ہے:

خدا کے بندے تو ہیں ہزاروں بنوں میں پھرتے ہیں مارے مارے

مگر میں تو کبھی بنوں گیا ہی نہیں۔

قیصرانی · جولائی 12، 2006

بہت عمدہ زکریا بھائی :lol:

قیصرانی

زیک · جولائی 12، 2006

یہ پیپر بھی پڑھ لیں:

Recognition of printed Urdu script by U. Pal and A. Sarkar

محب علوی · جولائی 12، 2006

زکریا نے کہا:
محب علوی نے کہا:

زکریا میں تو آج تک خدا کا بندہ سمجھتا رہا آک پتہ چلا کہ امیج پروسیسنگ کے بندے ہیں۔

مزید نمائش کے لیے کلک کریں۔۔۔

کسی نے خدا کے بندے کی یہ تعریف کی ہے:

خدا کے بندے تو ہیں ہزاروں بنوں میں پھرتے ہیں مارے مارے

مگر میں تو کبھی بنوں گیا ہی نہیں۔

لاجواب کردیا زکریا

زیک · جولائی 12، 2006

کچھ ابتدائی باتیں:

اردو او‌سی‌آر عربی سے زیادہ مشکل ہو گی۔ اس کی وجہ وہ فونٹ ہے جسے ہمیں بہت پہلے کوڑے کے ڈرم میں پھینک دینا چاہیئے تھا۔
عربی اور فارسی کی او‌سی‌آر پر کافی کام ہوا ہے جو کام آ سکتا ہے۔
اگر عربی یا فارسی او‌سی‌آر کا کوئی کوڈ مل جائے تو کیا ہی بات ہے۔
اگر کوڈ نہ ملے تو کسی سسٹم کو دیکھ کر یا ریسرچ پیپرز پڑھ کر algorithms اور کوڈ لکھا جا سکتا ہے۔
اگر algorithm پر خود کچھ کام کرنا پڑے تو یہ پراجیکٹ کچھ لمبا اور مشکل ہو جائے گا مگر ساتھ ساتھ stakes بھی بڑھ جائیں گے کہ کام پبلش بھی شاید کیا جا سکے۔
یہ نوٹ کریں کہ اردو او‌سی‌آر پر پیپر ملا بھی تو پاکستانیوں کا نہیں!

نبیل · جولائی 12، 2006

زکریا، آپ فونٹ کی بات کر رہے ہیں یا نستلعیق رسم الخط کی؟

میں نے sourceforge.net پر فارسی اور عربی او سی آر کے بارے تلاش تو کیا ہے لیکن اس کے کوئی خاطر خواہ نتائج برآمد نہیں ہوئے۔ میرا بھی یہی خیال ہے کہ پہیہ دوبارہ ایجاد کرنے کی بجائے کسی پہلے سے قائم معیار کو بنیاد بنا کر اس پر کام کیا جائے۔

زیک · جولائی 12، 2006

نبیل: نستعلیق رسم الخط کی کہ اس میں حروف ایک لائن پر نہیں ہوتے اور ان کی شکل بھی بہت بدلتی رہتی ہے۔ ligatures بھی بہت زیادہ استعمال ہوتے ہیں اس لئے حروف کو جدا کرنا کچھ مشکل ہو جاتا ہے۔

اگر کوئی اوپن‌سورس سافٹ‌ویر نہ ملے تو ریسرچ کوڈ ڈھونڈلنے کی کوشش کی جا سکتی ہے۔ ممکن ہے وہ مل جائے۔

الف نظامی · جولائی 12، 2006

انٹرنیشنل اسلامی یونیورسٹی میں ایم سی ایس کے کسی طالبعلم نے فائنل پراجیکٹ اردو او سی آر کیا تھا۔

محمد شمیل قریشی · جولائی 12، 2006

بھائیوں : تو اب بات کا لچوڑ آپ لوگوں نے کیا نکالا ہے ۔ اگر کوئي ایسا او سی آر ہے تو میجھے بھی اس کو ڈاون لوڈ کرنے کے لیے جگہ بتا دیں ۔

محب علوی · جولائی 12، 2006

راج۔۔ہ فار ح۔۔۔ری۔ت نے کہا:
انٹرنیشنل اسلامی یونیورسٹی میں ایم سی ایس کے کسی طالبعلم نے فائنل پراجیکٹ اردو او سی آر کیا تھا۔

راجہ کیا پتہ چل سکتا ہے کچھ اس طالبعلم کا اور اس کے پراجیکٹ کا۔

نبیل · جولائی 12، 2006

ایک آئیڈیا

شمیل، بھائی ابھی ایسی کوئی ڈاؤنلوڈ موجود نہیں ہے۔ شاید ہماری اگلی نسلوں کے لیے ایسا کوئی فری ویر دستیاب ہو۔۔۔ اردو ویب پر

میرے ذہن میں ایک آئیڈیا آیا ہے جسے میں یہاں پیش کر رہا ہوں۔ دوست بھی اس پر اظہار خیال فرمائیں۔ میرے خیال میں اردو او سی آر ، خاص طور پر وہ بھی نستعلیق میں لکھے ہوئے ٹیکسٹ کی، کمپیوٹیشن کے اعتبار سے تقریباً ناقابل حل پرابلم ہوگی۔ عام طور پر عربی اور اس سے متشابہہ رسم الخط میں ٹیکسٹ کو پہچاننے کے لیے algorithm الفاظ کا جائزہ لے کر حروف علیحدہ کرتے ہیں۔ میرے اندازے کے مطابق اس کے لیے کافی پیچیدہ pattern recognition کے الگوتھم کی ضرورت ہوتی ہے۔

ایک نسبتاً آسان طریقہ یہ ہو سکتا ہے کہ الفاظ سے حروف کو علیحدہ کرنے کا کام ہی نہ کیا جائے بلکہ تمام ممکنہ شیپس کی ڈیٹابیس تیار کر لی جائے اور تصویری عبارت کو تحریری شکل میں اسی کے ذریعے تبدیل کیا جائے۔ یہ اس سے ملتا جلتا حل ہوگا جیسا کہ انپیج کمپوزنگ سوفٹویر میں نستعلیق لکھنے کے لیے استعمال کیا جاتا ہے۔ انپیج میں استعمال ہونے والی تمام اشکال گلفس کی صورت میں اس کے فونٹس میں موجود ہوتی ہیں۔ ایک اندازے کے مطابق ان گلفس کی تعداد 10,000 سے زائد ہے۔ اگر انہیں دس ہزار کے لگ بھگ اشکال ہی کی ڈیٹابیس بنا لی جائے تو خود انپیج میں کمپوز کیے گئے ٹیکسٹ کی ریکگنیشن کا کچھ امکان پیدا ہو سکتا ہے۔ یہ ضرور ہے کہ اس قسم کا او سی آر انپیج میں کمپوز کیے ہوئے مواد کے لیے زیادہ مؤثر ثابت ہوگا لیکن یہ کوئی مسئلہ نہیں ہونا چاہیے کیونکہ نوری نستعلیق میں کمپوزنگ کے لیے انپیج ہی زیادہ استعمال ہوتا آیا ہے۔

میں اس سلسلے میں مزید گزارشات بعد میں پیش کروں گا۔

قیصرانی · جولائی 12، 2006

زندہ باد نبیل بھائی، بہت عمدہ بات کہی، جاری رکھیں اپنی تحقیق
قیصرانی

نبیل · جولائی 12، 2006

زکریا، IEEE کے پیپرز پڑھنے کے لیے تو سبکرپشن کی ضرورت ہے۔

اگر آپ کے پاس اس کی ممبرشپ ہے تو آپ ہی کوئی پیپر پڑھوا دیں۔ :idea:

اردو او سی آر

تکنیکی معاون

لائبریرین

لائبریرین

ایکاروس

تکنیکی معاون

لائبریرین

ایکاروس

ایکاروس

لائبریرین

ایکاروس

لائبریرین

ایکاروس

تکنیکی معاون

ایکاروس

لائبریرین

محفلین

لائبریرین

تکنیکی معاون

لائبریرین

تکنیکی معاون