"اردو نستعلیق حرف شناس" -- ایک نیا اردو او سی آر نظام

سعادت

تکنیکی معاون
کل ٹوئٹر کے ذریعے یہ خبر ملی کہ یونیورسٹی آف انجینیئرنگ اینڈ ٹیکنالوجی لاہور کے اداروں، الخوارزمی انسٹیٹوٹ آف کمپیوٹر سائنس اور مرکزِ تحقیقاتِ لسانیات، نے اردو او سی آر کے لیے ایک نیا نظام، "اردو نستعلیق حرف شناس"، کا تجرباتی ورژن ریلیز کیا ہے۔ اس کی ویب سائٹ کے مطابق "اُردو نستعلیق حرف شناس (آپٹیکل کیریکٹر ریکگنائزر) ایک ایسا خودکار نظام ہے جو سکین کردہ صفحے سے متن اخذ کرتا ہے تاکہ اس میں ردّو بدل کیا جا سکے۔"

اس پروجیکٹ کی ویب سائٹ پر سسٹم کا ڈیمو بھی موجود ہے۔ میرے پاس کوئی سکین شدہ صفحہ تو تھا نہیں، اس لیے ویب سائٹ پر موجود مثالی صفحات میں سے ایک پر تجربہ کر کے دیکھا: نتائج مِلے جُلے ہی ہیں، لیکن ایک ابتدائی، تجرباتی ورژن کے لیے اتنا بھی بہت ہے۔ اگر آپ کے پاس سکین شدہ متن ہو، یا اگر کسی کتاب کا کوئی صفحہ سکین کر سکیں، تو اس سسٹم کو آزمانا ایک دلچسپ مشق ہو سکتی ہے۔

یہیں محفل پر کچھ عرصہ قبل ڈی-اے-ستی صاحب نے اپنا پی-ایچ-ڈی تھیسس شیئر کیا تھا جو اردو او سی آر کی تحقیق ہی پر مبنی تھا؛ یقیناً وہ اس نظام پر زیادہ بہتر روشنی ڈال سکیں گے۔ اچھی بات یہ ہے کہ پاکستانی یونیورسٹیز کے محققین اب اردو او سی آر کے لئے سنجیدگی سے کوششیں کر رہے ہیں، جو ایک قابلِ ستائش امر ہے۔
 

رانا

محفلین
تجرباتی ریلیز ہونے کی وجہ سے مجھے تو یہ کارکردگی بھی بہت بہتر لگی بلکہ حیران کن حد تک بہتر لگی۔ لیکن میں نے بھی مثالی صفحات کے ساتھ ہی جانچ کی ہے ابتدائی ورژن کے لحاظ سے بہت عمدہ کاوش ہے۔ میں نے اپنے پاس سے کچھ پی ڈی ایف کی jpg بناکر جانچ کرنے کی کوشش کی تو اپ لوڈ ہی نہیں ہورہی تھیں، پتہ نہیں کیا مسئلہ تھا۔ اگر کسی نے مثالی صفحات کے علاوہ اپنے اپ لوڈ کردہ صفحات کے ساتھ جانچ کی ہو تو وہ ذرا اس کے نتائج شئیر کریں۔
 

arifkarim

معطل
تجرباتی ریلیز ہونے کی وجہ سے مجھے تو یہ کارکردگی بھی بہت بہتر لگی بلکہ حیران کن حد تک بہتر لگی۔ لیکن میں نے بھی مثالی صفحات کے ساتھ ہی جانچ کی ہے ابتدائی ورژن کے لحاظ سے بہت عمدہ کاوش ہے۔ میں نے اپنے پاس سے کچھ پی ڈی ایف کی jpg بناکر جانچ کرنے کی کوشش کی تو اپ لوڈ ہی نہیں ہورہی تھیں، پتہ نہیں کیا مسئلہ تھا۔ اگر کسی نے مثالی صفحات کے علاوہ اپنے اپ لوڈ کردہ صفحات کے ساتھ جانچ کی ہو تو وہ ذرا اس کے نتائج شئیر کریں۔

اپلوڈنگ کا سسٹم ہی کام نہیں کر رہا، حرف شناسی تو بعد کی باتیں ہیں۔
 

طمیم

محفلین
حرف شناس والوں کی ویب سائٹ بعض اوقات کھلنے سے ہی انکار کردیتی ہے ۔
ایک دفعہ کھل گئی تو انپیج میں اور م س ورڈ میں لکھ کر دو JPEG بنائی تھیں جسے اپلوڈ کرنے کے بعد جواب ملا اسے شناخت کرنے سے قاصر ہے۔ (صفحات کو 14 کے فونٹ میں 300 ڈی پی آئی پر پرنٹر سافٹ ویئر کے ذریعہ سے JPEG بنائی تھی۔ پرنٹ کئے گئے صفحہ کو سکین نہیں کیا تھا)
ویب سائٹ پر دیئے گئے مثالی صفحات کو دوبارہ اپلوڈ کرنے کے بعد شناخت کرنے کی کوشش کی تو واقعی بہت سے الفاظ شناخت کرلئے تھے جیسا کہ ویب سائٹ پر بیان کیا گیا ہے ۔
ابھی تجرباتی ورژن ہے اُمید ہے بہتری آئے گی۔
 
تجرباتی ریلیز ہونے کی وجہ سے مجھے تو یہ کارکردگی بھی بہت بہتر لگی بلکہ حیران کن حد تک بہتر لگی۔ لیکن میں نے بھی مثالی صفحات کے ساتھ ہی جانچ کی ہے ابتدائی ورژن کے لحاظ سے بہت عمدہ کاوش ہے۔ میں نے اپنے پاس سے کچھ پی ڈی ایف کی jpg بناکر جانچ کرنے کی کوشش کی تو اپ لوڈ ہی نہیں ہورہی تھیں، پتہ نہیں کیا مسئلہ تھا۔ اگر کسی نے مثالی صفحات کے علاوہ اپنے اپ لوڈ کردہ صفحات کے ساتھ جانچ کی ہو تو وہ ذرا اس کے نتائج شئیر کریں۔


میں نے بھی کوشش کی تھی ناکامی ہی ہاتھ لگی۔:-(
 
حرف شناس والوں کی ویب سائٹ بعض اوقات کھلنے سے ہی انکار کردیتی ہے ۔
ایک دفعہ کھل گئی تو انپیج میں اور م س ورڈ میں لکھ کر دو JPEG بنائی تھیں جسے اپلوڈ کرنے کے بعد جواب ملا اسے شناخت کرنے سے قاصر ہے۔ (صفحات کو 14 کے فونٹ میں 300 ڈی پی آئی پر پرنٹر سافٹ ویئر کے ذریعہ سے JPEG بنائی تھی۔ پرنٹ کئے گئے صفحہ کو سکین نہیں کیا تھا)
ویب سائٹ پر دیئے گئے مثالی صفحات کو دوبارہ اپلوڈ کرنے کے بعد شناخت کرنے کی کوشش کی تو واقعی بہت سے الفاظ شناخت کرلئے تھے جیسا کہ ویب سائٹ پر بیان کیا گیا ہے ۔
ابھی تجرباتی ورژن ہے اُمید ہے بہتری آئے گی۔



اللہ کرے جلد ایسا ہو۔
 

hackerspk

محفلین
بہت عمدہ کام ہے۔ میں نے 50 کے قریب مختلف نمونوں کے ذریعے اس کی جانچ کی ہے۔ ابتدائی ورژن کے اعتبار سے یہ بہت عمدہ کام کر رہا ہے۔ بنیادی ڈھانچہ بن چکا ہے۔ ایک ڈیڑھ سال کی تحقیق اور طلبا کے مختلف مقالہ جات اس کو یقینا ایک نہایت بہتر شکل دے سکتے ہیں۔ اس کے کسی ایک حصہ کی درستی کے لیے کوئی بھی طالب علم کام کر کے اپنا ماسٹرز یا ڈاکٹریٹ کا مقالہ تحریر کر سکتا ہے۔ اس طرح نہ صرف ہمیں بہترین اور سی آر ملے گا بلکہ اردو کے طلبا کی کمپیوٹر سے دلچسپی کا جائزہ بھی لیا جا سکے گا۔
 

سعادت

تکنیکی معاون
اُردو نستعلیق حرف شناس“ کی ویب سائٹ پر ۶ جنوری ۲۰۱۴ کو نئے اپڈیٹس جاری کر دیے گئے ہیں۔ یہ حرف شناس اب مختلف فونٹ سائزز کو سپّورٹ کرتا ہے، لیکن ویب سائٹ کے مطابق یہ ابھی بھی تجرباتی ورژن ہی ہے۔ مثالی صفحات میں بھی اضافہ کیا گیا ہے، آپ تجربات کر کے دیکھ سکتے ہیں۔ :)
 

دوست

محفلین
ڈاکٹر سرمد صاحب عرصہ دس سال سے اردو کمپیوٹنگ کا اکلوتا نام ہیں. اب کچھ مزید لوگ آئے ہیں اور وہ بھی ڈاکٹر صاحب کے شاگرد یا خوشہ چینوں میں سے ہیں.
 

hackerspk

محفلین
میں نے دوبارہ اس کو اپنے نمونوں پر آزمایا ہے۔ مگر بہتری نظر نہیں آئی۔ تقریبا پچھلے ورژن جیسے ہی نتائج ملے ہیں۔ مگر کچھ صفحات 300 ڈی پی پر سکین ہیں مگر یہ ورژن ان کو سمجھ نہیں پا رہا۔ میرا خیال ہے کہ اگر ڈی پی کم بھی ہوں تو پھر بھی کنورژن کی کوشش کرنے کا آپشن ہو۔ کیونکہ اس طرح یوزر زچ نہیں ہوتا۔
 

آصف اثر

معطل
تازہ ترین اور ذرا خوش کن خبر یہ ہے کہ حرف شناس کا اگلا تجرباتی ورژن (2.0) جاری کردیا گیا ہے۔ جو پہلے سے بہت بہتر ہے۔
میں نے 300ڈی پی آئی پہ ایک صفحہ اسکین کیا ہے۔ ملاحظہ ہو:
image.jpg


اسکین شدہ متن: (بہتر اور تیز دونوں آپشن سے یکساں نتیجہ سامنے آیا)

ہماری خوراک میں شامل کچھ ابخرا ایسے بھی ہیں جو۞‌کے جسم میں جز۞‌بدن ہو نےمیں رکاوٹ پیدا کرتے ہیں'۞‌چائے اور کافی‌۔ ان دونوں‌اثیا کے استعمال سےخواہ وہ تھوء‌را ہو یا زیادہ۞‌کو انسانی بدن کا حصہ بننے میں رکاوٹ ڈالتا ہے۔پیشاب آ و رادویات کا مسلسل استعمال بھی انسان کو۞‌کی کمی کا شکار بنا دیتاہے' جس سے انسانی‌جسم‌تیزابیت کی زد میں آ جاتا ہے اور کسی نہ کسی موذی‌بیماریمیں قبلا ہو جاتا ہے۔ کینسر کے مریضوں کے بالوں کا تجزیہ کیا تو اس سے یہ۞‌چلا کہ کینسر کے مریض میں تا۞‌کی مقدار بڑھ جاتی ہے اور زنک کی مقدار کم ہو جاتیہے۔ زنک بھی انسانی جسم میں تیزابیت‌کوخم‌یکر نے میں اہم کر دار ادا کرتا ہے اورساتھ ہی زنک انسانی جسم کی قو۞‌مدافعت کا سر۞‌ہے'۞‌ا زنک اور۞‌کیانسانی جسم میں کمی‌کینسر پیدا کرنے میں معاون ثابت ہو سکتی ہے۔ وٹامن‌ای بھیکینسر کو دفع کر نے میں معاونت کرتا ہے۔ چاندی کے مرکبات بھی کینسر کا علاجکرنے میں فائدہ مند ثابت ہو سکتے ہیں‌۔لہسن موجودہ دور میں ہر بڑی بیماری کا علاج سمجھا جاتا ہے جس میں ایڈز'السر' مائی بلڈ پر۞‌بھی شامل ہیں‌۔ یہ زہریلی‌دھاتوں سے نجات حاصل کر نےمیں مدد دیتا ہے۔جدید تحقیق نے یہ دعویٰ کیا ہے کہ جس دستر خوان پر لہسن اور پیاز موجود ہوتاہے' وہاں پر بیماریاں بہت کم رسائی حاصل کر تی ہیں‌۔ لہسن‌میں۞‌ئی‌مرکبات کے علاوہ۞‌کی خاصی مقدار پائی جاتی ہے جو دوا کے طور پر کام کرتی ہے۔ سائنسی تحقیق نے یہ واضح کیا ہے کہ اگر ان مندرجہ ذیل چیزوں سے گریز کیا جائے تو کینسرسے بچاؤ کافی حد تک ممکن ہے۔کلکا۞‌کے جز۞‌بدن بننے میں رکاوٹ بننے والے مرکبات کا استعمال نہ کرنا۔کلکا تیزابی خاصیت رکھنے والی چیزوں کے استعمال سے گریز کرنا'۞‌چائے کافی اورکلکا تازہ سبزیوں کا زیادہ استعمال‌۔کلکا ایلومینیم کے برتنوں کا استعمال ترک کر دیں کیوں کہ ایلومینیم‌بھی۞‌اورزنک کے جز۞‌بدن ہونے میں رکاوٹ پیدا کرتا ہے۔کلکا پر و ٹین کی زیادتی۞‌کو جذب ہونے سے روکتی ہے۔کلکا چینی پر مبنی خوراک بھی۞‌کو جسم کے اندر جا نے ےروکتی ہے۔ہمارے وطن حمنہ‌مز میں چائے کا استعمال کثرت سے بڑھ‌رنا ہے۔ شہروں اور قصبوں کے بعد اب دیہاتوں میں بھی چائے کا رواج عام ہے۔ جن گھرانوں میں چائے کوکوئی جانتا بھی نہ تھا' و ماں بھی یہ اب ضروریات زندگی میں شامل ہو گئی ہے۔ ہر گھرمیں چائے کو پینے کا لازمی جز خیال کیا جاتا ہے' حالاں کو انسان کو زندہ رہنے کےلیے غذا اور پانی کی ضرورت ہوتی ہے۔ اگر دیکھا جائے تو چائے نہ ہمارا کھانا ہے اورنہ ہی پانی تو پھر اس کا استعمال اتنا زیادہ کیوں ؟ماہرین طب نے اس کے۞‌تہ‌استعمال پر تنقید کی ہے اور اس کے انسانی صحت پر مضراثرات کی بھی نشاندہی کی ہے۔ چائے چوں کہ کھپلا کے خشک پتوں کوصل کر حاصل کی جا تی ہے اور ان پتوں میں مادّ‌ہ۞‌ہوتا ہے' جو مرکزیاعصابی نظام کو زیادہ متحرک کر دیتا ہے جس سے کئی امراض جنم لیتے ہیں‌۔ تحقیق کے مطابق مرکزی اعصابی نظام میں توازن نہیں رہتا جس کی وجہ سے بے خوابی(8۞‌80ھ گے) اور گر دے کے مسائل جنم لیتے ہیں‌۔چائے کے۞‌تہ استعمال سے گردوں میں فلٹریشن ضرورت سے زیادہ ہو جاتاہے' جس کی وجہ سے ضروری‌نمکیات‌(سوڈیم اور پوٹاثیم‌)وغیرہ‌جکی‌پیشاب کے8لگے'' گا'

یہ وہ الفاظ ہیں جو صحیح طور پر رینڈر نہیں ہوئے۔ امید ہے اگلے نسخے میں یہ الفاظ بھی درست رینڈر ہوں گے۔جن حروف کے نیچے زیر ہے یا اوپر دو زبر ہیں وہ بھی ٹھیک نہیں آرہے۔
اجزا، کیلشیم، وِ،مثلاً، اشیا(کو اثیا کردیا)،مبتلا،پتا، نبے، چشمہ، لہٰذا،ہائی بلڈ (کو مائی بلڈ)،پریشر (کا یشر)، کیمیا،رہا (کو رما)، عزیز (کو حمنہ مز)، کہ، بکثرت،کمپلا (ایک بوٹی کا نام)، مسل (کو صل)، کیفین،بھی
 

رانا

محفلین
کیا اسکین کردہ صفحہ ضروری ہے؟ میں نے ایک پی ڈی ایف کتاب سے جو نستعلیق فونٹ میں ہے ایک صفحہ الگ کرکے اس کو پینٹ برش میں لے جاکر جے پیگ فارمیٹ میں سیو کیا۔ لیکن اپ لوڈ کرتے ہوئے ایرر آیا کہ صفحہ کی ڈی پی آئی 300 نہیں ہے دوبارہ اسکین کریں۔ اس فائل کی ڈی پی آئی کسی طرح سیٹ کرسکتا ہوں؟
 
Top