علی نستعلیق کی جھلکیاں

افضل حسین

محفلین
اگر یہ پروگرام ہو اور کام بھی کرتا ہو تو میں تو اس کے لئے مناسب قیمت تک دینے کو تیار ہوں :)

ابھی ابھی سید منظر صاحب سے بات ہوئی انہوں نے بتایا کہ یہ پروجیکٹ دو مہینے کے اندر اندر مکمل ہوجائے گا ۔ انہوں نے مزید بتایا کہ نوری نستعلیق پہ اس کا نتیجہ 99٪ درست نکل رہا ہے
 

قیصرانی

لائبریرین
ابھی ابھی سید منظر صاحب سے بات ہوئی انہوں نے بتایا کہ یہ پروجیکٹ دو مہینے کے اندر اندر مکمل ہوجائے گا ۔ انہوں نے مزید بتایا کہ نوری نستعلیق پہ اس کا نتیجہ 99٪ درست نکل رہا ہے
اس کی قیمت کے بارے کچھ اندازہ؟
 

سعادت

تکنیکی معاون
اچھا فانٹ ہے۔ تاہم اس صفحے پر مجھے نستعلیق کا او سی آر دکھائی دیا ہے۔ پر لنک کام نہیں کر رہا
غالباً پروجیکٹ مکمل نہیں ہے یا مفت نہیں ہے
اگر یہ پروگرام ہو اور کام بھی کرتا ہو تو میں تو اس کے لئے مناسب قیمت تک دینے کو تیار ہوں :)
ابھی ابھی سید منظر صاحب سے بات ہوئی انہوں نے بتایا کہ یہ پروجیکٹ دو مہینے کے اندر اندر مکمل ہوجائے گا ۔ انہوں نے مزید بتایا کہ نوری نستعلیق پہ اس کا نتیجہ 99٪ درست نکل رہا ہے

ابھی حال ہی میں عربی اور اردو (نوری نستعلیق) کے او سی آر کے لیے Nabocr نامی ایک ایپلیکیشن کا علم ہوا ہے، جسے مفت ڈاؤنلوڈ کیا جا سکتا ہے۔ میں نے تو اس کو ابھی تک نہیں آزمایا، لیکن آپ تجربہ کر سکتے ہیں۔ :)

(اس سوفٹویئر کے خالقین نے او سی آر پر کی جانے والی اپنی تحقیق پر مقالہ بھی لکھا ہے۔)
 

قیصرانی

لائبریرین
ابھی حال ہی میں عربی اور اردو (نوری نستعلیق) کے او سی آر کے لیے Nabocr نامی ایک ایپلیکیشن کا علم ہوا ہے، جسے مفت ڈاؤنلوڈ کیا جا سکتا ہے۔ میں نے تو اس کو ابھی تک نہیں آزمایا، لیکن آپ تجربہ کر سکتے ہیں۔ :)

(اس سوفٹویئر کے خالقین نے او سی آر پر کی جانے والی اپنی تحقیق پر مقالہ بھی لکھا ہے۔)
پروگرام ڈاؤن لوڈ کر کے انسٹال کیا ہے لیکن ابھی کہیں دکھائی نہیں دے رہا کہ کہاں انسٹال ہوا ہے۔ شاید ری بوٹ سے فرق پڑے؟
 

سعادت

تکنیکی معاون
پروگرام ڈاؤن لوڈ کر کے انسٹال کیا ہے لیکن ابھی کہیں دکھائی نہیں دے رہا کہ کہاں انسٹال ہوا ہے۔ شاید ری بوٹ سے فرق پڑے؟

میں نے بھی اپنے سسٹم پر اسے انسٹال کیا ہے، اور لگتا ہے کہ اس کا انسٹالر کچھ زیادہ ہی جلدی میں بنایا گیا ہے۔ انسٹالیشن کے وقت ایپلیکیشن انسٹال کرنے کا ڈیفالٹ پاتھ کچھ یوں نظر آ رہا تھا:

کوڈ:
C:\Program Files (x86)\Default Company Name\SetupProject\

میں نے اس پاتھ کو تبدیل کر دیا تھا، اگر آپ نے نہیں کیا تو درج بالا پاتھ پر جا کر دیکھیں۔

نیز، اپلیکیشن چلانے کے لیے آپ کو GTK+ for Windows Runtime Environment اور ڈاٹ نیٹ فریم ورک (جو ونڈوز سیون میں موجود ہی ہوتا ہے) کی ضرورت پڑے گی۔

ایپلیکیشن کی ظاہری شکل و صورت دیکھ کر تو یہی معلوم ہوتا ہے کہ یہ عام صارفین کے لیے نہیں، بلکہ اس کے خالقین کی تحقیق کے ڈیمو وغیرہ کے لیے بنائی گئی تھی۔ میں نے ”اُردو نستعلیق حرف شناس“ (جس کے بارے میں اس لڑی میں گفتگو ہوئی تھی) کی ویب سائٹ سے ایک مثالی صفحہ کاپی کیا اور پھر Nabocr کے ذریعے اس کی حرف شناسی کا تجربہ کیا، لیکن اس صفحے کا امیج چونکہ انتہائی بھاری بھرکم ہے، اس لیے Nabocr تو سو ہی گیا، اور بالآخر مجھے اس کا پروسیس ختم کرنا پڑا۔ پھر میں نے اس امیج میں سے صرف ایک چھوٹے سے جملے کا علیحدہ امیج بنا کر Nabocr کے حوالے کیا۔ (اس سے پہلے More.. -> Choose Vocabulary میں جا کر Use Vocabulary کے ذیل میں Urdu_Jameel Noori Nastaleeq کو منتخب بھی کیا تھا۔) نتیجہ کچھ یوں ہے:

امیج:
ocr-test_zpsd5b59763.png


نتیجہ:
۱ گھر و ں یس تو کا ر ٹو ن نبٹ و ر ک کا ر ا ج ہے​

اگر سپیسز کو نکال دیا جائے تو کُل ۳۰ کیریکٹرز تھے، جن میں سے ۴ کے معاملے میں اس سے غلطی ہوئی۔ ۸۶ فیصد کے لگ بھگ یہ نتیجہ برا نہیں، البتہ سپیسز کو مدِ نظر رکھا جائے تو اس ایپلیکیشن نے الفاظ کی پہچان کرتے ہوئے ان کے ٹکڑے کر ڈالے (کارٹون = کا + سپیس + ر + سپیس + ٹو + سپیس + ن)، جو کچھ زیادہ قابلِ قبول شاید نہ ہو۔ دوسری طرف یہ بھی ممکن ہے کہ ایپلیکیشن کی سیٹنگز کے ساتھ چھیڑ چھاڑ کر کے اس نتیجے کو بہتر بنایا جا سکتا ہو، سو آپ بھی تجربات کر کے دیکھیے۔ :)
 

قیصرانی

لائبریرین
میرے پاس پھر بھی نہیں چل رہا، تاہم یہ بات مزے کی ہے اس میں فانٹس کے دو فولڈر اور لیگچرز کی فائلز ہیں۔ عین ممکن ہے کہ اس میں مزید فانٹس کا اضافہ کرنا آسان ہو
 

سعادت

تکنیکی معاون
میرے پاس پھر بھی نہیں چل رہا، تاہم یہ بات مزے کی ہے اس میں فانٹس کے دو فولڈر اور لیگچرز کی فائلز ہیں۔ عین ممکن ہے کہ اس میں مزید فانٹس کا اضافہ کرنا آسان ہو

عام صارفین کے لیے آسان تو شاید نہیں، لیکن بہرحال ممکن ضرور ہے۔ مقالے کے سیکشن 3 میں لکھا ہے:


The general framework of our approach as shown in Figure 5 consists of three main parts:
- Training which takes as input raw Arabic script data as text files. The training part outputs a dataset of ligatures, where each ligature is described by a feature vector.
- Recognition [...]
- User Interface [...]


اور سیکشن 3.1 میں:

The main goal of the training phase is to prepare the application to be used for text recognition for a certain Arabic script language. Training phase consists of two main steps:
1. Generation of a dataset of images for the possible ligatures of the Arabic script language to be used by the application.
2. Extracting features that describe each ligature in the dataset generated by the previous step.


اور سیکشن 3.1.1 میں:


Our system is initially trained to recognize both Urdu Nastaleeq and Arabic Naskh fonts. We have generated datasets for each language using Urdu and Arabic books available online as text files.

سو اگر Nabocr کے محققین ٹریننگ کے مرحلے پر کی جانے والی کمپیوٹیشن کے لیے بھی کوئی ایپلیکیشن فراہم کر دیں تو مزید فونٹس کا اضافہ ممکن ہے۔ :)

(ویسے میرا خیال ہے کہ Nabocr سے متعلقہ پیغامات کو علیحدہ لڑی میں منتقل کر دینا چاہیے۔۔۔)
 

قیصرانی

لائبریرین
او سی آر انگریزی میں بھی سو فیصد نتیجہ مشکل سے ہی دیتا ہے۔ اس لئے پروف ریڈنگ میں چھوٹی موٹی غلطیاں نکل سکتی ہیں۔ اتنا کام ہو جانا بھی بہت اچھا ہے۔ اچھا ایک کام کیجئے کہ ایک سے زیادہ فائلز، جیسا کہ 50 یا 100 فائلز کو ایک وقت میں پروسیس کر کے دیکھیئے کہ کیا نتیجہ دیتا ہے۔ رفتار کیا ہے اور ان پٹ امیج کون سی فارمیٹ میں ہو۔ اگر تصویری متن کے ساتھ تصویر بھی ہو تو کیا نتیجہ دیتا ہے؟
 

افضل حسین

محفلین
او سی آر انگریزی میں بھی سو فیصد نتیجہ مشکل سے ہی دیتا ہے۔ اس لئے پروف ریڈنگ میں چھوٹی موٹی غلطیاں نکل سکتی ہیں۔ اتنا کام ہو جانا بھی بہت اچھا ہے۔ اچھا ایک کام کیجئے کہ ایک سے زیادہ فائلز، جیسا کہ 50 یا 100 فائلز کو ایک وقت میں پروسیس کر کے دیکھیئے کہ کیا نتیجہ دیتا ہے۔ رفتار کیا ہے اور ان پٹ امیج کون سی فارمیٹ میں ہو۔ اگر تصویری متن کے ساتھ تصویر بھی ہو تو کیا نتیجہ دیتا ہے؟
رفتار کی تو بس پوچھئے مت اس ایک سطر کو متن میں کنورٹ کرنے میں میرا مشین سوگیا۔ویسے یہ سوفٹ ویر ابھی ابتدائی مراحل میں ہے آگے جاکر یقینا اس میں پختگی آئے گی ۔ مجھے تو خوشی ہورہی ہے چلئے کم از کم اردو اوسی آر کی طرف پیشقدمی تو ہوئی ۔
 

قیصرانی

لائبریرین
رفتار کی تو بس پوچھئے مت اس ایک سطر کو متن میں کنورٹ کرنے میں میرا مشین سوگیا۔ویسے یہ سوفٹ ویر ابھی ابتدائی مراحل میں ہے آگے جاکر یقینا اس میں پختگی آئے گی ۔ مجھے تو خوشی ہورہی ہے چلئے کم از کم اردو اوسی آر کی طرف پیشقدمی تو ہوئی ۔
آپ کے سسٹم کی ہارڈ وئیر اور سافٹ وئیر کنفگریشن کیا ہے، اگر بتانا چاہیں تو؟ ویسے یہ کافی حیران کن بات ہے کہ رفتار اتنی سست۔ تاہم اردو او سی آر کی طرف پیش قدمی واقعی بہت بڑی چھلانگ ہے کیونکہ او سی آر کے حوالے سے نستعلیق پیچیدہ ترین فانٹس میں سے ایک ہے :)
 

قیصرانی

لائبریرین
انٹیل آئی 3 پروسیسر
4جی بی ریم
چار سال سے کمپوٹر فارمیٹ نہیں ہوا اس لئے ویسے بھی کچھ سست ہے
اگر ڈؤل کور ہے اور ہائپر تھریڈنگ نہیں تو پھر الگ بات ہے۔ میں کوشش کروں گا کسی وقت اسے اپنے آئی سیون پر انسٹال کر کے چیک کروں، سولہ جی بی ریم اور ہائپر تھریڈنگ کے ساتھ آٹھ پروسیسر اور ایس ایس ڈی ہارڈ ڈسک
 

سعادت

تکنیکی معاون
[۔۔۔]اچھا ایک کام کیجئے کہ ایک سے زیادہ فائلز، جیسا کہ 50 یا 100 فائلز کو ایک وقت میں پروسیس کر کے دیکھیئے کہ کیا نتیجہ دیتا ہے۔ رفتار کیا ہے اور ان پٹ امیج کون سی فارمیٹ میں ہو۔ [۔۔۔]

ایپلیکیشن کا ایک batch mode بھی ہے، لیکن میں نے اسے آزما کر نہیں دیکھا۔ میرے تجربات کے دوران اس نے JPEG اور PNG فارمیٹس قبول کر لیے تھے۔

رفتار کی تو بس پوچھئے مت اس ایک سطر کو متن میں کنورٹ کرنے میں میرا مشین سوگیا۔ [۔۔۔]
میرے لیپ ٹاپ نے بھی اس سطر کو کنورٹ کرنے میں تقریباً دو منٹ صَرف کیے تھے۔

اگر ڈؤل کور ہے اور ہائپر تھریڈنگ نہیں تو پھر الگ بات ہے۔ میں کوشش کروں گا کسی وقت اسے اپنے آئی سیون پر انسٹال کر کے چیک کروں، سولہ جی بی ریم اور ہائپر تھریڈنگ کے ساتھ آٹھ پروسیسر اور ایس ایس ڈی ہارڈ ڈسک
واہ! آپ کی آئی سیون مشین کی سپیسیفیکیشن پڑھ کر تو دل خوش ہو گیا! آپ اس مشین پر Nabocr کو ان مثالی صفحات کے ساتھ ضرور آزمائیے گا۔
 
Top