اردو او سی آر

کرلپ والوں کے پیپرز کی علمی ڈکیتی کو میں عین ثواب سمجھتا ہوں۔ ذرا دیکھیں وہ کیا تحقیق کر رہے ہیں اور اندازہ لگائیں کہ ان کا حال کیا ہے۔

URDU NASTALEEQ OPTICAL
CHARACTER
RECOGNITION (OCR)

Optical Character Recognition refers to the branch of computer science that involves reading text from paper and translating the images into a form that the computer can manipulate (for example, into Unicode). The Urdu Nastaleeq OCR is ligature based and it processes Nastaleeq script with a fixed font size of 36.
Urdu Nastaleeq OCR reads printed text from scanner and then automatically finds and extracts information from the monochrome bitmap image, interprets this information and transports it into Unicode text file where it can be edited. All is handled with a minimum of manual interference. The system is able to save time and perform the desired tasks efficiently. For implementation of software, we have used Visual Studio.Net C++ and HTK tool kit. HTK toolkit is based on Hidden Markov Model technique. For each ligature a Markov Model is generated which is a finite state machine where a transition from one state to another is governed by the probabilities.
To train the HMMs, we are using DCT (Discrete Cosine Transformation) values that are calculated from the ligatures extracted from the image. The main benefit of using HMM is to predict the next observation or more generally a continuation of the sequence of observations. The beauty of HMM is that, it has a great capability of catering noise and variations in patterns, which is a core issue in pattern recognition. Interface is provided to software using MFC. Our software generates editable form of printed text with great efficiency and accuracy.
 

نبیل

تکنیکی معاون
ہاں ٹھیک ہے، ایک ہاون دستے میں HTK, HMM, اور DCT کو کوٹ کر پیس لو اور اسے MFC پر چھڑک کر صبح دوپہر شام نوش جان کرو۔ :? :( یار کیا واقعی انہوں نے اس طریقے سے کوئی او سی آر بنا لیا تھا؟
 

زیک

مسافر
نبیل نے کہا:
زکریا، IEEE کے پیپرز پڑھنے کے لیے تو سبکرپشن کی ضرورت ہے۔ :(

اگر آپ کے پاس اس کی ممبرشپ ہے تو آپ ہی کوئی پیپر پڑھوا دیں۔ :idea: :arrow:

نبیل: ایک پیپر کا تو میں نے ایسا ربط دیا تھا جو پبلک ہے۔ لیکن گوگل سکالر اور سائٹ‌سیئر پر زیادہ پیپر subscription کے بغیر نہیں پڑھے جا سکتے۔ اگر آپ کو کوئی اہم پیپر ملے تو مجھے بتا دیں میں آپ کو بھیج دوں گا۔
 

زیک

مسافر
محب: یہ کرلپ والے کہانیاں بناتے ہیں! کچھ basic jargon اور ٹولز کے نام لکھ دیئے ہیں مگر یہ تو پریس ریلیز ہے نہ کہ abstract۔ پھر صرف 36 سائز کا فونٹ وہ recognize کر سکتے ہیں۔ اس میں بھی مجھے شک ہے کہ صرف نفیس نستعلیق ہی کام کرے گا۔ اوپر سے لکھتے ہیں great accuracy مگر یہ کیا ہوتی ہے، کچھ quantify تو کریں۔
 
شاید اس تحریر سے آپ کو کوئي فائدہ حاصل ہو سکے ۔ اس میں ایک ماہر کا نام بھی جس سے راجہ بھائي ۔ محب بھائي رابط کر سکتے ہیں ۔ وہ فاسٹ سے تعلق رکھتے ہیں ۔ میرا کزن فاسٹ ( لاہور ) میں زیر تعلیم ہے ۔ اگر آپ کہیں تو اس سے ان صاحب کے بارے میں معلوم کروں؟

میں نے ان صاحب کے بارے میں تحریر ہو سرخ رنگ سے واضح کر دیا ہے ۔ دیکھنے کے لیے نیچے سکرول کریں ۔

Second Day (23rd March)
--------------------------------------------------------------------------------
Dr Khavar Zia, Director Informatics, delivered the first lecture of the day. This was related to standardization of Urdu Code Page. Dr Zia explained the work of the standardization Committee and the different issues and problems it had encountered in formulating its recommendations. The Code page designed by the Committee facilitates sorting of text. The Code page has been approved by Government of Pakistan as a Standard.

The next speaker was Mr. Muhammad Saeed from Quicksoft, Islamabd. He gave an overview of different font technologies like postscript, Bitmapped font, True Fyre font and resident fonts. He also presented the implementation of True Type Font of Urdu. He introduced a software for font generation of Urdu fonts (Font creator).

The next talk was delivered by Mr Tafseer Ahmed from the Computer Science Department Karachi. He talked about the new technology produced by Microsoft and Adobe for language processing. The basis of this technology is glyph level processing. A large number of advanced features for processing the glyph are available and can be very processing. The special feature of this technology is that the processing logic of glyph has been shuffled from word purses to fonts.

Talk on True Type Fonts was presented by Mr. Tafseer Ahmad of KIT, The talk addressed the generation & implementation of urdu true type fonts. The talk also addressed the advantages of true type fonts. Dr. Humayun Mian Managing Director Systems limited gave a talk on Urdu font generation and rendering.He enumerated different systems of rendering Nastaleeq namely Font-based rendering. Bit mapped rendering and glyph based rendering. The theme of his lecture was that working on Nastaleeq rendering would entail research on advanced mathematics like differential equations of high order and splines

Dr. Sarmad Hussain of FAST-NU gave a presentation of Optical Character Recognition (OCR). He underlined the need of OCR especially in digitally archiving old documents and records. He presented the technical problems in recognizing Nastaleeq Script. He then described the different steps involved in the functional design of a OCR for Nakh Script.

The last talk of the day was given by the Mr. Badar Sami of the University of Karachi. The topic of his talk was Urdu Database, Issues and Solutions. He explained the method of storing Urdu text in existing database. He pointed the problems associated with Urdu, like diacritics, right-to-left storage and discussed their possible solutions.
 

قیصرانی

لائبریرین
جی گرو صاحبانٍ علم و دانش، کوئی تبصرہ شمیل بھیا کی پوسٹ پر :) کم سے کم کوئی بندہ تو لوکیٹ ہوا
قیصرانی
 
ڈاکٹر سرمد سے کم از کم میں کوئی امید نہیں رکھتا اور بہت سے لوگ بھی نہیں رکھتے ۔ اتنی بھاری فنڈنگ جس طرح استعمال کی ہے وہ سب کے سامنے ہے اور جو آؤٹ پٹ ہے وہ بھی سب کے سامنے ہے۔ مشین ٹرانسلیشن ایک اور پراجیکٹ ہے جس پر کام اختتام کے قریب ہے اور اس پر جتنے پیسے لگیں ہیں اس سے لاہور ڈیفنس میں ایک پلازہ کھڑا ہو جاتا ہے کئی کنال پر۔ مشین ٹرانسلیشن پر بھی کسی اور دھاگہ میں بات کرتے ہیں۔
 

قیصرانی

لائبریرین
میرا خیال ہے کہ 30 سے 40 کروڑ کے درمیانی مالیت کا پراجیکٹ تھا مشین ٹرانسلیشن اور سنا ہے کہ ابھی تک کوئی ٹرائیل نہیں آیا۔ پراجیکٹ 3 یا 4 ماہ میں ختم ہو رہا ہے :wink:
قیصرانی
 
زکریا نے کہا:
محب: یہ کرلپ والے کہانیاں بناتے ہیں! کچھ basic jargon اور ٹولز کے نام لکھ دیئے ہیں مگر یہ تو پریس ریلیز ہے نہ کہ abstract۔ پھر صرف 36 سائز کا فونٹ وہ recognize کر سکتے ہیں۔ اس میں بھی مجھے شک ہے کہ صرف نفیس نستعلیق ہی کام کرے گا۔ اوپر سے لکھتے ہیں great accuracy مگر یہ کیا ہوتی ہے، کچھ quantify تو کریں۔

اصل میں زکریا جہاں تک میرا خیال ہے ، کرلپ والوں کے ہاتھ وہ دونوں سافٹ وئیر لگے ہوئے ہیں جو سافٹ ٹیک میں پیش ہوئے او سی آر پر اور جنہوں نے انعام جیتے۔ :lol:

اگر دو پراجیکٹ جو انعام یافتہ بھی قرار پائیں ہوں وہ مفت میں مل جائیں تو اس پر لکھا تو کافی کچھ جا سکتا ہے اور ترقی کے لیے جو مرضی کہا بھی ۔ :)
 

الف نظامی

لائبریرین
ایک آئیڈیا

نبیل نے کہا:
ایک نسبتاً آسان طریقہ یہ ہو سکتا ہے کہ الفاظ سے حروف کو علیحدہ کرنے کا کام ہی نہ کیا جائے بلکہ تمام ممکنہ شیپس کی ڈیٹابیس تیار کر لی جائے اور تصویری عبارت کو تحریری شکل میں اسی کے ذریعے تبدیل کیا جائے۔

نبیل نے کہا:
ایک اندازے کے مطابق ان گلفس کی تعداد 10,000 سے زائد ہے۔ اگر انہیں دس ہزار کے لگ بھگ اشکال ہی کی ڈیٹابیس بنا لی جائے تو خود انپیج میں کمپوز کیے گئے ٹیکسٹ کی ریکگنیشن کا کچھ امکان پیدا ہو سکتا ہے۔
زبردست، امیج پراسیسنگ شروع نہ کی جائے؟ ا
 

نبیل

تکنیکی معاون
راجہ، اگر تمہیں اس کام کا کوئی آئیڈیا ہے تو ضرور شروع کرو۔ ایک مرتبہ آغاز ہونے کی دیر ہے، انشاءاللہ اس میں پیشرفت ہوتی جائے گی۔
 

دوست

محفلین
ان ہزار اشکال کی یونیکوڈ ویلیوز میں لکھ کر دے سکتا ہوں۔
اس کے لیے تھوڑی ریسرچ کی ضرورت ہوگی شاید ان پیج کے جو 90 کے قریب فونٹ ہیں ان کو کھنگالنا پڑے۔ لیکن میرا خیال ہے میں یہ کرسکتا ہوں۔
او سی آر کے لیے کیا کسی پہلے سے بنے آزاد سافٹویر کو بنیاد نہیں بنایا جاسکتا؟
کم از کم شکل پہچاننے کی حد تک۔
 

الف نظامی

لائبریرین
دوست نے کہا:
ان ہزار اشکال کی یونیکوڈ ویلیوز میں لکھ کر دے سکتا ہوں۔
اچھی بات ہے، اگر کسی شکل میں لکھا ہوا ہے“مینڈک“ تو آپ نے اسے متن کی شکل میں لکھنا ہے اور اسی طرح ایک تمام اشکال کے متن کی ترتیب وار لسٹ بنانی ہے۔
شکل پہچاننے والا اطلاقیہ جو شکل پہچانے،اسی کا متعلقہ متن (اس لسٹ کا استمعال کرتے ہوئے) آوٹ پٹ کردے۔
دوست نے کہا:
او سی آر کے لیے کیا کسی پہلے سے بنے آزاد سافٹویر کو بنیاد نہیں بنایا جاسکتا؟
کم از کم شکل پہچاننے کی حد تک۔
بنایا جا بھی سکتا ہے ، باقی لوگ کیا کہتے ہیں؟
دوست نے کہا:
اس کے لیے تھوڑی ریسرچ کی ضرورت ہوگی شاید ان پیج کے جو 90 کے قریب فونٹ ہیں ان کو کھنگالنا پڑے۔ لیکن میرا خیال ہے میں یہ کرسکتا ہوں۔
جی ہاں ایسی ہی بات ہے۔ اسی طرح ان تمام اشکال کا ڈیٹا بیس بھی بنانا ضروری ہے۔ اس کے لیے تمام اشکال کی تصاویر لینا ہوں گی جو کہ printscreen سے یا کسی اور طریقہ سے لی جاسکتی ہیں۔
 

قیصرانی

لائبریرین
بیدم نے کہا:
بنایا جا بھی سکتا ہے ، باقی لوگ کیا کہتے ہیں؟
دیکھو بھائی اگر مجھے امیج پراسیسنگ میں‌کچھ مہارت ہوتی تو میں‌لازمی مدد کرتا۔ لیکن پھر بھی اگر کچھ ہنٹس مل جائیں تو مدد کر سکتا ہوں۔ باقی کام شروع تو کرنا ہے، آج نہ سہی کل سہی، جب کل سہی تو آج کیوں نہ سہی؟
 

نبیل

تکنیکی معاون
بیدم نے کہا:
میں اس بارے میں زکریا کی رائے سننا چاہتا ہوں۔

بھائی آراء بھی آتی رہیں گی، تم اپنی تحقیق تو شروع کرو۔

میں کچھ دنوں پہلے لائبریری سے ایک کتاب لایا تھا جس میں عربی او سی آر سے متعلقہ ایک کیس سٹڈی موجود ہے۔ میں کوشش کروں گا کہ اس حصے کو سکین کرکے یہاں مہیا کر دوں۔
 

الف نظامی

لائبریرین
ایک خیال یہ آیا ہے کہ تمام اشکال کے بجائے ہمیں 1 حرفی ، 2 حرفی اور 3 حرف اشکال پر مشتمل ڈیٹابیس بصری شناخت کے لیے کافی ہو گا۔
اپنی آرا سے نوازیں۔
 

مہوش علی

لائبریرین
مجھے ايک چيز کي سمجھ نہيں آ رہي اور وہ يہ کہ انگريزي زبان والوں نے ايسا سافٹ ويئر ايجاد کيا ہے جو کہ انگريزي زبان کے تمام فونٹز کو پڑھ ليتا ہے، بلکہ اس سے بہت بہت بہت حد تک آگے جا کر انگريزي ميں "ہاتھ کي لکھائي" تک کو پڑھ ليتا ہے

چنانچہ، اردو ميں نستعليق کے ليے ايسا سافٹ ويئر بنانا يقيني طور پر ممکن ہونا چاہيے کيونکہ "انگريزي ہاتھ کي لکھائي" يقيني طور پر اردو نستعليق سے مشکل ہو گي

باقي فني تفصيلات کا مجھے علم نہيں، مگر يہي کہنا چاہوں گي کہ انگريزي ميں ہاتھ کي لکھائي پڑھنے کے سوفٹ ويئر کي "کيس سٹڈي" کرني چاہيئے کيونکہ وہاں سے فائدہ ہو سکتا ہے
 
Top