اردو او سی آر

نبیل نے 'اردو او سی آر پر تحقیق' کی ذیل میں اس موضوع کا آغاز کیا، ‏جولائی 12, 2006

  1. محب علوی

    محب علوی لائبریرین

    مراسلے:
    12,111
    جھنڈا:
    Pakistan
    موڈ:
    Bookworm
    کرلپ والوں کے پیپرز کی علمی ڈکیتی کو میں عین ثواب سمجھتا ہوں۔ ذرا دیکھیں وہ کیا تحقیق کر رہے ہیں اور اندازہ لگائیں کہ ان کا حال کیا ہے۔

    URDU NASTALEEQ OPTICAL
    CHARACTER
    RECOGNITION (OCR)

    Optical Character Recognition refers to the branch of computer science that involves reading text from paper and translating the images into a form that the computer can manipulate (for example, into Unicode). The Urdu Nastaleeq OCR is ligature based and it processes Nastaleeq script with a fixed font size of 36.
    Urdu Nastaleeq OCR reads printed text from scanner and then automatically finds and extracts information from the monochrome bitmap image, interprets this information and transports it into Unicode text file where it can be edited. All is handled with a minimum of manual interference. The system is able to save time and perform the desired tasks efficiently. For implementation of software, we have used Visual Studio.Net C++ and HTK tool kit. HTK toolkit is based on Hidden Markov Model technique. For each ligature a Markov Model is generated which is a finite state machine where a transition from one state to another is governed by the probabilities.
    To train the HMMs, we are using DCT (Discrete Cosine Transformation) values that are calculated from the ligatures extracted from the image. The main benefit of using HMM is to predict the next observation or more generally a continuation of the sequence of observations. The beauty of HMM is that, it has a great capability of catering noise and variations in patterns, which is a core issue in pattern recognition. Interface is provided to software using MFC. Our software generates editable form of printed text with great efficiency and accuracy.
     
  2. نبیل

    نبیل محفلین

    مراسلے:
    16,743
    جھنڈا:
    Germany
    موڈ:
    Depressed
    ہاں ٹھیک ہے، ایک ہاون دستے میں HTK, HMM, اور DCT کو کوٹ کر پیس لو اور اسے MFC پر چھڑک کر صبح دوپہر شام نوش جان کرو۔ :? :( یار کیا واقعی انہوں نے اس طریقے سے کوئی او سی آر بنا لیا تھا؟
     
  3. زیک

    زیک محفلین

    مراسلے:
    38,724
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    نبیل: ایک پیپر کا تو میں نے ایسا ربط دیا تھا جو پبلک ہے۔ لیکن گوگل سکالر اور سائٹ‌سیئر پر زیادہ پیپر subscription کے بغیر نہیں پڑھے جا سکتے۔ اگر آپ کو کوئی اہم پیپر ملے تو مجھے بتا دیں میں آپ کو بھیج دوں گا۔
     
  4. زیک

    زیک محفلین

    مراسلے:
    38,724
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    محب: یہ کرلپ والے کہانیاں بناتے ہیں! کچھ basic jargon اور ٹولز کے نام لکھ دیئے ہیں مگر یہ تو پریس ریلیز ہے نہ کہ abstract۔ پھر صرف 36 سائز کا فونٹ وہ recognize کر سکتے ہیں۔ اس میں بھی مجھے شک ہے کہ صرف نفیس نستعلیق ہی کام کرے گا۔ اوپر سے لکھتے ہیں great accuracy مگر یہ کیا ہوتی ہے، کچھ quantify تو کریں۔
     
  5. محمد شمیل قریشی

    محمد شمیل قریشی محفلین

    مراسلے:
    1,405
    جھنڈا:
    Pakistan
    موڈ:
    Amused
    شاید اس تحریر سے آپ کو کوئي فائدہ حاصل ہو سکے ۔ اس میں ایک ماہر کا نام بھی جس سے راجہ بھائي ۔ محب بھائي رابط کر سکتے ہیں ۔ وہ فاسٹ سے تعلق رکھتے ہیں ۔ میرا کزن فاسٹ ( لاہور ) میں زیر تعلیم ہے ۔ اگر آپ کہیں تو اس سے ان صاحب کے بارے میں معلوم کروں؟

    میں نے ان صاحب کے بارے میں تحریر ہو سرخ رنگ سے واضح کر دیا ہے ۔ دیکھنے کے لیے نیچے سکرول کریں ۔

    Second Day (23rd March)
    --------------------------------------------------------------------------------
    Dr Khavar Zia, Director Informatics, delivered the first lecture of the day. This was related to standardization of Urdu Code Page. Dr Zia explained the work of the standardization Committee and the different issues and problems it had encountered in formulating its recommendations. The Code page designed by the Committee facilitates sorting of text. The Code page has been approved by Government of Pakistan as a Standard.

    The next speaker was Mr. Muhammad Saeed from Quicksoft, Islamabd. He gave an overview of different font technologies like postscript, Bitmapped font, True Fyre font and resident fonts. He also presented the implementation of True Type Font of Urdu. He introduced a software for font generation of Urdu fonts (Font creator).

    The next talk was delivered by Mr Tafseer Ahmed from the Computer Science Department Karachi. He talked about the new technology produced by Microsoft and Adobe for language processing. The basis of this technology is glyph level processing. A large number of advanced features for processing the glyph are available and can be very processing. The special feature of this technology is that the processing logic of glyph has been shuffled from word purses to fonts.

    Talk on True Type Fonts was presented by Mr. Tafseer Ahmad of KIT, The talk addressed the generation & implementation of urdu true type fonts. The talk also addressed the advantages of true type fonts. Dr. Humayun Mian Managing Director Systems limited gave a talk on Urdu font generation and rendering.He enumerated different systems of rendering Nastaleeq namely Font-based rendering. Bit mapped rendering and glyph based rendering. The theme of his lecture was that working on Nastaleeq rendering would entail research on advanced mathematics like differential equations of high order and splines

    Dr. Sarmad Hussain of FAST-NU gave a presentation of Optical Character Recognition (OCR). He underlined the need of OCR especially in digitally archiving old documents and records. He presented the technical problems in recognizing Nastaleeq Script. He then described the different steps involved in the functional design of a OCR for Nakh Script.

    The last talk of the day was given by the Mr. Badar Sami of the University of Karachi. The topic of his talk was Urdu Database, Issues and Solutions. He explained the method of storing Urdu text in existing database. He pointed the problems associated with Urdu, like diacritics, right-to-left storage and discussed their possible solutions.
     
  6. قیصرانی

    قیصرانی لائبریرین

    مراسلے:
    45,875
    جھنڈا:
    Finland
    موڈ:
    Festive
    جی گرو صاحبانٍ علم و دانش، کوئی تبصرہ شمیل بھیا کی پوسٹ پر :) کم سے کم کوئی بندہ تو لوکیٹ ہوا
    قیصرانی
     
  7. محب علوی

    محب علوی لائبریرین

    مراسلے:
    12,111
    جھنڈا:
    Pakistan
    موڈ:
    Bookworm
    ڈاکٹر سرمد سے کم از کم میں کوئی امید نہیں رکھتا اور بہت سے لوگ بھی نہیں رکھتے ۔ اتنی بھاری فنڈنگ جس طرح استعمال کی ہے وہ سب کے سامنے ہے اور جو آؤٹ پٹ ہے وہ بھی سب کے سامنے ہے۔ مشین ٹرانسلیشن ایک اور پراجیکٹ ہے جس پر کام اختتام کے قریب ہے اور اس پر جتنے پیسے لگیں ہیں اس سے لاہور ڈیفنس میں ایک پلازہ کھڑا ہو جاتا ہے کئی کنال پر۔ مشین ٹرانسلیشن پر بھی کسی اور دھاگہ میں بات کرتے ہیں۔
     
  8. قیصرانی

    قیصرانی لائبریرین

    مراسلے:
    45,875
    جھنڈا:
    Finland
    موڈ:
    Festive
    میرا خیال ہے کہ 30 سے 40 کروڑ کے درمیانی مالیت کا پراجیکٹ تھا مشین ٹرانسلیشن اور سنا ہے کہ ابھی تک کوئی ٹرائیل نہیں آیا۔ پراجیکٹ 3 یا 4 ماہ میں ختم ہو رہا ہے :wink:
    قیصرانی
     
  9. محب علوی

    محب علوی لائبریرین

    مراسلے:
    12,111
    جھنڈا:
    Pakistan
    موڈ:
    Bookworm
    اصل میں زکریا جہاں تک میرا خیال ہے ، کرلپ والوں کے ہاتھ وہ دونوں سافٹ وئیر لگے ہوئے ہیں جو سافٹ ٹیک میں پیش ہوئے او سی آر پر اور جنہوں نے انعام جیتے۔ :lol:

    اگر دو پراجیکٹ جو انعام یافتہ بھی قرار پائیں ہوں وہ مفت میں مل جائیں تو اس پر لکھا تو کافی کچھ جا سکتا ہے اور ترقی کے لیے جو مرضی کہا بھی ۔ :)
     
  10. الف نظامی

    الف نظامی لائبریرین

    مراسلے:
    16,106
    جھنڈا:
    Pakistan
    موڈ:
    Amused
    ایک آئیڈیا

    زبردست، امیج پراسیسنگ شروع نہ کی جائے؟ ا
     
  11. نبیل

    نبیل محفلین

    مراسلے:
    16,743
    جھنڈا:
    Germany
    موڈ:
    Depressed
    راجہ، اگر تمہیں اس کام کا کوئی آئیڈیا ہے تو ضرور شروع کرو۔ ایک مرتبہ آغاز ہونے کی دیر ہے، انشاءاللہ اس میں پیشرفت ہوتی جائے گی۔
     
  12. دوست

    دوست محفلین

    مراسلے:
    13,072
    جھنڈا:
    Germany
    موڈ:
    Fine
    ان ہزار اشکال کی یونیکوڈ ویلیوز میں لکھ کر دے سکتا ہوں۔
    اس کے لیے تھوڑی ریسرچ کی ضرورت ہوگی شاید ان پیج کے جو 90 کے قریب فونٹ ہیں ان کو کھنگالنا پڑے۔ لیکن میرا خیال ہے میں یہ کرسکتا ہوں۔
    او سی آر کے لیے کیا کسی پہلے سے بنے آزاد سافٹویر کو بنیاد نہیں بنایا جاسکتا؟
    کم از کم شکل پہچاننے کی حد تک۔
     
    • پسندیدہ پسندیدہ × 1
  13. الف نظامی

    الف نظامی لائبریرین

    مراسلے:
    16,106
    جھنڈا:
    Pakistan
    موڈ:
    Amused
    اچھی بات ہے، اگر کسی شکل میں لکھا ہوا ہے“مینڈک“ تو آپ نے اسے متن کی شکل میں لکھنا ہے اور اسی طرح ایک تمام اشکال کے متن کی ترتیب وار لسٹ بنانی ہے۔
    شکل پہچاننے والا اطلاقیہ جو شکل پہچانے،اسی کا متعلقہ متن (اس لسٹ کا استمعال کرتے ہوئے) آوٹ پٹ کردے۔
    بنایا جا بھی سکتا ہے ، باقی لوگ کیا کہتے ہیں؟
    جی ہاں ایسی ہی بات ہے۔ اسی طرح ان تمام اشکال کا ڈیٹا بیس بھی بنانا ضروری ہے۔ اس کے لیے تمام اشکال کی تصاویر لینا ہوں گی جو کہ printscreen سے یا کسی اور طریقہ سے لی جاسکتی ہیں۔
     
  14. قیصرانی

    قیصرانی لائبریرین

    مراسلے:
    45,875
    جھنڈا:
    Finland
    موڈ:
    Festive
    دیکھو بھائی اگر مجھے امیج پراسیسنگ میں‌کچھ مہارت ہوتی تو میں‌لازمی مدد کرتا۔ لیکن پھر بھی اگر کچھ ہنٹس مل جائیں تو مدد کر سکتا ہوں۔ باقی کام شروع تو کرنا ہے، آج نہ سہی کل سہی، جب کل سہی تو آج کیوں نہ سہی؟
     
  15. الف نظامی

    الف نظامی لائبریرین

    مراسلے:
    16,106
    جھنڈا:
    Pakistan
    موڈ:
    Amused
    میں اس بارے میں زکریا کی رائے سننا چاہتا ہوں۔
     
  16. نبیل

    نبیل محفلین

    مراسلے:
    16,743
    جھنڈا:
    Germany
    موڈ:
    Depressed
    بھائی آراء بھی آتی رہیں گی، تم اپنی تحقیق تو شروع کرو۔

    میں کچھ دنوں پہلے لائبریری سے ایک کتاب لایا تھا جس میں عربی او سی آر سے متعلقہ ایک کیس سٹڈی موجود ہے۔ میں کوشش کروں گا کہ اس حصے کو سکین کرکے یہاں مہیا کر دوں۔
     
  17. الف نظامی

    الف نظامی لائبریرین

    مراسلے:
    16,106
    جھنڈا:
    Pakistan
    موڈ:
    Amused
  18. الف نظامی

    الف نظامی لائبریرین

    مراسلے:
    16,106
    جھنڈا:
    Pakistan
    موڈ:
    Amused
    ایک خیال یہ آیا ہے کہ تمام اشکال کے بجائے ہمیں 1 حرفی ، 2 حرفی اور 3 حرف اشکال پر مشتمل ڈیٹابیس بصری شناخت کے لیے کافی ہو گا۔
    اپنی آرا سے نوازیں۔
     
  19. قیصرانی

    قیصرانی لائبریرین

    مراسلے:
    45,875
    جھنڈا:
    Finland
    موڈ:
    Festive
    راجا بھیا، اس طرح شاید کام کئی لاکھ اشکال تک پہنچ جائے
     
  20. مہوش علی

    مہوش علی لائبریرین

    مراسلے:
    3,003
    مجھے ايک چيز کي سمجھ نہيں آ رہي اور وہ يہ کہ انگريزي زبان والوں نے ايسا سافٹ ويئر ايجاد کيا ہے جو کہ انگريزي زبان کے تمام فونٹز کو پڑھ ليتا ہے، بلکہ اس سے بہت بہت بہت حد تک آگے جا کر انگريزي ميں "ہاتھ کي لکھائي" تک کو پڑھ ليتا ہے

    چنانچہ، اردو ميں نستعليق کے ليے ايسا سافٹ ويئر بنانا يقيني طور پر ممکن ہونا چاہيے کيونکہ "انگريزي ہاتھ کي لکھائي" يقيني طور پر اردو نستعليق سے مشکل ہو گي

    باقي فني تفصيلات کا مجھے علم نہيں، مگر يہي کہنا چاہوں گي کہ انگريزي ميں ہاتھ کي لکھائي پڑھنے کے سوفٹ ويئر کي "کيس سٹڈي" کرني چاہيئے کيونکہ وہاں سے فائدہ ہو سکتا ہے
     

اس صفحے کی تشہیر