اردو او سی آر پر کام

زیک نے 'اردو او سی آر پر تحقیق' کی ذیل میں اس موضوع کا آغاز کیا، ‏مئی 9, 2015

  1. زیک

    زیک محفلین

    مراسلے:
    38,761
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    میرا فیلڈ کمپیوٹر وژن ہے۔ اس لحاظ سے امیج پراسسنگ وغیرہ پر کافی کام کیا ہے۔ عرصہ سے اردو او سی آر پر کام کرنے کے بارے میں سوچ رہا تھا۔

    نستعلیق اردو او سی آر نسخ سے کافی مشکل ہے۔ اس کے لئے اگر ہم کوئی او سی آر انجن بھی استعمال کریں تو کافی پری پراسسنگ کی ضرورت ہو گی۔

    اس کام کے لئے رضاکاروں کی ضرورت ہے۔ ایسے لوگ جو وقت دیے سکیں اور پراجیکٹ کے کسی حصے کے متعلق خاطر خواہ علم رکھتے ہیں۔

    پہلی چیز اچھی کوالٹی کا نستعلیق سکین ڈیٹا اکٹھا کرنا ہے۔ ترسیمے کی زیادہ سے زیادہ مثالیں بھی ضروری ہیں۔

    اس کے علاوہ امیج پراسسنگ، او سی آر انجن جیسے ٹیسیریکٹ وغیرہ میں مہارت بھی کام آ سکتی ہے۔

    اگر آپ کے خیال میں آپ اس پراجیکٹ میں مددگار ثابت ہو سکتے ہیں تو یہاں اپنے خیالات کا اظہار کریں کہ آپ کیا ذمہ داریاں اٹھائیں گے۔
     
    • زبردست زبردست × 10
    • پسندیدہ پسندیدہ × 4
    • معلوماتی معلوماتی × 1
  2. ابن سعید

    ابن سعید خادم

    مراسلے:
    60,165
    ہمارا خیال ہے کہ ہم ابتدا میں ٹریننگ کے لیے علیحدہ علیحدہ ترسیموں بلکہ کشتیوں اور نقاط وغیرہ کو استعمال کر سکتے ہیں۔ اور یہ آزماتے ہیں کہ کسی ورڈ پروسیسیر میں ایک ہی خط میں لکھ کر تیار کی گئی تصویری فائل کو اسی خط کے ترسیموں سے کس حد تک ملایا جا سکتا ہے۔ مشکل ترین مرحلہ تصاویر میں سے کشتیوں اور نقاط کو علیحدہ کرنا ہوگا۔ ہمارا خیال ہے کہ ہم اشکال کو مستطیل خاکوں میں گھیرنے کی کوشش کرنے کے بجائے اوپن سی وی وغیرہ کی مدد سے سارے اشکال علیحدہ کیے جائیں اور ساتھ ہی ان کے کورآرڈینیٹ اور طول و عرض کا بھی حساب رکھا جائے۔ :) :) :)
     
    • پسندیدہ پسندیدہ × 2
    • معلوماتی معلوماتی × 1
  3. زیک

    زیک محفلین

    مراسلے:
    38,761
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    مختلف ترسیمہ جات کی علیحدہ امیج فائلز بنا کر ان پر تجربات کئے جا سکتے ہیں۔

    اوپن سی وی یا دیگر وژن اور امیج پراسسنگ لائبریریز کا استعمال بہتر رہے گا مگر ضرورت پڑنے پر کچھ کوڈنگ خود بھی کرنی پڑے گی
     
    • معلوماتی معلوماتی × 1
  4. arifkarim

    arifkarim معطل

    مراسلے:
    29,828
    جھنڈا:
    Norway
    موڈ:
    Happy
    :eek::eek::eek:
    ابن سعید بھائی ہم آپ سے معافی چاہتے ہیں جو خوامخواہ اتنا عرصہ ترسیمہ جات کی امیج پراسیسنگ سے متعلق آپ پکو ستاتے رہے۔ ہمیں کیا معلوم تھا کہ اپنے زیک بھائی اس فیلڈ میں چھپے رستم نکلیں گے :)

    فانٹ گلفس سے بہتر ڈیٹا اور کیا ہو سکتا ہے۔ ہمارے پاس کم و بیش 25000 نوری نستعلیق ترسیموں کا ڈیٹا پہلے سے موجود ہے جسے کسی بھی سائز یا ریزولوشن میں ایکسپورٹ کیا جا سکتا ہے۔ یہ ڈیٹا مختلف اقسام کی امیج پراسیسنگ جیسے او سی آر، کرننگ وغیرہ کیلئے کار آمد ثابت ہو گا۔

    نوری نستعلیق گلفس کا ڈیٹا فراہم کر سکتا ہوں۔ ٹیکسٹ، امیج یا کسی اور فارمیٹ میں، جیسا آپ بہتر سمجھیں۔

    نستعلیق میں ایسا ہے کہ نقاط کے ساتھ ساتھ خالی کشتیاں بھی آپس میں Kern ہوتی ہیں۔ ہم ابتداء میں خالی کشتیوں کو کرننگ کیساتھ ٹیسٹ کر سکتے ہیں کہ کیسا نتیجہ آتا ہے جسکے بعد نقاط کو بھی شامل کیا جا سکتا ہے۔

    یہ کام گلفس کے لیول پر بہت آسانی سے ہو سکتا ہے۔ ہم او سی آر ڈیٹا بیس میں ایک ہی ترسیمے کے دو الگ الگ ڈیٹاز فیڈ کر سکتے ہیں۔ پہلا ڈیٹا اسکی کشتی کا ہوگا، دوسرا ڈیٹا اسکے نقاط کا۔ تاکہ تلاش میں بہتر سے بہتر رزلٹ لایا جا سکے۔ مثال کے طور پر ترسیمہ”نبیل“ کے بارہ میں میرے ذہن میں یہ خاکہ آتا ہے:
    [​IMG]
    زیک بھائی اس بارہ میں بہتر بتا سکیں گے کہ آیا ایسا ممکن ہے یا نہیں۔

    آپکو یہ امیج فائلز کس فارمیٹ اور کوالٹی میں درکار ہیں؟ ہم فراہم کر دیتے ہیں۔ :)
     
    مدیر کی آخری تدوین: ‏اپریل 18, 2017
    • زبردست زبردست × 2
    • پسندیدہ پسندیدہ × 1
  5. زیک

    زیک محفلین

    مراسلے:
    38,761
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    حیرت کی بات ہے کہ آپ نے مجھے چھپا رستم سمجھ لیا
     
    • پر مزاح پر مزاح × 2
  6. arifkarim

    arifkarim معطل

    مراسلے:
    29,828
    جھنڈا:
    Norway
    موڈ:
    Happy
    جی حیرت ہی ہے کہ اس فارم کے توسط سے ہم ایک دوسرے کو اتنے سالوں سے جانتے ہیں لیکن ہمیں معلوم ہی نہ تھا کہ آپکی فیلڈ کونسی ہے :)
     
    • پسندیدہ پسندیدہ × 1
  7. نوشاب

    نوشاب محفلین

    مراسلے:
    754
    جھنڈا:
    Pakistan
    موڈ:
    Happy
    اور اس کا حل یہ ہے کہ تعارف کے زمرے میں تعلیمی کوالیفیکشن اور اور ان کی اپڈیٹس ضرور دی جائیں
    اگر نوکری یا پیشہ سے متعلق تفصیلات دینا ممکن ہو ں تو اور بھی بہتر ہے۔
     
    • پسندیدہ پسندیدہ × 1
    • دوستانہ دوستانہ × 1
  8. arifkarim

    arifkarim معطل

    مراسلے:
    29,828
    جھنڈا:
    Norway
    موڈ:
    Happy
    خاکسار درج ذیل کوالٹی کے ترسیمہ جات الگ الگ امیج بمع صوتی نام کے فراہم کر سکتا ہے:
    [​IMG]
    زیک ابن سعید نبیل کیا اتنی امیج کوالٹی کافی ہوگی؟
     
    مدیر کی آخری تدوین: ‏اپریل 18, 2017
    • پسندیدہ پسندیدہ × 1
    • زبردست زبردست × 1
  9. الف نظامی

    الف نظامی لائبریرین

    مراسلے:
    16,167
    جھنڈا:
    Pakistan
    موڈ:
    Amused
    نستعلیق متن کی سیگمینٹیشن کیسے کی جاتی ہے۔
    لائن سیگمینٹیشن کے لیے
    ہسٹو گرام
    اور
    لیگیچر سیگمینٹیشن کے لیے
    Connected Component Labeling Algorithm
    استعمال کیا جاتا ہے۔

    دیکھیے:صفحہ 39-42
    Satti, D.A. Offline Urdu Nastaliq OCR for Printed Text using Analytical Approach, Department of Computer Science Quaid-i-Azam University Islamabad, Pakistan, 2013.​
     
    آخری تدوین: ‏مئی 9, 2015
    • معلوماتی معلوماتی × 3
    • زبردست زبردست × 2
  10. arifkarim

    arifkarim معطل

    مراسلے:
    29,828
    جھنڈا:
    Norway
    موڈ:
    Happy
    تحقیقی مقالہ شیئر کرنے کا شکریہ! دوست نے ایک دفعہ ملاقات میں بتایا تھا کہ ادارہ CRULP کے ڈاکٹر سرمد حسین صاحب اس سلسلہ میں کافی کام کر چکے ہیں۔ ادارے کی ویب سائٹ سے اس ضمن میں تین تحقیقی مقالوں کے روابط ملے ہیں جہاں مختلف انداز میں متن کے سیگمنٹس بنانے کا طریقہ وضع کیا گیا ہے:
    http://www.cle.org.pk/Publication/theses/2010/OCRMUAZ.pdf
    http://www.cle.org.pk/Publication/theses/2009/misbahtheses.pdf
    http://www.cle.org.pk/Publication/theses/2007/OCRSOBIA.pdf
    مزید:
    http://www.cle.org.pk/research/theses.htm
     
    • معلوماتی معلوماتی × 3
    • پسندیدہ پسندیدہ × 1
  11. نمرہ

    نمرہ محفلین

    مراسلے:
    602
    جھنڈا:
    Pakistan
    موڈ:
    Paranoid
    مجھے بنیادی طور پر ایک paper worthy مسئلے کی ضرورت ہے، تو شاید میں اس او سی آر پر کام کرنے کے لیے دستیاب ہوں۔ فانٹس وغیرہ کا کوئی آئیڈیا نہیں البتہ امیج پروسیسنگ میں کام کیا ہوا ہے میں نے اور اوپن سی وی کا بھی تجربہ ہے۔
     
    • پسندیدہ پسندیدہ × 2
    • زبردست زبردست × 2
  12. دوست

    دوست محفلین

    مراسلے:
    13,075
    جھنڈا:
    Germany
    موڈ:
    Fine
    سی ایل ای کا آنلائن او سی آر کافی حد تک مکمل نظام ہے۔ یہاں سے پتا چل رہا ہے کہ پراجیکٹ مکمل کر کے دے دیا گیا ہے 2014 میں۔
    اس کا امیج کارپس بھی دستیاب ہے۔ لیکن یہ مفت نہیں ہے۔ نان کمرشل استعمال کے لیے فری کا بیان تو موجوو ہے لیکن پروسینگ فیس کا ذکر بھی ہے۔ اب یہ فیس کتنی ہے آیا پندرہ ہزار (جیسا کہ ہر آئٹم کی قیمت بحوالہ پاکستان 150 ڈالر ہے) یا کتنی؟
    اگر یہ امیج ڈیٹا دستیاب ہو جائے تو کسی بھی او سی ار سسٹم کو ٹرین کروانا بہت ہی آسان ہو سکتا ہے۔ میں نے مارچ میں ڈاکٹر سرمد کی ایک پریزنٹیشن میں ان کے مختلف کاموں کے ساتھ اس کا تعارف بھی دیکھا تھا۔ وہ کشتیوں اور نقطوں کو الگ الگ مختلف رنگوں میں رنگتے ہیں اور پھر تیسرے مرحلے میں ہر نقطہ کشتی کے ساتھ ملا کر پروسیس کیا جاتا ہے۔ مجھے یاد پڑ رہا ہے کشتی کا منسلکہ نقطہ بالکل الٹ رنگ میں رنگا ہوا تھا جس کے بعد کمپیوٹر نے ان میں ربط پیدا کرنا تھا۔ یہ میرا خیال ہینڈ ٹیگڈ تصاویر تھیں۔ یعنی ٹریننگ امیج کارپس۔
    اگر ایک ورک فلو بن جائے تو اس کے لیے ٹریننگ ڈیٹا کی فراہمی ہم ان ترسیموں سے کر لیں۔ یا پھر سی ایل ای سے بات کر لی جائے؟ اگر یہ ٹریننگ ڈیٹا یہ لینا ہے تو چندہ کر کے بھی لیا جا سکتا ہے۔ کیا خیال ہے آ پ کا؟
    یہاں میں ذکر کرتا چلوں کہ میری یونیورسٹی (جامعہ گجرات) اور سی ایل ای کی یونیورسٹی (یو ای ٹی لاہور) میں ایک ایم او یو سائن ہو رہا ہے (یا ہو چکا ہے) جس کے ذریعے دونوں ادارے مرکز السنہ و علوم ترجمہ اور مرکز تحقیقات لسانیات مل کر کچھ منصوبوں پر کام کا ارادہ رکھتے ہیں۔ لیکن میرے خیال میں یہ کام شاید مشینی ترجمہ کے ذیل میں ہو گا زیادہ تر۔ خیر جو بھی ہوا وہ تو ادارہ جاتی سطح کا معاملہ ہے۔ یہاںمیں نے ذاتی حیثیت میں ٹریننگ ڈیٹا کے حوالے سے تجویز پیش کی ہے۔ چونکہ اردو او سی آر جو آزاد اور مفت ہو آج کی سب سے بڑی ضرورت ہے۔ اداروں کو تو کہیں نا کہیں سے کچھ مل ہی جاتا ہے لیکن صارفین بہت عرصے تک منتظر رہتے ہیں۔ اب شاید وقت آ گیا ہے کہ سنجیدگی سے ایک عام صارف کے کمپیوٹر پر اردو او سی آر مہیا کرنے پر کام کیا جائے۔
     
    • زبردست زبردست × 5
    • پسندیدہ پسندیدہ × 3
  13. arifkarim

    arifkarim معطل

    مراسلے:
    29,828
    جھنڈا:
    Norway
    موڈ:
    Happy
    شاکر، میں نے اس او سی آر پر ہر ممکن سافٹوئیر سے نوری نستعلیق متن میں صفحہ اسکین کر کے اپلوڈ کیا ہے، یہاں تک کے خود ٹائپ کر کے اسکا امیج بنا کر بھی ٹرائی کیا ہے پر یہ ہر بار فیل ہوجاتا ہے۔ درج ذیل تصویر عام کورل ڈرا میں لکھا گیا متن ہے۔ اگر یہ اسکو بھی پڑھ نہیں سکتا تو اسکا کیا فائدہ؟
    [​IMG]
     
    مدیر کی آخری تدوین: ‏اپریل 18, 2017
    • معلوماتی معلوماتی × 1
    • متفق متفق × 1
  14. الف نظامی

    الف نظامی لائبریرین

    مراسلے:
    16,167
    جھنڈا:
    Pakistan
    موڈ:
    Amused
    نستعلیق سکین ڈیٹا کی کچھ تفصیل بتا دیں کہ کس قسم کا ڈیٹا چاہیے جسے سکین کرنا ہے۔
     
    • معلوماتی معلوماتی × 1
  15. زیک

    زیک محفلین

    مراسلے:
    38,761
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    کیا یہ ان کے مثالی صفحات کے علاوہ بھی کام کرتا ہے؟
     
    • پر مزاح پر مزاح × 1
  16. زیک

    زیک محفلین

    مراسلے:
    38,761
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    کمپیوٹر سے جنریٹ کئے گئے الفاظ اور ترسیموں سے لے کر مختلف کتب کے صفحات کے سکین تاکہ بتدریج او سی آر کو آسان سے مشکل کام کرایا جا سکے
     
    • پسندیدہ پسندیدہ × 1
    • معلوماتی معلوماتی × 1
  17. الف نظامی

    الف نظامی لائبریرین

    مراسلے:
    16,167
    جھنڈا:
    Pakistan
    موڈ:
    Amused
    سکین امیج کی ریزولوشن کیا ہونی چاہیے۔
     
    • معلوماتی معلوماتی × 1
  18. الف نظامی

    الف نظامی لائبریرین

    مراسلے:
    16,167
    جھنڈا:
    Pakistan
    موڈ:
    Amused
    مدیر کی آخری تدوین: ‏اپریل 22, 2017
    • پسندیدہ پسندیدہ × 1
    • معلوماتی معلوماتی × 1
  19. دوست

    دوست محفلین

    مراسلے:
    13,075
    جھنڈا:
    Germany
    موڈ:
    Fine
    میں نے ذاتی طور پر یہ استعمال نہیں کیا یعنی اردو صحافت کے لیے۔ ایک انگریزی اردو فرہنگ کا سکین کردہ صفحہ دے کر دیکھا تھا جو کچھ نہ کچھ پڑھا ہی تھا اس نے۔ لیکن ہمیں تو ٹریننگ ڈیٹا سے غرض ہے۔ میرا مقصد اینوٹیٹڈ امیجز کی طرف توجہ دلانا تھا جو ان کے امیج کارپورا سیکشن کے تحت موجود ہیں۔ اگر ٹریننگ کی کوئی اور اپروچ لاگو کرنی ہے تو پھر اس کی تو کوئی ضرورت نہیں رہتی۔
     
    • متفق متفق × 1
  20. ابن سعید

    ابن سعید خادم

    مراسلے:
    60,165
    ہمیں علم ہے کہ ڈاکر سرمد صاحب اور ان کی ٹیم نے نستعلیق خطوط کی سیگمنٹیشن کے لیے ایک سے زائد طریقوں پر کام کیا ہے، بلکہ ہم نے اردو لغت والے مقالے میں ان کے کچھ مقالوں کا حوالہ بھی دیا ہے۔ اگر ان کا یا کسی اور کا کام عمومی طور پر دستیاب ہے (جو کہ ہونا چاہیے، اگر فنڈنگ سرکاری رہی ہو) تو اس سے استفادہ نہ کرنا پہیہ پھر سے ایجاد کرنے کے مترادف ہوگا۔ لیکن کوڈ اور ڈیٹا کی عدم دستیابی یا معیار ناقص ہونے کی صورت میں نئے سرے سے کام کرنے میں کوئی حرج نہیں۔ :) :) :)
     
    • متفق متفق × 2
    • زبردست زبردست × 1

اس صفحے کی تشہیر