'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

فلسفی نے 'اردو او سی آر پر تحقیق' کی ذیل میں اس موضوع کا آغاز کیا، ‏فروری 25, 2019

  1. زیک

    زیک محفلین

    مراسلے:
    38,910
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    اگر آپ کے پاس ونڈوز 10 ہے تو اس میں لینکس انسٹال کر سکتے ہیں
     
  2. دوست

    دوست محفلین

    مراسلے:
    13,080
    جھنڈا:
    Germany
    موڈ:
    Fine
    بس وہی کرنے لگا ہوں۔ پھر دیکھتے ہیں کیا ہوتا ہے۔
     
  3. ناصر محمود 313

    ناصر محمود 313 محفلین

    مراسلے:
    217
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    لینکس سسٹم تو میرے پاس ہے بھائی، اوبنٹو 18۔10 ۔ اس میں ٹیسیریکٹ 4 دستیاب ہے۔ طریقہ کار کی تفصیل مل جائے تو میں تجربہ کر سکتا ہوں۔
     
  4. دوست

    دوست محفلین

    مراسلے:
    13,080
    جھنڈا:
    Germany
    موڈ:
    Fine
    یہاں تشریف لے جائیں۔
    ٹریننگ کے دو آپشن ہیں باکس فائل (امیج پر باکس بنا کر۔۔۔) یا ٹیکسٹ اور فونٹ مہیا کر کے۔
    Using tesstrain والے سیکشن میں دیکھیں، دوسرا طریقہ۔ ٹیکسٹ لائبریری سے کوئی منتخب کر لیں افسانہ وغیرہ۔
    یہ ابھی ٹریننگ ڈیٹا کی تیاری ہے۔ پھر ماڈل ٹریننگ ہو گی جو کہ اوپر والے لنک پر ہی تفصیلاً موجود ہے۔
     
    • معلوماتی معلوماتی × 4
  5. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    "jtextboxeditor" کے سورس کوڈ سے ایک نئی جار بنائی ہے جس کو ضروری معلومات دے کر ٹف اور باکس فائل بنائی جاسکتی ہے۔ اس کو ڈاٹ نیٹ کے کسی ٹول میں شامل کر کے ایک ایسا پروگرام لکھنے کا ارادہ ہے جس میں فونٹ، سائز اور سٹائل بتا کر کسی بھی متن (n number of lines) کی تصویر اور باکس فائل بنا سکیں۔ جس کو "serak-tesseract-trainer" میں استعمال کر کے اصل تربیتی فائل حاصل کی جاسکتی ہے۔

    مہیا کردہ جار فائل کو چلانے کے لیے یہ کمانڈ استعمال کی جاسکتی ہے۔ یہ ونڈوز پر بھی چلا سکتے ہیں۔ اس کے لیے جاوا انسٹال ہونا ضروری ہے۔

    کوڈ:
    java -jar GenerateTiffBox.jar "Simple One Line Text Here" "eng" "Arial" 0 12 "exp0" "D:/OCR/test" false
    آرگومنٹس کی تفصیل یہ ہے کہ
    1: ایک لائن میں متن
    2: زبان کا کوڈ (eng, urd)
    3: فونٹ کا نام
    4: فونٹ کا اسٹائل (0 پلین ٹیکسٹ)
    5: فونٹ کا سائز
    6: لائن نمبر (اس میں exp ضروری ہے ، معلوم نہیں شاید بیس کوڈ میں کوئی ویلیڈیشن ہے، اس کی تفصیل دیکھی نہیں، فی الحال میرے خیال ایسے ہی استعمال ہوسکتاہے)
    7: آؤٹ پٹ ڈائریکٹری جہاں ٹف اور باکس فائلز چاہیے
    8: اس کا استعمال بعد میں دیکھوں گا فی الحال false پاس کریں۔
     
    • پسندیدہ پسندیدہ × 2
  6. دوست

    دوست محفلین

    مراسلے:
    13,080
    جھنڈا:
    Germany
    موڈ:
    Fine
    لینکس سب سسٹم فار ونڈوز پر ٹرائی کیا ہے۔ ایک تو بنیادی ٹرین ڈیٹا traineddata فائل بنی ہو، یہ پہلے بنانا ضروری ہے، ابھی اس کی سمجھ نہیں آئی۔
    دوسرے اگر یہ ٹھیک بھی ہو تو پہلے ہی فونٹ کام نہیں کرتے۔ ونڈوز فونٹس کسی وجہ سے لینکس میں نہیں چل پا رہے، کوشش کر دیکھی ہے، لینکس سب سسٹم کی جگاڑ سے کام خراب لگتا ہے۔
    تیسرے ٹیسرکٹ کی ٹریننگ سکرپٹ چلانے کے لیے اسے کمپائل کرنا پڑے گا جیسا کہ درج بالا لنک میں درج ہے۔ ڈیبین انسٹالیشن سے او سی آر نصب ہو جاتا ہے، ٹیس ٹرین کی سمجھ نہیں آتی کدھر ہے اور کہاں سے چلانی ہے۔
    فلسفی والا پروگرام جب تک ٹیکسٹ فائل کی ان پٹ نہ لے، یعنی سی شارپ میں رکھ کر لوپ سے سطر بہ سطر فیڈ نہ کروایا جائے، بے کار ہے۔
     
    • معلوماتی معلوماتی × 1
  7. محمد امین صدیق

    محمد امین صدیق محفلین

    مراسلے:
    1,670
    جھنڈا:
    Pakistan
    موڈ:
    Cheerful
    دوست ، ورچول مشین کی سیٹنگ میں کاپی پیسٹ کو انیبل کرکے دیکھ لیں۔:):)
     
  8. دوست

    دوست محفلین

    مراسلے:
    13,080
    جھنڈا:
    Germany
    موڈ:
    Fine
    میں نے پہلے کافی مرتبہ ورچوئل مشین استعمال کر رکھی ہے، ورچوئل باکس کے ذریعے۔ کبھی کاپی پیسٹ یا فائل شئیرنگ میں کامیابی نہیں ہوئی۔ اگے رب جانے
     
    • معلوماتی معلوماتی × 1
  9. محمد امین صدیق

    محمد امین صدیق محفلین

    مراسلے:
    1,670
    جھنڈا:
    Pakistan
    موڈ:
    Cheerful
    یونیکوڈ ٹیکسٹ متن تو متعدد اردو ویب وسائٹ سے حاصل کیا جاسکتا ہے ۔:):)
     
    • پسندیدہ پسندیدہ × 1
  10. محمد امین صدیق

    محمد امین صدیق محفلین

    مراسلے:
    1,670
    جھنڈا:
    Pakistan
    موڈ:
    Cheerful
    وی ایم وئیر ورک اسٹیشن کام میں لائیں۔:):)
     
  11. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    27,917
    اس کا کیا مطلب ہے؟ او سی آرانجن کمزور ہے؟ جو ڈیٹا آپ نے فیڈ کیا کم از کم اس پر تو نتیجہ درست دینا چاہئے۔
     
  12. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    27,917
    یہ ایک مسئلہ ضرور ہے لیکن اتنا گھمبیر نہیں کہ حل نہ ہو سکے۔
     
  13. دوست

    دوست محفلین

    مراسلے:
    13,080
    جھنڈا:
    Germany
    موڈ:
    Fine
    اصل چیز ٹریننگ ڈیٹا کی تیاری ہے، کوئی ایک بندہ کر سکتا ہے اس میں ایسی کوئی بات نہیں۔ کل تو میں اس پر توجہ نہیں دے سکوں گا کام کافی ہے۔
    لینکس پر البتہ ٹرین ڈیٹا فائل بنانے کا مسئلہ زیادہ پیچیدہ لگ رہا تھا اس کی کوئی مثال بھی موجود نہیں ہے وہاں۔ شاید سادہ سی چیز ہے لیکن اس پر کام کرنا پڑے گا۔ ورنہ پھر جاوا ایک لائن فی کمانڈ والا سافٹویئر استعمال کیا جائے۔
    میرا مقصد یہ تھا کہ آفیشل ویب سائٹ پر موجود ریسورسز کو ہی استعمال کر لیا جائے لیکن ابھی کچھ سمجھ میں کمی ہے۔
     
  14. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    27,917
    میں نے ٹیسریکٹ استعمال نہیں کیا۔ کیا کوئی دوست بتا سکتا ہے کہ اس کے انجن میں جملوں اور الفاظ کی آٹو سیگمنٹیشن اردو نستعلیق کے تقاضوں پر پوری اترتی بھی ہے یا نہیں؟
     
  15. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    تربیتی مواد والی فائل کو ٹیسٹ نہیں کیا تھا۔ مقصد صرف یہ دیکھنا تھا کہ جو تربیتی مواد والی فائل بنتی ہے وہ درست بھی ہے کہ نہیں۔ آج ان شاءاللہ اس کو بھی ٹیسٹ کروں گا۔
     
  16. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    تازہ ترین تجربہ تربیتی مواد کے لیے استعمال کی گئی فائل، اس سے جو تربیتی مواد بنایا گیا اس کے ذریعے اس تصویر کو ٹیسٹ کیا۔

    نتیجہ
     
    • پسندیدہ پسندیدہ × 3
    • زبردست زبردست × 1
  17. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    27,917
    فلسفی بھائی زبردست نتیجہ ہے۔ کیا پوری سطر ٹرینڈ کروائی تھی یا الگ الگ الفاظ؟
     
    • معلوماتی معلوماتی × 1
  18. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    پوری سطر
     
    • زبردست زبردست × 2
  19. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    27,917
    دوست دیکھ لیں کمال ہو گیا۔ اب آگے ورک فلو وضح کریں :)
     
    • متفق متفق × 1
  20. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    یہ بہت ابتدائی نتائج ہیں۔ ابھی سو فیصد کچھ کہا نہیں جاسکتا۔ آج کوشش کروں گا ایک ٹول بنا دوں جس کے ذریعے مخلتف فونٹس اور سائز کے ساتھ متن کی مہیا کردہ سطروں کی ٹف اور باکس فائلز بن جائیں۔ اس کے بعد بس پھر تجربے کرنے ہیں کہ کون سا تربیتی مواد بہتر رہے گا۔
     
    • پسندیدہ پسندیدہ × 2
    • زبردست زبردست × 1

اس صفحے کی تشہیر