'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

فلسفی نے 'اردو او سی آر پر تحقیق' کی ذیل میں اس موضوع کا آغاز کیا، ‏فروری 25, 2019

  1. شکیب

    شکیب محفلین

    مراسلے:
    1,792
    جھنڈا:
    India
    موڈ:
    Breezy
    ساتھ ہی ہر لفظ کو لغت سے بھی چیک کروا دیں۔
    ویسے مذکورہ بالا ٹریننگ فائل کا کیسا نتیجہ ہے؟
     
    • معلوماتی معلوماتی × 1
  2. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    ابھی تربیت والا پروسیس شروع نہیں کیا اس میں کافی وقت لگے گا۔
     
  3. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    پانچ لاکھ پانچ ہزار سطروں کے ساتھ تربیت کروانے کے بعد نتائج کچھ یوں ہیں

    [​IMG]

    موجودہ نسخ والے بیسٹ ماڈل کو بیس ماڈل کے طور پر استعمال کرکے
    کوڈ:
    یف راے ان تمام باتو ںکاتجز کرتے ہو ئے کہتے ہیںکہ یسبکچھ اس لے ہورہا ہےکہاہم
    نے احتجا عکرنابندکردیا ہے شایدسیف را ےگھر سہیں نلتے ورنہوہ د یکھنےککس طرح آج کےنو جوان
    امریکی بکگروں اورکن ریسٹورنٹ کے سا نےکھڑے ہوکر لوگو ںکولقینکررہے تھےکہہم دیی روٹییہغ
    دیی مرغ اور رو ٹیکھائیں گے ہ ہم نہوہ بقلیں پیں گے اورنہ وہ مغیا ںکھائیں گے حنیف راسے جی اِ
    آ پکومعلوم ہے ان نمامنو جوان بیےبچیوں کے ساتھکیا ہوا تیسرے دن حکیکارند ےآئے ہیں اٹھاکر
    گاڑیوں میں ڈا لکرشہرسئے با ہرچھوڑآ ئے ۹ُ
    
    بغیر بیس ماڈل کے
    کوڈ:
    حنیف رامے انتمم باتو کاتجز کرتے ہو ئےکہتے ہیںکہ یسبکچھ اس لیے ہور با ہےکہہم
    نے احتجا نکرنا بنذکر داہے شایدنیف را نے کھرہیں نگتے ورہوہ د کتےککساگر آج کےخ جوان
    امریکی بکروں او رچڑن ریگورنٹ کے سا نےکھرے ہورؤکو کقینکر رہے ےکہ ہم دیی روئی پنے
    دیی مرغ اوررو نیکھائئیں گے ب ہ ن و پلیں چہیں گے اورنہو ممنی ںکھائیں ئے صیف راسے جی ا
    آ پکومعلوم ہے ان تمام نو جوان نچے چیوں کےسا تھکیا و تیسرے دن حلتیکارند ےآئے ہیں ا ٹکر
    گاڑیوں میں ڈا لکرشہرسے پارچھو ڑآ ئےب
    
    آپ حضرات کی کیا رائے ہے؟

    میں نے سی ایل ای کا سافٹ وئیر بھی خرید لیا ہے۔ اس میں ان پٹ کے بارے میں کچھ بندشیں ہیں اور سپیڈ بھی بہت آہستہ ہے۔ مثلا
    [​IMG]
    اس لیے اس میں انٹرنیٹ پر موجود کتب کے مواد کا نتیجہ انتہائی ناقص ہے۔ لیکن اوپر دی گئی تصویر کا نتیجہ یوں ہے
    کوڈ:
    حنیف رامے ان تمام باتوں کا تجزیہ کرتے ہوئے کہتے ہیں کہ یہ سب کچھ اس لیے ہو ربا ہے کہ ہم
    نے احتجاج کرنا بند کر دیا ہے۔ شاید حنیف رامے گھر سے نہیں نکلتے ورنہ وہ دکھیتے کہ کس طرح آج کے نوجوان
    امریکی برگروں اور چکن ریسٹورنٹ کے سامنے کھڑے ہو کر لوگوں کو تلقین کر رہے تھے کہ ہم دیعی‌روٹی' چنے'
    دیسی مرغ اور روٹی کھائیں گے۔ ہم نہ وہ بوتلیں پئیں گے اور نہ وہ مرغیاں کھائیں گے۔ حنیف‌رامےجی‌!
    آپ کو معلوم ہے ان تمام نوجوان بچے بچیوں کے ساتھ کیا ہوا' تیسرے دن حکومتی کارندے آئے' انہیں اٹھا کر
    گاڑیوں میں ڈال کر شہر سے باہر چھوڑ آئے۔
    
    ابھی تک جو میں سمجھ پایا ہوں اس کے مطابق ان کے تربیتی مواد سے تصویر سے کچھ کوڈز حاصل ہوتے ہیں۔ مثلا اوپر دی گئی تصویر کو اگر ان کے تربیتی مواد سے پروسیس کروایا جائے تو یہ نتیجہ نکلتا ہے
    کوڈ:
    A01589A00616A03742A50684A00624A04066A50513A50670A00602A50553A02318A01080A51240A02994A00602A02490A03421A03742A51226A03293A50073A51240A50553A01589A03163A50513A50559A04045A51240A01981A03446A04955A50626A50735A04309A51218A04310A00602A04303A00703A00615A03893A04303A03873A04592A00703A04956A00613
    A04955A00703A02313A03441A03868A01841A04309A01841A02943A04046A03742A00790A02316A09152A04303A05189A01480A01644A01680A04275A05073A01839A02557A50215A01842A01097A00602A04861A50748A50684A04047A03598A04279A50516A03598A01841A04310A01918A00703A50553
    A50652A04956A01974A03867A50545A05189A02317A50830A02316A01589A00616A03742A02311A50684A04303A03598A04955A03991A01562A51240A00935A04955A04303A02799A04047A03911A00625A01839A04882A04309A04903A02321A03868 A03165A04160A50823A04897A02317A01644A01976A04303A04955A05189A04045A50629 A04857A04596A04097
    A03155A50551A00615A04160A01571A03417A50506 A50557A05157A03770A04955A03032A04596A04956A05189A03426A04303A05189A00703A50506 A50557A50629A03981A00606A04956A05189A03426A05097A02217A50506 A50831A01098A03770A50545A05189A04303A04111A01976A04596A50830A02316
    A03573A02236A00703A04184A01985A04956A01645A01839A50663A04303A03446A02078A02106A04955A02316A01839A03189A50107A00624A50513A50647A02235A02319A03868A04955A51079A50040A04210A02313A50823A04309A51218A04955A00624A50684A04309A04123A03867A50748A04047A01645
    A50514 A00946A01839 A00616A50771A05189A51109A01525A50011A01892A03573A03871A03252A50557A04955A51151A50771A50507
    جس کو پوسٹ پروسیس کیا جاتا ہے۔ جس میں کیوٹو لینگویچ ماڈل استعمال کیا گیا ہے۔ مزید تفصیل کے وقت درکار ہوگا۔ ایک اور اہم بات کہ سی ایل ای والے "tesseract 3.01" استعمال کر رہے ہیں۔

    اب اگر ہم اپنے تربیتی مواد اور اس کے نتیجے کی بات کریں تو کیا پوسٹ پروسیسنگ کے ذریعے بہتری کی گنجائش نکل سکتی ہے؟
     
    • پسندیدہ پسندیدہ × 4
    • معلوماتی معلوماتی × 2
    • زبردست زبردست × 1
  4. دوست

    دوست محفلین

    مراسلے:
    13,072
    جھنڈا:
    Germany
    موڈ:
    Fine
    نسخ والے پر جو ٹریننگ کروائی ہے اس میں ٹ ٹھیک ہے، اور رینڈم اعراب کے نتیجے میں ایک اضافی زیر اور ۹ُ عربی نو پر پیش نظر آ رہی ہے۔ کیا کہنے۔
    اس کے بغیر والے میں تقریباً وہی مسائل ہیں۔
    دونوں میں سپیس رینڈم ہے اور وقفہ ندارد، قرائن سے لگتا ہے کہ دیگر رموزِ اوقاف کے ساتھ بھی یہی صورتحال درپیش ہو گی۔ رموزِ اوقاف بڑھانے ہوں گے تربیتی مواد میں۔
    کرلپ والا 3.01 کا ہی شک تھا، اور صحیح نکلا۔ جتنا ٹریننگ کروائی ہے اس کے مطابق تو کام پورا کر رہا ہے۔ ان کا تربیتی مواد ٹیسرکٹ 3 پر ہی چلا ہو گا نا؟
    یہ نتائج بہترین درجے میں بھی اسی فیصد ہیں، اتنے کی پوسٹ پروسیسنگ کتنی کارآمد ہو گی۔
     
    • پسندیدہ پسندیدہ × 2
    • معلوماتی معلوماتی × 2
  5. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    23,851
    فلسفی دوست ایک اور موازنہ پیش ہے۔

    اصل:
    [​IMG]

    گوگل او سی آر:
    سی ایل ای او سی آر:
    محفل او سی آر:
     
    • معلوماتی معلوماتی × 5
  6. دوست

    دوست محفلین

    مراسلے:
    13,072
    جھنڈا:
    Germany
    موڈ:
    Fine
    گوگل کا نتیجہ بہتر ہو گا کیونکہ ان کے پاس تربیت کے لیے بہت کچھ ہے، اور ان کا الگورتھم اس اوپن سورس سے کہیں آگے کی چیز ہے۔ بہتریاں کی گئی ہیں لازماً۔
     
    • معلوماتی معلوماتی × 2
    • پسندیدہ پسندیدہ × 1
  7. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    ایک بات اور نوٹ کی ہے کہ جیسا شکیب بھائی نے پوچھا تھا کہ سی ایل ای کا پروگرام متن کو سطروں میں تقسیم کر کے ایک ایک سطر کا متن نکالتا ہے۔ پھر لینگویج ماڈل کے ذریعے اس کو درست کرتا ہے۔ یہ کیونکہ نیورول نیٹورک کے بغیر کام کرتا ہے اس لیے ایک سطر سے مواد نکالنے کے لیے جیسا دوست نے کہا تھا کہ بغیر نقطوں اور اعراب کے بنیادی حروف کے ساتھ متن نکالا جاتا ہے۔ اس میں شاید سپیس والے کو کسی حد تک کم کیا جاتا ہے۔ سطروں میں متن کی تقسیم، فانٹ سائز کے حساب سے کی جاتی ہے پھر کوڈز اخذ کرنے کے بعد ان کو پروسیس کیا جاتا ہے۔ فی الحال یہ بات سمجھ نہیں آئی کہ کوڈز سیکیورٹی (تربیتی مواد کی حفاظت کے پیش نظر) کی وجہ سے بنائے گئے ہیں یا پرفارمنس کی وجہ سے یا کسی اور وجہ کی بنیاد پر۔

    ایک اور بات جس کا پہلے شاید کسی نے تذکرہ بھی کیا تھا، 100 فیصد طریقہ کار معلوم نہیں لیکن شاید سطروں کو لینگویج ماڈل کے ذریعے ممکنہ طور جانچا جاتا ہے یعنی کہ ہر دو یا اس سے زیادہ الفاظ کی ممکنہ درست ترتیب کیا ہوسکتی ہے۔ ایسا کسی بہت بڑے ڈیٹا سیٹ کی بنیاد پر کرنے سے بہتر نتائج حاصل ہوسکتے ہیں۔ معلوم نہیں اس طریقہ کار کو کیا کہتے ہیں۔ ویسے یہ دلچسپ ہے، میں اس پر مزید کام کروں گا۔

    خیر آپ حضرات کی کیا رائے ہے، مزید متن بنایا جائے؟
    پوسٹ پروسیسنگ کے مختلف الگورتھم پر کام کیا جائے؟ یقینا آپ حضرات کی رائے اس میں اہم ہے۔ یا؟
     
    • پسندیدہ پسندیدہ × 4
  8. عباس اعوان

    عباس اعوان محفلین

    مراسلے:
    2,448
    جھنڈا:
    Germany
    موڈ:
    Cool
    کچھ آبزرویشنز ہیں میری:
    پانچ لاکھ پانچ ہزار سطروں کا تربیتی مواد ایک اچھے لیول کا مواد ہے۔
    نئے ڈیٹا کی ٹیزرکٹ کے ساتھ ٹریننگ میں باکس فائلز کی کیا صورت حال ہے؟ کیا ان میں بہتری لائی جا سکتی ہے؟؟؟؟، چاہے مینوئلی ہی کیوں نہ کرنی پڑے۔
    کیا تمام کیریکٹر درست ڈیٹیکٹ ہو رہے ہیں؟ اگر نہیں تو اس کو بہتر بنانے کی ضرورت ہے۔
    ٹریننگ ڈیٹا کے امیجز کو تھوڑا بدل کر مزید ٹرین کروایا جائے۔ میرا مطلب ہے کہ تمام امیجز کا بیک گراؤنڈ وغیرہ تبدیل کیا جائے تا کہ وہ امیجز کچھ ایسے نظر آئیں:
    [​IMG]

    پوسٹ پروسیسنگ بہت ضروری ہے۔اگر تمام کیریکٹرز درست ڈیٹیکٹ ہو رہے ہیں تو سپیس ڈال کر الفاظ بنانا مشکل نہیں ہے، اس چیز کا الگورتھم جلد ہی شئیر کروں گا، ان شاء اللہ تعالیٰ
    آفیشل فورم سے کچھ جواب وغیرہ آیا؟
    باقی آپ کی کاوش بہت ہی لائق تحسین ہے فلسفی برادر۔
     
    • پسندیدہ پسندیدہ × 3
  9. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    بہت شکریہ عباس صاحب۔

    اس پر پچھلے مراسلوں میں بات ہوچکی ہے کہ جمیل نوری نستعلیق سے باکس فائلز لیگیچر کے ساتھ درست بنتی ہیں۔ اور اگر فانٹ کریکٹر بیس ہے تب بھی باکس فائل درست ہیں۔ ہاں یہ بات ضرور ہے کہ باکس فائل میں کرننگ کی وجہ سے اسپیس کے لیے جگہ بہت مختصر ہوگی مثلا فقط ایک پکسل۔ شاید اس وجہ سے الفاظ کے درمیان سپیس درست نہیں بن پار رہی۔

    جیسا تربیتی مواد ہے اس کے حساب سے نتائج تو بہت بہتر ہیں۔ لیکن کہیں کہیں مسئلہ ہے۔ مثلا "مے" کا "ے" یا "ہے" کا "ے" بن جاتا ہے۔

    اس کے بجائے جس امیج سے متن نکالنا ہے اس کو بلیک اینڈ وائٹ کر کے استعمال کیا جائے۔ سی ایل ای والے بھی یہی کر رہے ہیں۔

    جی بالکل اس کا انتظار رہے گا۔
    ایک جواب آیا تھا اس میں مزید دو سوال پوچھے تھے۔ ان کا میں نے اسی دن (تین دن پہلے) جواب دے دیا تھا۔ اس کے بعد سے ابھی تک خاموشی ہے۔
     
    • پسندیدہ پسندیدہ × 3
    • زبردست زبردست × 1
  10. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    23,851
    امیج کو بلیک اینڈ وائٹ کرنے سے او سی آر کی ایکوریسی کتنے فیصد بہتر ہوتی ہے؟
     
    • معلوماتی معلوماتی × 1
  11. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    یہ طریقہ کار ابھی ٹیسریکٹ 4 یعنی اپنے والے تربیتی مواد کے ساتھ چیک نہیں کیا۔ کچھ مصروفیت ساتھ ساتھ چل رہی ہے۔ ایک یہ اور دوسرا پوسٹ پروسیسنگ والا کام لسٹ میں ہے ان شاءاللہ جلد اس کو دیکھتا ہوں۔
     
    • پسندیدہ پسندیدہ × 1
    • زبردست زبردست × 1
  12. فرقان احمد

    فرقان احمد محفلین

    مراسلے:
    10,183
    معزز محفلین یہ ربط بھی دیکھ لیجیے گا؛ شاید کسی کام آ سکے ۔۔۔!

    ربط
     
    • معلوماتی معلوماتی × 3
  13. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    23,851
    جزاک اللہ۔ فلسفی دوست عباس اعوان اس سیگمینٹیشن کےحوالہ سے ٹیزریکٹ انجن میں کام کیا جا سکتا ہے؟ یقینا یہ نستعلیق اسپیس (کرننگ) والا مسئلہ بھی حل کر سکتا ہے۔ اور اوی سی آر کی ایکوریسی بڑھانے میں معاون بھی ہے۔
    [​IMG]
     
    • معلوماتی معلوماتی × 3
    • زبردست زبردست × 2
  14. دوست

    دوست محفلین

    مراسلے:
    13,072
    جھنڈا:
    Germany
    موڈ:
    Fine
    مزید تربیت اور تربیتی مواد کے حوالے سے اوپر اپنا مشاہدہ بیان کیا تھا رموزِ اوقاف کے حوالے سے ہاتھ تنگ لگ رہا ہے، وہ بڑھا دئیے جائیں سطروں میں۔ دو جملے درمیان سے ٹوٹے ہوئے۔ کوما، وقفہ، کولن، سیمی کولن، سوالیہ نشان، انشائیہ۔۔۔ ڈھونڈ کر ان کے اطراف کے دس دس الفاظ اٹھا کر سطور تشکیل دے دی جائیں۔ یہی کام دیگر اعراب کے ساتھ ہو سکتا ہے۔
    پوسٹ پروسیسنگ یعنی سپیس ڈٹیکشن تو چلو ہو جائے گی۔
    پری پروسیسنگ کے لیے ایک کمپوننٹ لکھنا پڑے گا، (مندرجہ بالا طریقے کے مطابق) جو صفحے کو سطور، سطور کو الفاظ اور پھر ترسیموں میں توڑ کر او سی آر انجن کو فیڈ کروائے۔ یہ کام تو ٹیسرکٹ کے بنیادی ورک فلو سے باہر کی چیز بن جائے گا؟ یا انفرادی ترسیموں کی بنیاد پر باکس فائلیں بنائی جائیں، انہیں سے ٹریننگ کروائی جائے، اور پھر ان پُٹ بھی اسی طریقے کے مطابق مہیا کی جائے؟ (اور آؤٹ پُٹ پر پروسیسنگ کر کے ٹکڑے جوڑے جائیں)۔؟
     
    • پسندیدہ پسندیدہ × 2
  15. دوست

    دوست محفلین

    مراسلے:
    13,072
    جھنڈا:
    Germany
    موڈ:
    Fine
    اس تھیسز میں انگریزی کی ہاتھ کی لکھائی کی پہچان کا ذکر ہے۔ خصوصاً تاریخی کتب اور ڈائریوں میں رسم الخط ایسا ہے حروف باہم جڑے ہوتے ہیں۔ اور ان کی پہچان کافی حد تک درست طریقے سے کروا لی جاتی ہے۔ ڈیجیٹل ہیومینیٹیز کا موضوع ہے یہ۔
    خیر یہ ورکنگ پیپر مل گیا۔ پوسٹ، پیپر، او سی آر۔ یہ حضرات عربی رسم الخط پر آزما رہے ہیں، تاریخی متون پر۔
     
    • معلوماتی معلوماتی × 4
  16. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    اس کو وقت نکال کر پڑھتا ہوں۔

    بالکل ٹیسریکٹ کے علاوہ کچھ کام کرنا پڑے گا جو ٹیسریکٹ کی حدود سے باہر ہے۔ سی ایل ای والوں نے پوسٹ پروسیسنگ ایسا ہی کیا ہے۔ میرا خیال ہے کہ شاید گوگل والے بھی یہی کررہے ہیں۔ لیکن ان کے پاس ڈیٹا سیٹ اور پروسیسنگ پاور بہت ہے اس لیے نتیجہ بہتر بھی ہے اور فاسٹ بھی۔
     
    • پسندیدہ پسندیدہ × 2
    • معلوماتی معلوماتی × 1
  17. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    یہ دلچسپ ہے
     
    • معلوماتی معلوماتی × 1
  18. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    یہ واقعی دلچسپ لگ رہا ہے۔ مزید وقت نکال کر پڑھتا ہوں۔ آپ کا کیا خیال ہے کہ ٹیسریکٹ والے کام کو یہی روک کر اس پر طبع آزمائی کی جائے؟ یعنی اپنے تربیتی مواد اور نستعلیق فانٹ سے اس انجن کے لیے تربیت کروائی جائے؟
     
  19. دوست

    دوست محفلین

    مراسلے:
    13,072
    جھنڈا:
    Germany
    موڈ:
    Fine
    بنیادی طور پر یہ بھی پروڈکشن سکیل کا پراجیکٹ نہیں لگ رہا۔ دوسرے یہ کہ اس کا ورک فلو سمجھنے میں بھی وقت لگے گا، لیکن اگر اس میں پری اور پوسٹ پروسیسنگ ملوث نہیں ہے تو آزمانے میں کیا حرج ہے۔
    کرلپ والے اگر ایک امیج کے سینکڑوں ٹکڑے کر کے پہچان کرواتے ہیں، اگر وہی ہمیں کروانا پڑا تو پروسیسنگ اور وقت تو بہت صرف ہو جائے گا۔
    طےشدہ طور پر ٹیسرکٹ 4 پوری سطر دیکھتا ہے۔
    فی الوقت اگر رموزِ اوقاف کی پہچان درست ہو جاتی ہے تو پوسٹ پروسیسنگ کی جگاڑ لگا کر دیکھ لی جائے (یا اس کے بغیر بھی آزما لیا جائے)۔ جہاں لفظ پوسٹ پروسیسنگ کے دوران ڈکشنری میں نہیں ملتا، اس کے گرد کوئی ستارے وغیرہ ڈال دئیے جائیں تاکہ صارف خود درستی کر سکے۔ بہرحال پوسٹ پروسیسنگ سطر بہ سطر ہونی چاہیئے ورنہ ہر سطر کے غلط شناخت شدہ الفاظ اور ان پر پوسٹ پروسیسنگ سے بعد والی سطور میں ایرر ریٹ بڑھتا چلا جائے گا۔ ڈکشنری تو حروف کا کمبی نیشن دیکھے گی، جو میچ ہو گیا وہاں سپیس ڈال دی۔ لیکن لفظ میں سے لفظ نکل آنے کا امکان نظر انداز نہیں کیا جا سکتا۔ فی الوقت کوئی مثال ذہن میں نہیں آ رہی۔
     
    • معلوماتی معلوماتی × 3
  20. فرقان احمد

    فرقان احمد محفلین

    مراسلے:
    10,183
    • معلوماتی معلوماتی × 2

اس صفحے کی تشہیر