'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

MindRoasterMirs · فروری 25، 2019

دوست نے کہا:
ٹیسرکٹ کا تو انگریزی نتیجہ بھی ترلے منتاں ہی ہے، وجہ اوپن سورس ہونا۔

باقی تو ٹھیک لیکن لینکس بھی اوپن سورس ہی ہے بھائی ۔

MindRoasterMirs · فروری 25، 2019

فلسفی نے کہا:
جہاں تک میری ناقص معلومات ہیں بہت سے کمرشل (شاید گوگل بھی) ٹیسرکٹ کے انجن کو ہی استعمال کر رہے ہیں۔ اصل مسئلہ اس کے ٹرینگ ڈیٹا کا ہے۔ ذرا وقت نکالنا پڑے گا اس کے لیے، یا تو پہلے سے موجود ڈیٹے کو بہتر کیا جائے یا نئے سرے سے ٹرینگ ڈیٹا بنایا جائے۔ میرے خیال میں انجن ٹھیک ہے اگر کسی طرح ٹرینگ ڈیٹا تیار ہو جائے تو ایک اچھا آف لائن او سی آر تیار کیا جاسکتا ہے۔ جو بلاشبہ ایک کارآمد پروگرام ہو گا۔

میرے خیال میں ٹیساریکٹ ہے ہی گوگل کا۔ Projects – opensource.google.com

جاسم محمد · فروری 25، 2019

MindRoasterMirs نے کہا:
میرے خیال میں ٹیساریکٹ ہے ہی گوگل کا۔ Projects – opensource.google.com

کیا اس کا مطلب گوگل کلاؤڈ ویژن اے پی آئی میں یہی استعمال ہوا ہے؟

زیک · فروری 25، 2019

جاسم محمد نے کہا:
کیا اس کا مطلب گوگل کلاؤڈ ویژن اے پی آئی میں یہی استعمال ہوا ہے؟

نہیں

دوست · فروری 25، 2019

اس کام کے لیے سی ایل ای والوں نے بھی ڈیٹا تیار کیا تھا، اور شاید فروخت کے لیے پیش بھی کیا تھا۔ لیکن اب مجھے کوئی ربط نہیں مل رہا اس کا۔ بس ان کی آنلائن سروسز ہیں اور او سی آر ڈیسکٹاپ۔ اچھی خاصی محنت والا کام تھا، تصاویر میں لگیچر نقطوں کے ساتھ، بغیر، جوڑ واضح کر کے وغیرہ وغیرہ۔
ان کا او سی آر جمیل نستعلیق 16 پوائنٹ سائز پر ٹھیک کام کرتا ہے۔
اس حوالے سے میں مالی امداد مہیا کر سکتا ہوں، جس قدر میرے بس میں ہوا۔ امیج پراسیسنگ کے لیے نہ وقت ہے اور نہ ماؤس کلکس اور ٹائپنگ کی اجازت اب ہاتھ دیتے ہیں۔

دوست · فروری 25، 2019

ورک فلو وضع کیا جائے، ایک ڈیٹا انٹری آپریٹر کی خدمات حاصل کی جائیں، معاوضہ چندہ کیا جائے، پراجیکٹ کی نگرانی کی جائے۔ نتائج کو پرکھ کر اوپن سورس طریقے سے فراہم کر دیا جائے۔

دوست · فروری 25، 2019

اس کے لیے سادہ طریقہ تو گوگل اور ریختہ کا استعمال ہے۔
نوری نستعلیق اور دستی کتابت والی کتب 1947 سے پہلے اور بعد والی منتخب کریں، امیجز اور ٹیکسٹ حاصل کریں (گوگل او سی آر سے)۔ (کوئی محفلین یہ کام کرے)
ٹیکسٹ فائلز کو درست کریں، بمطابق تصاویر۔ (کوئی طالبعلم جسے اردو، لسانیات اور کمپیوٹر کی سوجھ بوجھ ہو، معاوضے پر رکھ لیا جائے)۔
ٹریننگ فائلز تیار کریں۔ (سکرپٹ لکھ کر یا دستی، تکنیکی طور پر خواندہ شخص ہی کر سکتا ہے)۔
سب سے زیادہ محنت آزما گوگل سے عمل کاری شدہ تصاویر اور متن کی تطبیق ہے۔

دوست · فروری 25، 2019

یہ باکس فائل والا کام بھی محنت طلب لگ رہا ہے۔

دوست · فروری 25، 2019

ٹیسرکٹ کا ٹریننگ ڈیٹا تیار کرنے کے لیے یہ بھی کام کی چیز لگ رہی ہے۔
سادہ لفظوں میں ایک سطر کی امیج اور اس کا درست کردہ متن ایک سطر میں، ان کے جوڑے چاہئیں۔
گوگل او سی آر اپنا یار ہے اس معاملے میں، جیسے مودی نواز شریف کا یار رہا ہے۔
چار لاکھ سطور کا مطلب ہے، اگر ایک صفحے پر 23 سطور ہوں تو 17391 صفحات :music:

اس پر کم از کم چھ ماہ لگیں گے، اگر ایک کُل وقتی بندہ رکھا جائے، اسے گوگل سے تصاویر اور متن فراہم کیا جائے، وہ صرف کریکشن کرے، ٹائپنگ نہیں۔

دوست · فروری 25، 2019

یہ ساری تصاویر ایک ہی فونٹ کی بجائے مختلف دستی کتابت سے بھی حاصل کرنی چاہئیں، جیسا کہ ٹیسرکٹ والے بھی کہتے ہیں کہ فونٹ مکس کرنے کی حوصلہ افزائی کی جاتی ہے، تاکہ ٹریننگ اچھی ہو سکے۔
فی سطر ایک امیج جنریٹ کرنا سکرپٹنگ کے ذریعے ممکن ہونا چاہیئے۔

دوست · فروری 25، 2019

اگر نیورل نیٹ ورک والا ٹیسرکٹ 4 چلانا ہے تو پچھلا سب بھول جانا پڑے گا۔ مجھے تو دستیاب اردو ٹریننگ ڈیٹا کی سمجھ نہیں آ رہی اس کی امیج فائلیں کدھر ہیں؟ بس فریکوئنسی اور بائی گرامز ہیں۔

دوست · فروری 25، 2019

لو فیر
یا تے کم شروع ہو جا وے گا
یا فیر دھاگوں کے قبرستان میں ایک اور دھاگے کا اژافہ۔
اور اگلے دھاگے میں اس کا ربط بھی شامل ہو گا، ہمراہ "میرے خیال میں پہیا ہر بار دوبارہ ایجاد کرنے کی بجائے یہیں محفل پر موجود ماضی کے کئی او سی آر دھاگوں سے پہلے استفادہ کر لیا جائے تو کام زیادہ تیزی سے آگے بڑھ سکے گا:"

عبید انصاری · فروری 26، 2019

اس کام میں بعض چیزیں تو تکنیکی ہیں اور بعض عملی طور پر کرنے کی۔
محفلین مختلف فیلڈز سے متعلق ہیں اس لیے مختلف خدمات مہیا کرسکتے ہیں۔ اگر فلسفی بھائی اس کام میں درکار امور کو واضح کرسکیں تو اچھا رسپانس مل سکتا ہے۔
جیسے شاکر بھائی نے بعض باتوں کی جانب نشاندہی فرمائی ہے۔
در اصل ہم لوگوں کو یہی سمجھ نہیں ہے کہ اس کام میں کس کس قسم کی خدمات درکار ہیں۔

عبید انصاری · فروری 26، 2019

دوست نے کہا:
اس کے لیے سادہ طریقہ تو گوگل اور ریختہ کا استعمال ہے۔
نوری نستعلیق اور دستی کتابت والی کتب 1947 سے پہلے اور بعد والی منتخب کریں، امیجز اور ٹیکسٹ حاصل کریں (گوگل او سی آر سے)۔ (کوئی محفلین یہ کام کرے)
ٹیکسٹ فائلز کو درست کریں، بمطابق تصاویر۔ (کوئی طالبعلم جسے اردو، لسانیات اور کمپیوٹر کی سوجھ بوجھ ہو، معاوضے پر رکھ لیا جائے)۔
ٹریننگ فائلز تیار کریں۔ (سکرپٹ لکھ کر یا دستی، تکنیکی طور پر خواندہ شخص ہی کر سکتا ہے)۔
سب سے زیادہ محنت آزما گوگل سے عمل کاری شدہ تصاویر اور متن کی تطبیق ہے۔

1۔ تصویری کتابوں سے کس قسم کی امیجز مطلوب ہوں گی؟ کیا تصویر سے ایک ایک لفظ کو ٹکڑے ٹکڑے کرکے حاصل کیا جائے گا؟
2۔ گوگل او سی آر سے مواد حاصل کرنا تو کافی آسان ہے مگر یہ نہیں سمجھا کہ اسے ڈیٹا ٹریننگ کے لیے کس طرح استعمال کیا جائے گا۔
بہرحال تصویری کتابوں سے امیجز حاصل کرنا ہوں یا انہیں گوگل کے او سی آر سے کنورٹ کرنا ہو یا اور کسی قسم کا ڈیٹا انٹر کرنا ہو اس کے لیے میری خدمات حاضر ہیں۔ گر قبول افتد!

فلسفی · فروری 26، 2019

عبید انصاری نے کہا:
اس کام میں بعض چیزیں تو تکنیکی ہیں اور بعض عملی طور پر کرنے کی۔
محفلین مختلف فیلڈز سے متعلق ہیں اس لیے مختلف خدمات مہیا کرسکتے ہیں۔ اگر فلسفی بھائی اس کام میں درکار امور کو واضح کرسکیں تو اچھا رسپانس مل سکتا ہے۔
جیسے شاکر بھائی نے بعض باتوں کی جانب نشاندہی فرمائی ہے۔
در اصل ہم لوگوں کو یہی سمجھ نہیں ہے کہ اس کام میں کس کس قسم کی خدمات درکار ہیں۔

جی عبید بھائی، فی الحال میں بھی اسی کشمکش میں ہوں کہ "کرنا کی اے؟

"۔ اصل میں بنیادی باتیں تقریبا سب ہی جانتے ہیں۔ لیکن کسی بھی زور آزمائی سے پہلے یہ یقین کرنا ضروری ہے کہ سمت درست ہے کہ نہیں۔ ورنہ محنت ضائع ہو گی۔

میری معلومات ابتدائی نوعیت کی ہیں۔ میں ابھی تمام متعلقہ لڑیوں میں زیر بحث معاملات اور پروجیکٹ کی تفصیلات پڑھ رہا ہوں۔ میری کوشش ہوگی کہ پہلے کوئی چھوٹا موٹا تجربہ کر لوں پھر باقی تفصیلات آپ حضرات سے شئیر کروں۔ میری خواہش ہے کہ کوئی ایسا طریقہ کار (ٹولز، اسکرپٹ وغیرہ) وضع کیا جائے جو عام فہم ہو جس کے لیے پروگرامنگ یا تکنیکی معلومات درکار نہ ہوں۔ تاکہ زیادہ سے زیادہ لوگ اس میں مدد فراہم کرسکیں۔ اگر ایسا ممکن نہ بھی ہو تب بھی کوئی تفصیلی ڈاکومنٹ یا ویڈیو ایسی ہو جس کو دیکھ کر آسانی سے ٹرینگ ڈیٹا تیار کرنے میں مدد کی جاسکے۔ کام مشکل اور محنت طلب بظاہر لگ رہا ہے لیکن اگر دس کے بجائے سو ہاتھ ہوں تو کام تقسیم ہو جائے گا کیونکہ ایک بار نظام تشکیل دینا ہے اس کے بعد بس کاپی پیسٹ اور کانٹ چھانٹ ہوگی۔

مختصرا یہ کہ میری اپنی تحقیق جاری ہے جو میری کج فہمی اور کم علمی کی وجہ سے ذرا آہستہ ہے۔ محفل پر موجود اگر وہ حضرات جو پہلے اس موضوع پر تحقیق کر چکے ہیں یا مہارت رکھتے ہیں وہ اپنی تجاویز دیتے رہیں یا راہنمائی فراہم کرتے رہیں تو ان شاءاللہ امید ہے کو بہتر نتائج برآمد ہوں گے۔ کام مکمل ہوتا ہے یا نہیں یہ اللہ پاک بہتر جانتے ہیں۔ ہم نے تو اپنے حصے (بقدر جثے) کے کام کرنا ہے۔ ساتھ ہی دعا بھی ہے کہ اللہ پاک ہماری اس کام میں مدد اور راہنمائی فرمائے۔ آمین۔

دوست · فروری 26، 2019

میرے حساب سے ٹریننگ ڈیٹا کچھ اس طرح کا ہونا چاہیے۔
زپ فائل ڈاؤن لوڈ کریں اور اس کے اندر ملاحظہ فرمائیں۔ امیجز سطر بہ سطر کاٹی ہوئی اور متعلقہ یک سطری ٹیکسٹ فائلیں۔
یہ پروگرام لینکس میں یہ ان پٹ لے کر اسے ٹیسرکٹ کے ٹریننگ فارمیٹ میں بدلے گا، جس کے بعد ٹیسرکٹ چلا کر ماڈل ٹرین ہو گا۔ یہ دونوں انتہائی تکنیکی نوعیت کے کام ہیں اور لینکس پر سرانجام پائیں گے۔ اس کے لیے ایک ہی بندہ درکار ہے۔ ماڈل ٹریننگ میں کئی دن بھی لگ سکتے ہیں۔
ٹریننگ کے بعد ماڈل کی ڈیپلائمنٹ اگلا سوال ہے۔ ٹیسرکٹ کی گٹ ہب ویب سائٹ پر ڈیٹا ڈاؤنلوڈ کے لیے مہیا کیا جائے گا، یہ بھی تکنیکی نوعیت کا کام ہے اور ایک ہی بندہ سرانجام دے گا۔
اصل محنت طلب کام تصاویر اور ٹیکسٹ سطور کی تیاری ہے، جس کے لیے تکنیکی علم نہیں اردو املا وغیرہ سے واقفیت اور ڈھیر سارا وقت درکار ہے۔
مندرجہ بالا پرانے پراجیکٹس سے اگر امیج ٹریننگ ڈیٹا (تیار شدہ) مل سکے تو کیا کہنے وگرنہ میری نظر میں ان کی تھیوری پڑھنا وقت کا ضیاع ہے۔ اگر ٹیسرکٹ 4 میں کام کرنا ہے تو ورک فلو کا ذکر ویب سائٹ کے مطابق جیسے میں نے اوپر عرض کیا سیدھا سا ہے۔

دوست · فروری 26، 2019

ایک اور طریقہ اردو محفل کی لائبریری میں پہلے سے شامل کردہ کتب کے استعمال سے متعلق ہو سکتا ہے۔ ٹیکسٹ موجود ہے اس کی امیجز ریختہ یا خود سکین کر کے حاصل کی جائیں اور پھر سطر بہ سطر ٹیکسٹ اور امیج فائلیں تخلیق کر دی جائیں۔ بس املا امیج کے مطابق کرنا ہو گی، چونکہ یہ کتب تدوین کی گئی ہیں اور ترامیم موجود ہو سکتی ہیں۔ اس طریقے سے اگر بیس کتابیں مل جائیں تو تین سے پانچ ہزار صفحات حاصل ہو سکتے ہیں۔
میری نظر سے مختلف فونٹ سائز کے حوالے سے ٹیسرکٹ کی کوئی تصریح نہیں گزری، صرف متنوع فونٹس استعمال کرنے کا کہا گیا ہے۔ امید ہے کہ کتابوں سے کام چلے گا، ورنہ بڑے سائز کے فونٹ کے لئے اخباری سرخیوں کے تراشے (جو کورل ڈرا سے نہ گزارے گئے ہوں) استعمال کیے جا سکتے ہیں۔

دوست · فروری 26، 2019

مینوں لگدا اج اپنا کم نہیں یہی کروں گا، مشورے بازی
لو فیر اگلا مشورہ
بنیادی مقصد امیجز اور ٹیکسٹ کے سطری جوڑے ہیں۔ تو ٹیکسٹ (اردو محفل فورم کی لائبریری سے حاصل کردہ کتب والا) لیں اور جمیل نوری نستعلیق میں رینڈر کرا کے جملہ بہ جملہ امیجز جنریٹ کر لیں۔ اس بات کا ذکر ٹیسرکٹ دستاویزات میں بھی کہیں ہے، فونٹ سے حاصل شدہ امیجز۔
شیخ چلی کی پیروی میں ایک قدم اور آگے بڑھتے ہوئے مزید مشورہ ہے کہ جمیل نوری نستعلیق کی لگیچر فائلیں اس کام کے لیے استعمال ہو سکتی ہیں۔ اس حوالے سے ایک پروگرام بھی بنایا گیا تھا لگیچر لسٹ سے خودبخود امیجز جنریٹ کرنا۔ لگیچر بیسڈ نفیس نستعلیق تیار گیا تھا اس کے استعمال سے۔
مندرجہ بالا کوئک اینڈ ڈرٹی سلوشن ہے۔
نمبر دو تو بالکل ہی گیا گزرا ہو گا کیونکہ اس میں بائی گرامز (دو دو الفاظ کے جوڑے) حاصل نہیں ہوں گے، کہ ان پٹ ہی ان، پٹ، پٹی جیسے لگیچرز یا ترسیموں پر مبنی ہو گی۔
نمبر ایک میں جملوں کی وجہ سے یہ تو نہیں ہو گا ، البتہ ٹریننگ ڈیٹا ظاہر ہے مصنوعی ہو گا۔ گندی مندی سکین امیجز سے پاک۔ اور پروگرام چلے گا بھی صرف نوری نستعلیق پر، چونکہ اسی پر ٹرین کیا گیا ہو گا۔ دستی کتابت گئی تیل لینے۔
البتہ مختلف نستعلیق فونٹ استعمال کر کے ڈیٹا کو متنوع بنایا جا سکتا ہے۔
سچ پوچھیں تو یہ ٹیکسٹ سے فونٹ استعمال کر کے امیج جنریٹ کروانے والا آئیڈیا سب سے سستا پڑے گا، ہر لحاظ سے۔

فرقان احمد · فروری 26، 2019

دوست نے کہا:
اس کام کے لیے سی ایل ای والوں نے بھی ڈیٹا تیار کیا تھا، اور شاید فروخت کے لیے پیش بھی کیا تھا۔ لیکن اب مجھے کوئی ربط نہیں مل رہا اس کا۔ بس ان کی آنلائن سروسز ہیں اور او سی آر ڈیسکٹاپ۔ اچھی خاصی محنت والا کام تھا، تصاویر میں لگیچر نقطوں کے ساتھ، بغیر، جوڑ واضح کر کے وغیرہ وغیرہ۔
ان کا او سی آر جمیل نستعلیق 16 پوائنٹ سائز پر ٹھیک کام کرتا ہے۔
اس حوالے سے میں مالی امداد مہیا کر سکتا ہوں، جس قدر میرے بس میں ہوا۔ امیج پراسیسنگ کے لیے نہ وقت ہے اور نہ ماؤس کلکس اور ٹائپنگ کی اجازت اب ہاتھ دیتے ہیں۔

شاید یہ ربط تھا ۔۔۔! یا، پھر یہ ربط۔۔۔!

دوست · فروری 26، 2019

یہ خرید کر اس کی بنیاد پر ٹریننگ ماڈل عام استعمال کے لیے مفت جاری کرنے کی اجازت شاید یہ نہ دیں۔ بہرحال سطر بہ سطر ٹیکسٹ اور امیج فائلیں تو پھر بھی بنانی پڑیں گی۔ اور مختلف پوائنٹ سائز سے مجھے شک ہو رہا ہے کہ یہ کام کتابیں ٹائپ کر کے ان کا ٹیکسٹ مختلف پوائنٹ سائز پر ان پیج میں رینڈر کر کے امیجز جنریٹ کی گئی ہیں۔ ہمارے پاس کوئی سو ڈیڑھ سو کتب تو اردو لائبریری میں موجود ہیں۔ بلکہ بہت زیادہ ہیں۔ افسانے ناول بچوں کا ادب تفسیر ترجمہ شاعری ہر صنف کا مواد تدوین کردہ موجود ہے۔ اس سے ٹریننگ ڈیٹا بنائیں بس۔ ابھی تک مجھے ایسا کوئی اشارہ نہیں ملا جس میں پیچیدہ رسم الخط کے لیے نقطے اور نقطوں کے بغیر ترسیموں کا کوئی چکر ہو (جیسا کہ ڈاکٹر سرمد کی ایک پریزنٹیشن میں ان کے او سی آر کی تیاری کے مراحل میں دیکھا تھا)۔

'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

محفلین

محفلین

محفلین

ایکاروس

محفلین

محفلین

محفلین

محفلین

محفلین

محفلین

محفلین

محفلین

محفلین

محفلین

محفلین

محفلین

محفلین

محفلین

محفلین

محفلین