'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

فلسفی نے 'اردو او سی آر پر تحقیق' کی ذیل میں اس موضوع کا آغاز کیا، ‏فروری 25, 2019

  1. MindRoasterMirs

    MindRoasterMirs محفلین

    مراسلے:
    164
    جھنڈا:
    Pakistan
    موڈ:
    Daring
    باقی تو ٹھیک لیکن لینکس بھی اوپن سورس ہی ہے بھائی ۔
     
  2. MindRoasterMirs

    MindRoasterMirs محفلین

    مراسلے:
    164
    جھنڈا:
    Pakistan
    موڈ:
    Daring
    میرے خیال میں ٹیساریکٹ ہے ہی گوگل کا۔ Projects – opensource.google.com
     
  3. جاسم محمد

    جاسم محمد محفلین

    مراسلے:
    24,608
    کیا اس کا مطلب گوگل کلاؤڈ ویژن اے پی آئی میں یہی استعمال ہوا ہے؟
     
  4. زیک

    زیک محفلین

    مراسلے:
    38,808
    جھنڈا:
    UnitedStates
    موڈ:
    Bookworm
    نہیں
     
  5. دوست

    دوست محفلین

    مراسلے:
    13,076
    جھنڈا:
    Germany
    موڈ:
    Fine
    اس کام کے لیے سی ایل ای والوں نے بھی ڈیٹا تیار کیا تھا، اور شاید فروخت کے لیے پیش بھی کیا تھا۔ لیکن اب مجھے کوئی ربط نہیں مل رہا اس کا۔ بس ان کی آنلائن سروسز ہیں اور او سی آر ڈیسکٹاپ۔ اچھی خاصی محنت والا کام تھا، تصاویر میں لگیچر نقطوں کے ساتھ، بغیر، جوڑ واضح کر کے وغیرہ وغیرہ۔
    ان کا او سی آر جمیل نستعلیق 16 پوائنٹ سائز پر ٹھیک کام کرتا ہے۔
    اس حوالے سے میں مالی امداد مہیا کر سکتا ہوں، جس قدر میرے بس میں ہوا۔ امیج پراسیسنگ کے لیے نہ وقت ہے اور نہ ماؤس کلکس اور ٹائپنگ کی اجازت اب ہاتھ دیتے ہیں۔
     
    • پسندیدہ پسندیدہ × 2
    • معلوماتی معلوماتی × 1
  6. دوست

    دوست محفلین

    مراسلے:
    13,076
    جھنڈا:
    Germany
    موڈ:
    Fine
    ورک فلو وضع کیا جائے، ایک ڈیٹا انٹری آپریٹر کی خدمات حاصل کی جائیں، معاوضہ چندہ کیا جائے، پراجیکٹ کی نگرانی کی جائے۔ نتائج کو پرکھ کر اوپن سورس طریقے سے فراہم کر دیا جائے۔
     
    • پسندیدہ پسندیدہ × 2
  7. دوست

    دوست محفلین

    مراسلے:
    13,076
    جھنڈا:
    Germany
    موڈ:
    Fine
    اس کے لیے سادہ طریقہ تو گوگل اور ریختہ کا استعمال ہے۔
    نوری نستعلیق اور دستی کتابت والی کتب 1947 سے پہلے اور بعد والی منتخب کریں، امیجز اور ٹیکسٹ حاصل کریں (گوگل او سی آر سے)۔ (کوئی محفلین یہ کام کرے)
    ٹیکسٹ فائلز کو درست کریں، بمطابق تصاویر۔ (کوئی طالبعلم جسے اردو، لسانیات اور کمپیوٹر کی سوجھ بوجھ ہو، معاوضے پر رکھ لیا جائے)۔
    ٹریننگ فائلز تیار کریں۔ (سکرپٹ لکھ کر یا دستی، تکنیکی طور پر خواندہ شخص ہی کر سکتا ہے)۔
    سب سے زیادہ محنت آزما گوگل سے عمل کاری شدہ تصاویر اور متن کی تطبیق ہے۔
     
    • معلوماتی معلوماتی × 2
  8. دوست

    دوست محفلین

    مراسلے:
    13,076
    جھنڈا:
    Germany
    موڈ:
    Fine
    یہ باکس فائل والا کام بھی محنت طلب لگ رہا ہے۔
     
    • متفق متفق × 1
  9. دوست

    دوست محفلین

    مراسلے:
    13,076
    جھنڈا:
    Germany
    موڈ:
    Fine
    ٹیسرکٹ کا ٹریننگ ڈیٹا تیار کرنے کے لیے یہ بھی کام کی چیز لگ رہی ہے۔
    سادہ لفظوں میں ایک سطر کی امیج اور اس کا درست کردہ متن ایک سطر میں، ان کے جوڑے چاہئیں۔
    گوگل او سی آر اپنا یار ہے اس معاملے میں، جیسے مودی نواز شریف کا یار رہا ہے۔
    چار لاکھ سطور کا مطلب ہے، اگر ایک صفحے پر 23 سطور ہوں تو 17391 صفحات :music:
    اس پر کم از کم چھ ماہ لگیں گے، اگر ایک کُل وقتی بندہ رکھا جائے، اسے گوگل سے تصاویر اور متن فراہم کیا جائے، وہ صرف کریکشن کرے، ٹائپنگ نہیں۔
     
    • پسندیدہ پسندیدہ × 1
    • معلوماتی معلوماتی × 1
  10. دوست

    دوست محفلین

    مراسلے:
    13,076
    جھنڈا:
    Germany
    موڈ:
    Fine
    یہ ساری تصاویر ایک ہی فونٹ کی بجائے مختلف دستی کتابت سے بھی حاصل کرنی چاہئیں، جیسا کہ ٹیسرکٹ والے بھی کہتے ہیں کہ فونٹ مکس کرنے کی حوصلہ افزائی کی جاتی ہے، تاکہ ٹریننگ اچھی ہو سکے۔
    فی سطر ایک امیج جنریٹ کرنا سکرپٹنگ کے ذریعے ممکن ہونا چاہیئے۔
     
    • پسندیدہ پسندیدہ × 1
    • معلوماتی معلوماتی × 1
  11. دوست

    دوست محفلین

    مراسلے:
    13,076
    جھنڈا:
    Germany
    موڈ:
    Fine
    اگر نیورل نیٹ ورک والا ٹیسرکٹ 4 چلانا ہے تو پچھلا سب بھول جانا پڑے گا۔ مجھے تو دستیاب اردو ٹریننگ ڈیٹا کی سمجھ نہیں آ رہی اس کی امیج فائلیں کدھر ہیں؟ بس فریکوئنسی اور بائی گرامز ہیں۔
     
    • معلوماتی معلوماتی × 1
  12. دوست

    دوست محفلین

    مراسلے:
    13,076
    جھنڈا:
    Germany
    موڈ:
    Fine
    لو فیر
    یا تے کم شروع ہو جا وے گا
    یا فیر دھاگوں کے قبرستان میں ایک اور دھاگے کا اژافہ۔
    اور اگلے دھاگے میں اس کا ربط بھی شامل ہو گا، ہمراہ "میرے خیال میں پہیا ہر بار دوبارہ ایجاد کرنے کی بجائے یہیں محفل پر موجود ماضی کے کئی او سی آر دھاگوں سے پہلے استفادہ کر لیا جائے تو کام زیادہ تیزی سے آگے بڑھ سکے گا:"
     
    • پر مزاح پر مزاح × 2
    • متفق متفق × 2
  13. عبید انصاری

    عبید انصاری محفلین

    مراسلے:
    2,682
    جھنڈا:
    Pakistan
    موڈ:
    Cool
    اس کام میں بعض چیزیں تو تکنیکی ہیں اور بعض عملی طور پر کرنے کی۔
    محفلین مختلف فیلڈز سے متعلق ہیں اس لیے مختلف خدمات مہیا کرسکتے ہیں۔ اگر فلسفی بھائی اس کام میں درکار امور کو واضح کرسکیں تو اچھا رسپانس مل سکتا ہے۔
    جیسے شاکر بھائی نے بعض باتوں کی جانب نشاندہی فرمائی ہے۔
    در اصل ہم لوگوں کو یہی سمجھ نہیں ہے کہ اس کام میں کس کس قسم کی خدمات درکار ہیں۔
     
    • متفق متفق × 1
  14. عبید انصاری

    عبید انصاری محفلین

    مراسلے:
    2,682
    جھنڈا:
    Pakistan
    موڈ:
    Cool
    1۔ تصویری کتابوں سے کس قسم کی امیجز مطلوب ہوں گی؟ کیا تصویر سے ایک ایک لفظ کو ٹکڑے ٹکڑے کرکے حاصل کیا جائے گا؟
    2۔ گوگل او سی آر سے مواد حاصل کرنا تو کافی آسان ہے مگر یہ نہیں سمجھا کہ اسے ڈیٹا ٹریننگ کے لیے کس طرح استعمال کیا جائے گا۔
    بہرحال تصویری کتابوں سے امیجز حاصل کرنا ہوں یا انہیں گوگل کے او سی آر سے کنورٹ کرنا ہو یا اور کسی قسم کا ڈیٹا انٹر کرنا ہو اس کے لیے میری خدمات حاضر ہیں۔ گر قبول افتد!
     
    • پسندیدہ پسندیدہ × 3
  15. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    جی عبید بھائی، فی الحال میں بھی اسی کشمکش میں ہوں کہ "کرنا کی اے؟ :)"۔ اصل میں بنیادی باتیں تقریبا سب ہی جانتے ہیں۔ لیکن کسی بھی زور آزمائی سے پہلے یہ یقین کرنا ضروری ہے کہ سمت درست ہے کہ نہیں۔ ورنہ محنت ضائع ہو گی۔

    میری معلومات ابتدائی نوعیت کی ہیں۔ میں ابھی تمام متعلقہ لڑیوں میں زیر بحث معاملات اور پروجیکٹ کی تفصیلات پڑھ رہا ہوں۔ میری کوشش ہوگی کہ پہلے کوئی چھوٹا موٹا تجربہ کر لوں پھر باقی تفصیلات آپ حضرات سے شئیر کروں۔ میری خواہش ہے کہ کوئی ایسا طریقہ کار (ٹولز، اسکرپٹ وغیرہ) وضع کیا جائے جو عام فہم ہو جس کے لیے پروگرامنگ یا تکنیکی معلومات درکار نہ ہوں۔ تاکہ زیادہ سے زیادہ لوگ اس میں مدد فراہم کرسکیں۔ اگر ایسا ممکن نہ بھی ہو تب بھی کوئی تفصیلی ڈاکومنٹ یا ویڈیو ایسی ہو جس کو دیکھ کر آسانی سے ٹرینگ ڈیٹا تیار کرنے میں مدد کی جاسکے۔ کام مشکل اور محنت طلب بظاہر لگ رہا ہے لیکن اگر دس کے بجائے سو ہاتھ ہوں تو کام تقسیم ہو جائے گا کیونکہ ایک بار نظام تشکیل دینا ہے اس کے بعد بس کاپی پیسٹ اور کانٹ چھانٹ ہوگی۔

    مختصرا یہ کہ میری اپنی تحقیق جاری ہے جو میری کج فہمی اور کم علمی کی وجہ سے ذرا آہستہ ہے۔ محفل پر موجود اگر وہ حضرات جو پہلے اس موضوع پر تحقیق کر چکے ہیں یا مہارت رکھتے ہیں وہ اپنی تجاویز دیتے رہیں یا راہنمائی فراہم کرتے رہیں تو ان شاءاللہ امید ہے کو بہتر نتائج برآمد ہوں گے۔ کام مکمل ہوتا ہے یا نہیں یہ اللہ پاک بہتر جانتے ہیں۔ ہم نے تو اپنے حصے (بقدر جثے) کے کام کرنا ہے۔ ساتھ ہی دعا بھی ہے کہ اللہ پاک ہماری اس کام میں مدد اور راہنمائی فرمائے۔ آمین۔
     
    • پسندیدہ پسندیدہ × 3
  16. دوست

    دوست محفلین

    مراسلے:
    13,076
    جھنڈا:
    Germany
    موڈ:
    Fine
    میرے حساب سے ٹریننگ ڈیٹا کچھ اس طرح کا ہونا چاہیے۔
    زپ فائل ڈاؤن لوڈ کریں اور اس کے اندر ملاحظہ فرمائیں۔ امیجز سطر بہ سطر کاٹی ہوئی اور متعلقہ یک سطری ٹیکسٹ فائلیں۔
    یہ پروگرام لینکس میں یہ ان پٹ لے کر اسے ٹیسرکٹ کے ٹریننگ فارمیٹ میں بدلے گا، جس کے بعد ٹیسرکٹ چلا کر ماڈل ٹرین ہو گا۔ یہ دونوں انتہائی تکنیکی نوعیت کے کام ہیں اور لینکس پر سرانجام پائیں گے۔ اس کے لیے ایک ہی بندہ درکار ہے۔ ماڈل ٹریننگ میں کئی دن بھی لگ سکتے ہیں۔
    ٹریننگ کے بعد ماڈل کی ڈیپلائمنٹ اگلا سوال ہے۔ ٹیسرکٹ کی گٹ ہب ویب سائٹ پر ڈیٹا ڈاؤنلوڈ کے لیے مہیا کیا جائے گا، یہ بھی تکنیکی نوعیت کا کام ہے اور ایک ہی بندہ سرانجام دے گا۔
    اصل محنت طلب کام تصاویر اور ٹیکسٹ سطور کی تیاری ہے، جس کے لیے تکنیکی علم نہیں اردو املا وغیرہ سے واقفیت اور ڈھیر سارا وقت درکار ہے۔
    مندرجہ بالا پرانے پراجیکٹس سے اگر امیج ٹریننگ ڈیٹا (تیار شدہ) مل سکے تو کیا کہنے وگرنہ میری نظر میں ان کی تھیوری پڑھنا وقت کا ضیاع ہے۔ اگر ٹیسرکٹ 4 میں کام کرنا ہے تو ورک فلو کا ذکر ویب سائٹ کے مطابق جیسے میں نے اوپر عرض کیا سیدھا سا ہے۔
     
    • معلوماتی معلوماتی × 2
    • پسندیدہ پسندیدہ × 1
    • زبردست زبردست × 1
  17. دوست

    دوست محفلین

    مراسلے:
    13,076
    جھنڈا:
    Germany
    موڈ:
    Fine
    ایک اور طریقہ اردو محفل کی لائبریری میں پہلے سے شامل کردہ کتب کے استعمال سے متعلق ہو سکتا ہے۔ ٹیکسٹ موجود ہے اس کی امیجز ریختہ یا خود سکین کر کے حاصل کی جائیں اور پھر سطر بہ سطر ٹیکسٹ اور امیج فائلیں تخلیق کر دی جائیں۔ بس املا امیج کے مطابق کرنا ہو گی، چونکہ یہ کتب تدوین کی گئی ہیں اور ترامیم موجود ہو سکتی ہیں۔ اس طریقے سے اگر بیس کتابیں مل جائیں تو تین سے پانچ ہزار صفحات حاصل ہو سکتے ہیں۔
    میری نظر سے مختلف فونٹ سائز کے حوالے سے ٹیسرکٹ کی کوئی تصریح نہیں گزری، صرف متنوع فونٹس استعمال کرنے کا کہا گیا ہے۔ امید ہے کہ کتابوں سے کام چلے گا، ورنہ بڑے سائز کے فونٹ کے لئے اخباری سرخیوں کے تراشے (جو کورل ڈرا سے نہ گزارے گئے ہوں) استعمال کیے جا سکتے ہیں۔
     
    • معلوماتی معلوماتی × 2
    • پسندیدہ پسندیدہ × 1
  18. دوست

    دوست محفلین

    مراسلے:
    13,076
    جھنڈا:
    Germany
    موڈ:
    Fine
    مینوں لگدا اج اپنا کم نہیں یہی کروں گا، مشورے بازی
    لو فیر اگلا مشورہ
    بنیادی مقصد امیجز اور ٹیکسٹ کے سطری جوڑے ہیں۔ تو ٹیکسٹ (اردو محفل فورم کی لائبریری سے حاصل کردہ کتب والا) لیں اور جمیل نوری نستعلیق میں رینڈر کرا کے جملہ بہ جملہ امیجز جنریٹ کر لیں۔ اس بات کا ذکر ٹیسرکٹ دستاویزات میں بھی کہیں ہے، فونٹ سے حاصل شدہ امیجز۔
    شیخ چلی کی پیروی میں ایک قدم اور آگے بڑھتے ہوئے مزید مشورہ ہے کہ جمیل نوری نستعلیق کی لگیچر فائلیں اس کام کے لیے استعمال ہو سکتی ہیں۔ اس حوالے سے ایک پروگرام بھی بنایا گیا تھا لگیچر لسٹ سے خودبخود امیجز جنریٹ کرنا۔ لگیچر بیسڈ نفیس نستعلیق تیار گیا تھا اس کے استعمال سے۔
    مندرجہ بالا کوئک اینڈ ڈرٹی سلوشن ہے۔
    نمبر دو تو بالکل ہی گیا گزرا ہو گا کیونکہ اس میں بائی گرامز (دو دو الفاظ کے جوڑے) حاصل نہیں ہوں گے، کہ ان پٹ ہی ان، پٹ، پٹی جیسے لگیچرز یا ترسیموں پر مبنی ہو گی۔
    نمبر ایک میں جملوں کی وجہ سے یہ تو نہیں ہو گا ، البتہ ٹریننگ ڈیٹا ظاہر ہے مصنوعی ہو گا۔ گندی مندی سکین امیجز سے پاک۔ اور پروگرام چلے گا بھی صرف نوری نستعلیق پر، چونکہ اسی پر ٹرین کیا گیا ہو گا۔ دستی کتابت گئی تیل لینے۔
    البتہ مختلف نستعلیق فونٹ استعمال کر کے ڈیٹا کو متنوع بنایا جا سکتا ہے۔
    سچ پوچھیں تو یہ ٹیکسٹ سے فونٹ استعمال کر کے امیج جنریٹ کروانے والا آئیڈیا سب سے سستا پڑے گا، ہر لحاظ سے۔
     
    • معلوماتی معلوماتی × 3
    • پسندیدہ پسندیدہ × 2
  19. فرقان احمد

    فرقان احمد محفلین

    مراسلے:
    10,183
    شاید یہ ربط تھا ۔۔۔! یا، پھر یہ ربط۔۔۔!
     
    • معلوماتی معلوماتی × 1
  20. دوست

    دوست محفلین

    مراسلے:
    13,076
    جھنڈا:
    Germany
    موڈ:
    Fine
    یہ خرید کر اس کی بنیاد پر ٹریننگ ماڈل عام استعمال کے لیے مفت جاری کرنے کی اجازت شاید یہ نہ دیں۔ بہرحال سطر بہ سطر ٹیکسٹ اور امیج فائلیں تو پھر بھی بنانی پڑیں گی۔ اور مختلف پوائنٹ سائز سے مجھے شک ہو رہا ہے کہ یہ کام کتابیں ٹائپ کر کے ان کا ٹیکسٹ مختلف پوائنٹ سائز پر ان پیج میں رینڈر کر کے امیجز جنریٹ کی گئی ہیں۔ ہمارے پاس کوئی سو ڈیڑھ سو کتب تو اردو لائبریری میں موجود ہیں۔ بلکہ بہت زیادہ ہیں۔ افسانے ناول بچوں کا ادب تفسیر ترجمہ شاعری ہر صنف کا مواد تدوین کردہ موجود ہے۔ اس سے ٹریننگ ڈیٹا بنائیں بس۔ ابھی تک مجھے ایسا کوئی اشارہ نہیں ملا جس میں پیچیدہ رسم الخط کے لیے نقطے اور نقطوں کے بغیر ترسیموں کا کوئی چکر ہو (جیسا کہ ڈاکٹر سرمد کی ایک پریزنٹیشن میں ان کے او سی آر کی تیاری کے مراحل میں دیکھا تھا)۔
     
    • معلوماتی معلوماتی × 3

اس صفحے کی تشہیر