اردو ٹیکسٹ آرکائیو کی طرف پہلا قدم

دوست نے 'ڈیویلپمنٹ' کی ذیل میں اس موضوع کا آغاز کیا، ‏فروری 10, 2011

  1. دوست

    دوست محفلین

    مراسلے:
    12,763
    جھنڈا:
    Germany
    موڈ:
    Fine
    ایک عرصے سے خواہش تھی کہ اردو کی ٹیکسٹ آرکائیو بنائی جائے تاکہ اردو پر بنیادی ابتدائی تحقیق کے لیے تو کوئی ڈیٹا بیس موجود ہو۔ اس سلسلے میں آج خاموشی توڑ کر کچھ کام کیا ہے۔ اصل کام تو اعجاز اختر صاحب کا تھا، ہم نے ان کی ویب سائٹ سے بس ٹیکسٹ فارمیٹ میں کتابیں اتار لیں اور ان میں موجود لفظ گن ڈالے۔ ماشاءاللہ خام حالت میں یہ ٹیکسٹ اٹھارہ ملین الفاظ پر مشتمل ہے۔ ابھی اس کو شاعری اور نثر میں تقسیم کرنا ہے، تاکہ مستقبل میں تحقیق میں آسانی رہے۔ اس کے علاوہ نثر میں بھی مذہب، ادب وغیرہ سے زمرے بنانے ہیں۔ لیکن یہ کام ہوتا رہے گا۔
    اس کام کے ساتھ ساتھ نیوز اردو ڈاٹ نیٹ پر ڈاکہ مارا ہے اور اس کی 2007، 2010 اور 2011 کی آرکائیو کو ایچ ٹی ایم ایل کرالر سے اتارا ہے۔ کل انشاءاللہ اس میں سے بھی ڈیٹا ٹیکسٹ فارمیٹ میں نکل آئے گا۔
    اور اس کے بعد اردو بلاگرز کے ڈیٹا پر ڈاکے پڑیں گے۔ ویب سائٹ ڈاؤنلوڈر سے سارے سارے بلاگ اتار کر پوسٹس کو الگ کرلیا جائے گا۔
    اور آخری ڈاکہ اردو فورمز پر پڑے گا۔ یہ کام ذرا اوکھا ہے لیکن کوشش ہے کہ یہ ڈیٹا بھی شامل ہو ساتھ میں۔ اردو پر تحقیق کے لیے اس وقت کوئی کاپی راٹ فری ٹیکسٹ آرکائیو دستیاب نہیں ہے۔ چناچہ یہ پہلا قدم ہوگا۔ اگلے قدم کے طور پر اس آرکائیو کی گرامر ٹیگنگ کرکے اسے اردو کارپس میں بدلا جاسکتا ہے۔ اللہ وہ وقت جلدی لائے۔
    وسلام
     
    • پسندیدہ پسندیدہ × 18
  2. ابن سعید

    ابن سعید خادم

    مراسلے:
    59,745
    ما شاء اللہ۔ بہت بہت مبارک ہو شاکر بھائی۔ ویسے ہم بھی ڈیجیٹل لائبریریز، ویب آرکائیونگ اور سیمینٹک ویب کے شعبے سے جڑے ہوئے ہیں۔ بلکہ ہم اپنا ماسٹرز تھیسیس بھی اردو آرکائیونگ کے حوالے سے تیار کرنے کا ارادہ رکھتے ہیں، اگر پروفیسر کی سمجھ میں بات آ جائے۔

    آپ اس ربط کو بھی ملاحظہ فرما لیں۔ اردو اسپیچ ریکگنیشن کے حوالے سے اس ربط تک پہونچے تھے۔

    ہمارا ارادہ ہے کہ اردو محفل کا پبلک ڈاٹا ریسرچ کے لئے جاری کر دیا جائے۔ اور اس پر کئی ماہ سے گفتگو چل رہی ہے۔ اس طرح ریسرچرز کو کرالنگ کی زحمت سے بچایا جا سکے گا۔

    ممکن ہے آپ کو پہلے سے علم ہو پھر بھی ریسرچرز کے استعمال میں آنے والا سب سے مشہور اوپن سورس ویب کرالر ہریٹرکس ضرور آزمائیں۔ یوں تو یہ چھوٹا سا ایپلیکیشن ہے پر اس میں ترتیبات کی بھرمار ہے۔ :)
     
    • پسندیدہ پسندیدہ × 11
  3. نبیل

    نبیل منتظم

    مراسلے:
    16,207
    جھنڈا:
    Germany
    موڈ:
    Depressed
    زبردست شاکر، اور شکریہ ابن سعید۔
    میں نے ابن سعید سے کئی مرتبہ ذکر کیا ہے کہ محفل فورم کے پبلک زمرہ جات کے مراسلات کا ڈیٹا ڈمپ کرکے تحقیقی مقاصد کے لیے جاری کر دیا جانا چاہیے۔
     
    • پسندیدہ پسندیدہ × 8
  4. دوست

    دوست محفلین

    مراسلے:
    12,763
    جھنڈا:
    Germany
    موڈ:
    Fine
    ابن سعید میں وِن ویب سائٹ ڈاؤنلوڈر استعمال کررہا ہوں۔ پانچ سال پرانا یہ پروگرام بہترین کام کررہا ہے۔ نبیل بھائی یہ بہت اچھا ہوجائے گا کہ اردو محفل کا ڈیٹا آنلائن دستیاب ہو۔
    میں تو آج پھاوا ہوگیا ہوں ریگولر ایکسپریشن بنا بنا کر، صرف پوسٹس کے ٹائٹل میچ کروانے تھے اور لگ پتے گئے، خیر ٹائٹل نکل آئے۔ کل انشاءاللہ نیوز سٹوریز نکال کر دیکھتا ہوں کتنے الفاظ بنتے ہیں۔ امید تو ہے دس ملین کے قریب الفاظ ہونگے۔
     
    • پسندیدہ پسندیدہ × 1
  5. الف عین

    الف عین لائبریرین

    مراسلے:
    30,764
    جھنڈا:
    India
    موڈ:
    Psychedelic
    مبارک ہو شاکر اس نیک کام کا بیڑا اٹھانے کا۔ اور شکریہ میری لائبریری کا متن لینے کا۔ اس کو تم بنا جھجھک استعمال کر سکتے ہو کارپس کے لئے، لیکن محفل اور دوسری فورمس میں گارنٹی نہیں دے سکتا۔ سب لوگوں کو دو الفاظ کے درمیان اس صورت میں سپیس نہ دینے کی عادت ہے جس میں لفظ پڑھنے میں آتا ہو۔ اس طرح بہت سے Non words بھی اس لسٹ میں شامل ہو جاتے ہیں۔ کرلپ کی لسٹ دیکھو، آکر اور آآکر سے شروع ہوتی ہے!! گارنٹی تو میں بھی نہیں دے سکتا کہ میں نے ساری اغلاط سدھاری ہیں، لیکن 90% تک کم از کم ان کی پروف ریڈنگ کے بعد اصلاح ہو چکی ہے۔
    ویسے کرلپ کی لسٹ بھی تو بن چکی ہے، اور اس کا اصلاح شدہ ورژن میرے ای سنپس Miscellany فولڈر میں ہے۔ جسے آج ہی اپ ڈیٹ کیا ہے۔ اس کو بھی استعمال کرنے کی سوچو۔
     
    • پسندیدہ پسندیدہ × 3
  6. ابن سعید

    ابن سعید خادم

    مراسلے:
    59,745
    شاکر بھائی آپ جو ایپلیکیشن استعمال کر رہے ہیں وہ شاید ویب سائٹ داؤنلوڈر ہے اور ونڈوز فرینڈلی ہے۔ جبکہ ہم نے جس کرالر ہیریٹرکس کے بارے میں بتایا تھا وہ اسٹینڈرڈ لینکس فرینڈلی اوپن سورس پروجیکٹ ہے جو آرکائیو داٹ آرگ کے ذریعہ سورس فورج پر مینٹین کیا جاتا ہے۔ نیز یہ کہ بیشتر ریسرچ اسکالر اور خود آرکائیو ڈاٹ آرگ ویب کرالنگ کے لئے اسی کا استعمال کرتے ہیں۔ اس میں ایڈوانسڈ ایچ ٹی ٹی پی ہیڈرس اور روبوٹ ڈاٹ ٹی ایکس ٹی فائلس وغیرہ کا خیال رکھا جاتا ہے۔ اس کے علاوہ ہیریٹرکس ڈاؤنلوڈ کردہ داٹا کو آن دی فلائی کمپریس کرتا رہتا ہے جسے ایکسپلور کرنے کے لئے آرکائیو ڈاٹ آرگ کا ہی وے بیک نامی ٹول استعمال کیا جا سکتا ہے۔ آپ کو جلد یا بدیر ڈسک کا مسئلہ ضرور در پیش ہوگا۔ ویسے بھی ہمارا مشورہ ہے کہ ڈاؤنلوڈ کیئے گئے داٹا کا آف سائٹ بیک اپ مثلاً ایکسٹرنل ۃارڈ ڈسک وغیرہ میں کاپیاں ضرور رکھیئے۔ اور بینڈ وڈتھ کا مسئلہ نہ ہو تو اردو ویب کے سرور پر بھی اپنے اکاؤنٹ میں ایس ایف ٹی پی وغیرہ کی مدد سے اس کی ایک کاپی منتقل کر دیا کیجئے۔

    آپ اردو وکیپیڈیا کا ڈاٹا ایک فائل کی شکل میں یہاں سے حاصل کر سکتے ہیں۔ اس میں محض ٹائٹل یا مکمل متن حاصل کرنے کی سہولت موجود ہے۔ کچھ عرصہ قبل ہم نے اس ڈاٹا سے منفردات اخذ کرنے کی کوشش کی تھی اور خوب لطف اندوز ہوئے تھے۔ حالانکہ ہماری توقع یہ تھی کہ یہاں املا کی غلطیاں نا کے برابر ہوں گی لیکن خدا کی پناہ جو کبھی دوبارہ ایسا کچھ سوچنے کی غلطی بھی کریں۔ :)

    اردو محفل کا ڈاٹا ڈمپ تو ہمارے پاس موجود ہوتا ہے لیکن اس کو پبلک کرنے سے پہلے اس کی کلیننگ اور فلٹرنگ انتہائی ضروری ہے۔ در اصل ڈاٹا بیس ڈمپ کرنے کے لئے ایس کیو ایل ڈمپ کمانڈ تمام ٹیبلز کی اسکیما اور ڈاٹا کو ایک فائل میں پیک کر دیتا ہے جس میں دنیا بھر کی کنفیگیوریشن، تمام فورم کا مواد، احباب کے ذاتی پیغامات غرض کہ سبھی کچھ شامل ہوتے ہیں۔ بہر کیف اس مقصد کے لئے ہم محض فورم پوسٹس کا ٹیبل ڈمپ کر سکتے ہیں پھر بھی اس کی فلٹرنگ ضروری ہوگی جس کے تحت تمام نان پبلک فورمز سے متعلقہ پیغامات کی فلٹر کرنا ہوگا، صاحب مضمون کی آئیڈینٹٹی کو اینونیمائز کرنا ہوگا نیز ضروری ہوا تو ٹائٹل اور پوسٹ ڈیٹ کو بھی رینڈملی مکس کرنے کے بارے میں سوچا جا سکتا ہے۔ اس کے علاوہ کئی غیر ضروری فیلڈس کو حذف کرنا ہوگا۔ اردو سیارہ کی کیشے میں بھی کافی کچھ پبلک مواد موجود ہے۔

    اس کے علاوہ ہمارے پاس کچھ اور مواد بھی موجود ہے جو نسبتاً زیادہ ریفائنڈ سورسیز سے اخذ کیا گیا ہے۔ اس کے لئے ذاتی چینلز پر رابطہ کر سکتے ہیں۔
     
    • پسندیدہ پسندیدہ × 2
  7. دوست

    دوست محفلین

    مراسلے:
    12,763
    جھنڈا:
    Germany
    موڈ:
    Fine
    اعجاز اختر صاحب کتابوں کا ڈیٹا واقعی شاندار ہے۔ اس میں سے بس ابواب کی فہرست وغیرہ اڑانی پڑے گی، اگر اس ڈیٹا کو ٹیگنگ وغیرہ سے گزارنا ہے تو۔ چونکہ پورے جملے کو لیا جاتا ہے وہاں۔ خیر ابھی یہ خام حالت میں بن جائے تو مزید کام ہوتا رہے گا۔
    جی ابن سعید ہارڈ ڈسک کا مسئلہ تو درپیش ہورہا ہے۔ میں ڈیٹا کی بیک اپ لے رہا ہوں فورشئیرڈ پر ساتھ ساتھ۔7 زپ میں الٹرا پر زپ کرکے کل کتابیں اپلوڈ کردی تھیں۔ کل ریگولر ایکسپریشن سے کھپنے کے بعد اب یہ نصیحت ہوئی کہ اردو پر ریگولر ایکسپریشن ہی ہر بار ٹھیک نہیں چلتے۔ چناچہ اب سٹرنگ سپلٹ میتھڈز استعمال کرکے پوسٹ کا ڈیٹا حاصل کرنے کی کوشش کررہا ہوں۔ شکر ہے کہ یہ ورڈپریس میں بنی ویب سائٹ ہے چناچہ ہر صفحہ ایک ہی طرح کا ہے، ورنہ بعض اخبارات کی ویب سائٹس نہ پوچھیں کس طرح وہاں سے ڈیٹا نکالا تھا۔
    ویب سائٹ ڈاؤنلوڈ سے کام نہ چلا تو اس پر آؤں گا تب تک وہی۔چونکہ مجھے ایچ ٹی ایم ایل وغیرہ کا کوئی زیادہ آئیڈیا نہیں۔ میں نے تو ایک ڈاؤنلوڈ شدہ ایچ ٹی ایم ایل فائل پر ریجیکس چلا کر مطلوبہ ڈیٹا حاصل کرنا ہوتا ہے۔
    اردو وکی پیڈیا پر جو زبان موجود ہے وہ نیچرل نہیں مصنوعی ہے چناچہ اس کو لینا بے کار ہی ہوگا۔ اردو ویب کے ڈیٹا کو فلٹر کنے کا انتظام کیا جاسکتا ہے، ریگولر ایکسپریشن زندہ باد۔ یہ آرکائیو اصل میں تفسیر احمد سے ایک گفتگو کے بعد بنا رہا ہوں۔ ان کو اپنی کسی ریسرچ کے لیے اردو کے دو لفظی مرکبات چاہیے تھے، اور ڈیٹا وہی کرلپ والا ہی تھا بس۔ میں نے درخواست کی کہ مجھے بھی کچھ کام دیں تو یہ کام پھر مجھے مل گیا۔ اگرچہ عرصے سے اس پر اپنی بھی نظر تھی۔
    وسلام
     
    • پسندیدہ پسندیدہ × 3
  8. ابن سعید

    ابن سعید خادم

    مراسلے:
    59,745
    ایک دفعہ محفل میں ترکیب اضافی اور ترکیب توصیفی وغیرہ پر مشتمل ایک کھیل بھی شروع کیا گیا تھا جس کا دیرنہ مقصد یہی تھا کہ کبھی اس ڈاٹا کو پارس کر کے ان شاء اللہ کام میں لایا جا سکے گا۔ :)

    ریگیولر ایکسپریشنز سے کھیلتے رہیں بہت ہی دلچسپ شئے ہے۔ ایک زبان میں کام نہ بلے تو دوسری کسی پروگرامنگ زبان کے ریگیولر ایکسپریشنز آزما لیں۔ ویسے پرل کا ریگ ایکس اسٹینڈرڈ ہے۔ :)
     
    • پسندیدہ پسندیدہ × 3
  9. دوست

    دوست محفلین

    مراسلے:
    12,763
    جھنڈا:
    Germany
    موڈ:
    Fine
    سی شارپ کے ریگولر ایکسپریشن نے کبھی مایوس نہیں کیا۔ عرصہ تین سال سے استعمال کررہا ہوں۔ نان انگلش کریکٹرز کے لیے ابھی ریگ ایکس بنانے کا تجربہ نہیں ہے لیکن آہستہ آہستہ تجربہ ہوجائے گا۔ ریگ ایکس مزے دار چیز ہے جی۔ مجھے جس چیز میں سب سے زیادہ کانفیڈنس ہوتا ہے وہ ریگ ایکس بنانا ہے، اور کچھ آوے نہ آوے۔
    اور تین دن، یعنی مل ملا کے کوئی 8 گھنٹے کی محنت کے بعد پانچ ہزار چھ سو ستائیس فائلز، اور ایک اعشاریہ سات ملین الفاظ کا ڈیٹا حاصل ہوا ہے۔ لیکن یہ پروف ریڈ شدہ نہیں ہے، املاء کی غلطیاں بھی ہونگی۔ لیکن مجھے خوشی ہورہی ہے کہ عرصے کہ بعد اردو کے لیے کوئی کام کیا ہے۔
     
    • پسندیدہ پسندیدہ × 3
  10. دوست

    دوست محفلین

    مراسلے:
    12,763
    جھنڈا:
    Germany
    موڈ:
    Fine
    3 ہفتے کے بعد پھر تھوڑا سا کام کیا ہے۔ نیوز اردو ڈاٹ نیٹ کے آرٹیکلز کو ایچ ٹی ایم ایل سے پاک کرنا کوئی مشکل کام نہیں تھا۔ کوئی ایک اعشاریہ آٹھ ملین الفاظ ہیں اس میں، بغیر کسی پروف ریڈنگ کیے ہوئے۔
    فور شئیرڈ پر
     
    • پسندیدہ پسندیدہ × 2
  11. arifkarim

    arifkarim معطل

    مراسلے:
    29,832
    جھنڈا:
    Norway
    موڈ:
    Happy
    بہتر ہوگا اس قسم کا کام سورس فورج یا ڈراپ باکس پر منتقل کیا جائے۔ 4 شیئرڈ جیسی اشتہاراتی سائٹس سے دور ہی رہئے۔ کوئی گیرینٹی نہیں کب لنک ایکسپائر ہو جائے!
     
    • پسندیدہ پسندیدہ × 1
  12. دوست

    دوست محفلین

    مراسلے:
    12,763
    جھنڈا:
    Germany
    موڈ:
    Fine
    عارف بھائی کوئی دو تین سال سے کھاتا ہے فور شئیرڈ پر۔ وہیں پر ایک پبلک فولڈر بنا کر یہ اپلوڈ کردی تھیں۔ اسے بیک اپ کے طور پر استعمال کرتا ہوں میں۔
     
    • پسندیدہ پسندیدہ × 1
  13. arifkarim

    arifkarim معطل

    مراسلے:
    29,832
    جھنڈا:
    Norway
    موڈ:
    Happy
    پھر تو ٹھیک ہے۔ مجھے بس لنک ایکسپائر ہونے کا خطرہ ہوتا ہے :)
     
    • پسندیدہ پسندیدہ × 2
  14. دوست

    دوست محفلین

    مراسلے:
    12,763
    جھنڈا:
    Germany
    موڈ:
    Fine
    لو جی ابھی ابھی کراچی اپڈیٹس پر ڈاکا ڈالا ہے۔ قریبًا نو لاکھ الفاظ پر مشتمل آرٹیکلز، کالم سارے اڑا لیے۔ حسب معمول فورشئیرڈ پر
     
    • پسندیدہ پسندیدہ × 2
  15. دوست

    دوست محفلین

    مراسلے:
    12,763
    جھنڈا:
    Germany
    موڈ:
    Fine
    نوائے وقت کے مضامین کا ڈیٹا کوئی آٹھ ملین شامل ہوچکا ہے اس فولڈر میں آج۔
     
    • پسندیدہ پسندیدہ × 3
  16. دوست

    دوست محفلین

    مراسلے:
    12,763
    جھنڈا:
    Germany
    موڈ:
    Fine
    تین مہینوں کے بعد اس میں چھ ملین کے قریب الفاظ پر مشتمل خام ٹیکسٹ شامل کیا ہے۔ فولڈ کا ربط۔
     
    • پسندیدہ پسندیدہ × 2
  17. حسین ر۔ع

    حسین ر۔ع محفلین

    مراسلے:
    1
    اس موضوع پر کیا پروگریس ہوئ؟ مجھے اردو کارپس کی شدید ضرورت ہے!
     
  18. arifkarim

    arifkarim معطل

    مراسلے:
    29,832
    جھنڈا:
    Norway
    موڈ:
    Happy
    یہ کام تو شاید کوئی "کارپوریشن" ہی کر سکتی ہے :)
     
  19. دوست

    دوست محفلین

    مراسلے:
    12,763
    جھنڈا:
    Germany
    موڈ:
    Fine
    اس حوالے سے بعد میں کوئی پیش رفت نہیں ہوئی۔ آپ سی ایل ای (ڈاکٹر سرمد کا ادارہ) سے اردو کارپس حاصل کر سکتے ہیں۔ ان کے پاس اردو ڈائجسٹ کا پروفیشنل لیول کا کارپس قیمتاً دستیاب ہے۔
     
    • متفق متفق × 1
  20. محب علوی

    محب علوی لائبریرین

    مراسلے:
    10,904
    جھنڈا:
    Pakistan
    موڈ:
    Bookworm
    شکر ہے اس موضوع پر ایک دھاگہ تو موجود ہے۔
    ایک پائتھون سکرپٹ میرے ہاتھ بھی لگا ہے جو اردو ٹیکسٹ سے جملے کشید کرتا ہے۔
    دلچسپ بات یہ ہے کہ اسے ایک امریکی نے لکھا ہے جو بروکلین میں ہی رہتا ہے اور اردو نہیں جانتا بلکہ کوڈ لکھ کر متفسر بھی ہے کہ اردو جملے کے اختتام کے لیے کیا واضح کلیہ ہے۔

    بنیادی طور پر موصوف نے ایک پرل کوڈ کو پائتھون میں ڈھالا ہے جسے MIT کے کسی مسلم طالب علم نے لکھا تھا مگر پبلک نہیں کیا۔

    کوڈ کا جائزہ لے لیا ہے اور دھاگے کو زندہ کرنے کی خاطر شیئر بھی کروں، کچھ سوالات بھی ہیں جن کا جواب چاہوں گا اور امید ہے کہ تحقیق کسی قدر آگے بڑھے گی۔
     

اس صفحے کی تشہیر