اردو لغت کبیر کی گولڈن ڈکشنری کے لیے تیاری

دوست نے 'اردو ایپلیکیشن پروگرامنگ' کی ذیل میں اس موضوع کا آغاز کیا، ‏جنوری 29, 2018

  1. ناصر محمود 313

    ناصر محمود 313 محفلین

    مراسلے:
    108
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    اس سے بننے والی ٹیب فائل سے معلوم ہوا کہ سکریپنگ میں بھی شاید کچھ مسائل ہیں:
    [​IMG]
    [​IMG]
     
    • غمناک غمناک × 1
  2. دوست

    دوست محفلین

    مراسلے:
    12,719
    جھنڈا:
    Germany
    موڈ:
    Fine
    ڈیٹا سکریپنگ کی بات ہورہی ہے تو فرہنگ تلفظ کو سکریپ کرنا بھی عین باعث ثواب ہوگا
     
  3. ناصر محمود 313

    ناصر محمود 313 محفلین

    مراسلے:
    108
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    سکریپنگ تو محمد عمر بھائی نے کی ہے، امید ہے وہ اس طرف بھی توجہ دیں گے۔ ویسے اس فرہنگ سےکوئی بھی لفظ تلاش کرنے پر مطلوبہ لفظ کے معنی بجائے وہ لفظ جن الفاظ کے معنی میں آ رہا ہو وہ سامنے آتے ہیں!
     
    • معلوماتی معلوماتی × 1
  4. محمد عمر

    محمد عمر محفلین

    مراسلے:
    19
    سکریپنگ میں ضرور مسائل ہوں گے اور میں اس پر دوبارہ کام کر وں گا۔ امید ہے کہ اس ویک اینڈ پر موقع ملے گا۔
    اگر آپ چاہیں تو سکریپنگ کوڈ یہاں یا اس فائل میں دیکھ سکتے ہیں۔یہ ڈاٹ نیٹ میں ہے۔
     
    • زبردست زبردست × 1
  5. ناصر محمود 313

    ناصر محمود 313 محفلین

    مراسلے:
    108
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    آپ کی فائل دیکھنے اور سکریپ شدہ ڈیٹا کا جائزہ لینے پر بظاہر ایسا معلوم ہوتا ہے کہ آپ نے الفاظ کے معانی اخذ کرتے وقت جو StripNumber فنکشن استعمال کیا ہے اس میں آپ نے ایک مخصوص علامت (شاید ختمہ) کو معانی میں سے ہندسے علیحدہ کرنے کے لیے استعمال کیا ہے جس کی وجہ سے وہ تمام معانی جن کے اندر ہندسے اور ان کے بعد یہ علامت موجود نہیں تھی وہاں معانی کے آخر میں موجود علامت تک متن حذف ہو گیا اور ان تمام الفاظ کے معانی شامل نہیں ہوئے جن میں شروع میں ہندسے کے بعد مذکورہ علامت موجود نہ تھی اور آخر میں موجود تھی۔ آئندہ فرصت ملنے پر کبھی پارسنگ دوبارہ کریں تو اگر اس فنکشن کو ختم کر دیں یا یوں کر دیں کہ صرف ۲ یا ۳ انڈیکس پر موجود ختمہ کی علامت کو ہی ہندسے حذف کرنے کے لیے استعمال کرے تو بہت سارے الفاظ جن کا ایک ہی معنی ہے یا معنی کے شروع میں ہندسہ موجود نہیں ہے اور ان کے معانی فی الحال اخذ نہیں ہو سکے وہ بھی ہو جائیں گے۔ جزاک اللہ!
     
    • پسندیدہ پسندیدہ × 1
  6. محمد عمر

    محمد عمر محفلین

    مراسلے:
    19
    آپ کی بات درست معلوم ہو رہی ہے۔ میں اسکی درستگی کر کے نئی فائل مہیا کروں گا۔
     
  7. دوست

    دوست محفلین

    مراسلے:
    12,719
    جھنڈا:
    Germany
    موڈ:
    Fine
    میں بھی کچھ سی شارپ جانتا ہوں لیکن مجھے ایسے کسی ڈیٹا سورس سے سکریپنگ کرتے ہوئے ہمیشہ مشکل پیش آتی ہے۔ آپ ویب پیج کیسے ڈاون لوڈ کر رہے ہیں؟ کیونکہ اس کے بعد والا کام تو پروگرام نے کرنا ہوتا ہے اور ایچ ٹی ایم ایل میں سے ٹیکسٹ نکالنا کوئی ایسا مسئلہ نہیں ہے۔ اس کام کے لیے میں ایچ ٹی ایم ایل اگلیٹی پیک نامی لائبریری استعمال کرتا ہوں۔ لاجواب چیز ہے۔
    تدوین: ایچ ٹی ایم ایل سے نکالنے کے لیے آپ بھی یہ لائبریری استعمال کر رہے ہیں اور اس کا استعمال کافی کمپلیکس بھی ہے جو کہ میرے سادہ سے پروگرامز کے مقابلے میں کافی اوپر کی چیز ہے۔ لیکن ڈیٹا حاصل کیسے کیا جا رہا ہے یہ سوال باقی ہے۔
     
  8. محمد عمر

    محمد عمر محفلین

    مراسلے:
    19

    ویب سائیٹ میں کوئی انڈیکس نہیں ہے لہذا مجھے بروٹ فورس سے ڈاؤنلوڈ کرنا پڑا۔خوش قسمتی سے تمام الفاظ کے صفحے کا لنک ایک ٹیمپلیٹ تھا اور تمام الفاظ ایک ترتیب میں تھے ۔ سو میں نے 1 سے 270000 تک کے الفاظ کو محفوظ کیا۔۔ 262266 کے بعد کوئی لفظ نہیں ملا سو اسی کو کافی سمجھا۔ آپ اس کا کوڈ بھی یہاں دیکھ سکتے ہیں۔ اور اگر اس کوڈ کو ان کومنٹ کر کے پروگرام چلائیں تو تمام صفحات آپ کی ڈسک میں محفوظ ہو جائیں گے۔
     
    • زبردست زبردست × 2
  9. دوست

    دوست محفلین

    مراسلے:
    12,719
    جھنڈا:
    Germany
    موڈ:
    Fine
    یعنی لنک کے لیے کیوری نہیں دینا پڑی ورنہ مشکل ہوتا. فرہنگ تلفظ میں کوئی فکسڈ پیٹرن نہیں لگتا. کیوری پر ہی صفحہ لوڈ ہوتا ہے.
     
  10. محمد عمر

    محمد عمر محفلین

    مراسلے:
    19

    میں نے آپ کے سکرپٹ کو استعمال کر کے اور معانی کے نقائص دور کر کے نئی فائل اپلوڈ کر دی ہے۔ اگر ایک دفعہ نظر دوڑائیں کہ کچھ بہتر ہوئی ہے ۔
    میں نے زپ فائل میں سی ایس وی بھی ڈال دی ہے ۔میری کوشش میں درست فارمیٹ بنا ہے یا نہیں یہ دیکھنا پڑے گا۔
     
    • زبردست زبردست × 1
  11. محمد عمر

    محمد عمر محفلین

    مراسلے:
    19
    جی درست فرمایا۔ یو آر ایل کیوری سٹرنگ سے ہی کام چل گیا۔

    فرہنگ تلفظ دراصل سرور سائیڈ رینڈرنگ ہے۔ اور کوئی الگ پیج نہیں۔ فارم پوسٹ کرنا پڑے گا جو کہ مطلوبہ تلاش کے نتائج واپس کرتا ہے اسی صفحے میں۔ لیکن یہ کوئی مکمل فہرست دکھائی نہیں دیتی۔ اور تلاش معانی میں بھی دکھائی دیتی ہے۔ سو اسے ڈا‎ؤنلوڈ کرنا کافی مشکل کام ہے۔
    کوشش کرتے ہیں اسے بھی اتارنے کی۔
     
  12. محمد تابش صدیقی

    محمد تابش صدیقی مدیر

    مراسلے:
    12,996
    جھنڈا:
    Pakistan
    موڈ:
    Breezy
    اس لغت میں سرچ کے بعد پچاس سے اوپر ریکارڈز نہیں آتے، اور اگلے پچھلے صفحہ کے لیے لنک بھی نہیں۔
    جس کی وجہ سے اصل لفظ اکثر سامنے نہیں آتا۔
     
    • معلوماتی معلوماتی × 1
  13. دوست

    دوست محفلین

    مراسلے:
    12,719
    جھنڈا:
    Germany
    موڈ:
    Fine
    یہی مسئلہ مقتدرہ قومی انگریزی اردو لغت کے ساتھ بھی تھا بلکہ ہے۔ وہاں سے ڈیٹا حاصل نہیں کیا جا سکتا۔ تاہم اب انگریزی اردو کی "ملتی جلتی" دو تین لغات موجود ہیں جو عام صارف کی ضروریات کو بخوبی پورا کرتی ہیں۔
    مقتدرہ کی قانونی انگریزی اردو لغت پر البتہ دل کافی للچاتا ہے، لیکن وہی گندی امپلی مینٹیشن۔
     
    • معلوماتی معلوماتی × 2
  14. ناصر محمود 313

    ناصر محمود 313 محفلین

    مراسلے:
    108
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    عمر بھائی نئی فائل پہلے سے بہت بہتر ہے اور بہت سارے الفاظ کے معانی شامل ہو گئے ہیں لیکن ابھی بھی کچھ مسائل موجود ہیں مثلاً:
    ۱۔ کچھ الفاظ کے درمیان میں موجود پہلی سپیس حذف ہو گئی ہے۔ (مثلاً "آنکھ سینکنا" کی جگہ "آنکھسینکنا")
    ۲۔ کچھ الفاظ میں اضافی حروف شامل ہو گئے ہیں۔ (مثلاً "آپ آئے بھاگ آئے" کی جگہ "آپ و آئے بھاگ آئے")
    ۳۔ کچھ الفاظ میں اضافی حصے شامل ہو گئے ہیں۔ (مثلاً "سعید" کی جگہ "سعی سعید")
    ۴۔ کچھ الفاظ کے چند معانی تو شامل ہو گئے ہیں لیکن چند نہیں۔(مثلاً "سعی" میں چار معانی موجود ہیں اور تین اخذ ہوئے)
    ابتدائی تین مسائل والے الفاظ میں ایک قدر مشترک ہے کہ ان تمام الفاظ کے ٹائٹل میں کسی دوسرے لفظ کا لنک موجود ہے۔ اس کی وجہ سکریپنگ کا مسئلہ بھی ہو سکتا ہے، یہ بھی ہو سکتا ہے کہ اعراب اور غیر ضروری کریکٹرز حذف کرتے ہوئے مسئلہ ہوا ہو اور یہ بھی ہو سکتا ہے کہ پہلے ویب سائٹ میں غلط ہو اور بعد میں درست کیا گیا ہو۔ اگر آپ ان مثالوں کے صفحات کا اپنے پاس ڈسک پر موجود صفحات سے تقابل کر لیں اور پھر سکریپنگ کے بعد ان میں آنے والی تبدیلی کا جائزہ لے لیں تو ان مسائل کی وجوہات کا تعین کرنے میں آسانی رہے گی۔
     
    آخری تدوین: ‏فروری 11, 2018
    • پسندیدہ پسندیدہ × 4
  15. محمد عمر

    محمد عمر محفلین

    مراسلے:
    19

    آپ نے مرض درست تشخیص کی ہے۔ کچھ الفاظ کا حصہ ایک لنک ہے جیسے کہ آنکھ سینکنا میں آنکھ۔ چونکہ یہ ایک حصہ ایک لنک کے ٹیگ میں ہے۔ اس لئے یہ ٹھیک پارس نہیں ہو رہا۔ یہ درستگی ہو جائے گی۔
    دوسری غلطیوں کی وجہ میرے پیج ہیں۔ چونکہ میں نے چند ماہ پہلے یہ پیج ڈاؤنلوڈ کئے تھے۔ اس وقت کے صفحات میں اور حالیہ صفحات میں کچھ تبدیلیاں ہیں۔ جیسے کہ میرے پاس "آپ (۱) (و) آئے بھاگ آئے" جو کہ درست کر دیا گیا ہے۔ اسی طرح "سَعی سَعِید (فت س ، ی مع) صف" کو بھی درست کر دیا گیا ہے۔ میں دوبارہ سے ڈاؤنلوڈ کرتا ہوں تا کہ تمام تصحیح‌شدہ صفحات کو استعمال کر کے غلطیوں کو کم سے کم کیا جا سکے۔
    معنی کی غلطی کی وجہ یہ ہے کہ کچھ معانی میں نمبر کے بعد مختلف سمبل استعمال کیا گیا ہے۔ جیسے کہ "۔" کی جگہ "."۔ یہ بھی درست ہو جائے گا۔
    اس کے علاوہ اگر کوئی سقم موجود ہو تو ضرور مطلع کیجئے ۔۔
     
    آخری تدوین: ‏فروری 13, 2018
    • پسندیدہ پسندیدہ × 2
    • معلوماتی معلوماتی × 1
  16. ناصر محمود 313

    ناصر محمود 313 محفلین

    مراسلے:
    108
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    یہ تو بہت اچھی خبر ہے کہ لغت کا کام رکا نہیں ہے بلکہ لغت کی غلطیوں کو درست کرنے کا عمل جاری ہے۔
     
  17. ناصر محمود 313

    ناصر محمود 313 محفلین

    مراسلے:
    108
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    سکریپنگ میں تو اس کے علاوہ کوئی خاص غلطی نظر نہیں آئی البتہ لغت کے اندر ایک سقم یہ ہے کہ کئی محاورات، تراکیب اور ضرب الامثال میں جہاں ایک سے زیادہ متبادل الفاظ استعمال کیے جاتے ہیں وہاں پہ تمام ممکنہ متبادل الفاظ بھی ساتھ ہی درج کر دیے گئے ہیں۔ جہاں پہ متبادل الفاظ بریکٹ میں لکھے گئے ہیں انہیں تو بآسانی حذف کیا جا سکتا ہے البتہ جہاں متبادل الفاظ سلیش سے علیحدہ کیے گئے ہیں وہاں ایسی تراکیب کی تلاش میں مشکل پیش آ سکتی ہے۔ اس مسئلے کے حل کے لیے کسی کے ذہن میں کوئی جگاڑ ہو تو استعمال کیا جا سکتا ہے۔
     
    • پسندیدہ پسندیدہ × 1
  18. محمد عمر

    محمد عمر محفلین

    مراسلے:
    19
    جی بالکل۔ یہ تمام الفاظ جو کہ سلیش کے ذریعے جوڑ دئیے گئے ہیں انہیں الگ کرنے کی کوشش کر رہا ہوں مگر توجہ پہلے تمام الفاظ کی درستگی ہے ۔ یہ ہو جائے تو ان الفاظ کو الگ الگ کروں گا۔
     
  19. محمد عمر

    محمد عمر محفلین

    مراسلے:
    19

    میں نے نئی فائل آپلوڈ کر دی ہے۔ یہاں ملاحظہ کریں۔
     
    • پسندیدہ پسندیدہ × 2
  20. ناصر محمود 313

    ناصر محمود 313 محفلین

    مراسلے:
    108
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    شکریہ عمر بھائی، لیکن نئی فائل میں الفاظ و تراکیب کی تعداد پہلے سے کافی کم ہے بہت سے ایسے الفاظ نئی فائل میں موجود نہیں ہیں جو سابقہ فائل میں موجود تھے۔ مثلاً لفظ "عمدگی"۔ شاید آپ نے دوبارہ ڈاؤن لوڈ کیا تو کچھ صفحات ڈاؤن لوڈ نہیں ہوئے۔ اس کے علاوہ کچھ ایسے الفاظ جن کی تفصیلات ایک سے زیادہ صفحات تھے ان میں سے زیادہ تر میں ایک یا دو صفحات کی تفصیلات شامل ہوئی ہیں باقی نہیں۔ مثلاً لفظ "سال"۔ شاید اس کی وجہ بھی وہی ہو کہ ابھی تک تمام صفحات ڈاؤن لوڈ نہیں ہوئے۔ نیز سلیش والے الفاظ کے لیے ایک مشورہ ہے کہ ایسے الفاظ جن میں سلیش ہے اور سلیش کے دونوں طرف اعراب حذف کرنے کے بعد ایک جیسا ہی لفظ ہے ان میں سلیش کو ختم کر کے لفظ کو ایک ہی بار شامل کر دیا جائے۔ یہ طریقہ ایسے الفاظ کے لیے کارگر ہو سکتا ہے جن میں صرف اعراب کے فرق کے ساتھ ایک لفظ کو دو بار لکھا گیا ہے۔ مثلاً لفظ "آتش" اور اس کے مرکبات وغیرہ۔
     
    آخری تدوین: ‏فروری 15, 2018
    • پسندیدہ پسندیدہ × 3

اس صفحے کی تشہیر