اردو لغت کبیر کی گولڈن ڈکشنری کے لیے تیاری

اس سے بننے والی ٹیب فائل سے معلوم ہوا کہ سکریپنگ میں بھی شاید کچھ مسائل ہیں:
pnLzLk8.png

CbmVRit.png
 
ڈیٹا سکریپنگ کی بات ہورہی ہے تو فرہنگ تلفظ کو سکریپ کرنا بھی عین باعث ثواب ہوگا
سکریپنگ تو محمد عمر بھائی نے کی ہے، امید ہے وہ اس طرف بھی توجہ دیں گے۔ ویسے اس فرہنگ سےکوئی بھی لفظ تلاش کرنے پر مطلوبہ لفظ کے معنی بجائے وہ لفظ جن الفاظ کے معنی میں آ رہا ہو وہ سامنے آتے ہیں!
 

محمد عمر

لائبریرین
اس سے بننے والی ٹیب فائل سے معلوم ہوا کہ سکریپنگ میں بھی شاید کچھ مسائل ہیں:

سکریپنگ میں ضرور مسائل ہوں گے اور میں اس پر دوبارہ کام کر وں گا۔ امید ہے کہ اس ویک اینڈ پر موقع ملے گا۔
اگر آپ چاہیں تو سکریپنگ کوڈ یہاں یا اس فائل میں دیکھ سکتے ہیں۔یہ ڈاٹ نیٹ میں ہے۔
 
سکریپنگ میں ضرور مسائل ہوں گے اور میں اس پر دوبارہ کام کر وں گا۔ امید ہے کہ اس ویک اینڈ پر موقع ملے گا۔
اگر آپ چاہیں تو سکریپنگ کوڈ یہاں یا اس فائل میں دیکھ سکتے ہیں۔یہ ڈاٹ نیٹ میں ہے۔
آپ کی فائل دیکھنے اور سکریپ شدہ ڈیٹا کا جائزہ لینے پر بظاہر ایسا معلوم ہوتا ہے کہ آپ نے الفاظ کے معانی اخذ کرتے وقت جو StripNumber فنکشن استعمال کیا ہے اس میں آپ نے ایک مخصوص علامت (شاید ختمہ) کو معانی میں سے ہندسے علیحدہ کرنے کے لیے استعمال کیا ہے جس کی وجہ سے وہ تمام معانی جن کے اندر ہندسے اور ان کے بعد یہ علامت موجود نہیں تھی وہاں معانی کے آخر میں موجود علامت تک متن حذف ہو گیا اور ان تمام الفاظ کے معانی شامل نہیں ہوئے جن میں شروع میں ہندسے کے بعد مذکورہ علامت موجود نہ تھی اور آخر میں موجود تھی۔ آئندہ فرصت ملنے پر کبھی پارسنگ دوبارہ کریں تو اگر اس فنکشن کو ختم کر دیں یا یوں کر دیں کہ صرف ۲ یا ۳ انڈیکس پر موجود ختمہ کی علامت کو ہی ہندسے حذف کرنے کے لیے استعمال کرے تو بہت سارے الفاظ جن کا ایک ہی معنی ہے یا معنی کے شروع میں ہندسہ موجود نہیں ہے اور ان کے معانی فی الحال اخذ نہیں ہو سکے وہ بھی ہو جائیں گے۔ جزاک اللہ!
 

محمد عمر

لائبریرین
ڈیٹا سکریپنگ کی بات ہورہی ہے تو فرہنگ تلفظ کو سکریپ کرنا بھی عین باعث ثواب ہوگا
آپ کی فائل دیکھنے اور سکریپ شدہ ڈیٹا کا جائزہ لینے پر بظاہر ایسا معلوم ہوتا ہے کہ آپ نے الفاظ کے معانی اخذ کرتے وقت جو StripNumber فنکشن استعمال کیا ہے اس میں آپ نے ایک مخصوص علامت (شاید ختمہ) کو معانی میں سے ہندسے علیحدہ کرنے کے لیے استعمال کیا ہے جس کی وجہ سے وہ تمام معانی جن کے اندر ہندسے اور ان کے بعد یہ علامت موجود نہیں تھی وہاں معانی کے آخر میں موجود علامت تک متن حذف ہو گیا اور ان تمام الفاظ کے معانی شامل نہیں ہوئے جن میں شروع میں ہندسے کے بعد مذکورہ علامت موجود نہ تھی اور آخر میں موجود تھی۔ آئندہ فرصت ملنے پر کبھی پارسنگ دوبارہ کریں تو اگر اس فنکشن کو ختم کر دیں یا یوں کر دیں کہ صرف ۲ یا ۳ انڈیکس پر موجود ختمہ کی علامت کو ہی ہندسے حذف کرنے کے لیے استعمال کرے تو بہت سارے الفاظ جن کا ایک ہی معنی ہے یا معنی کے شروع میں ہندسہ موجود نہیں ہے اور ان کے معانی فی الحال اخذ نہیں ہو سکے وہ بھی ہو جائیں گے۔ جزاک اللہ!
آپ کی بات درست معلوم ہو رہی ہے۔ میں اسکی درستگی کر کے نئی فائل مہیا کروں گا۔
 

دوست

محفلین
میں بھی کچھ سی شارپ جانتا ہوں لیکن مجھے ایسے کسی ڈیٹا سورس سے سکریپنگ کرتے ہوئے ہمیشہ مشکل پیش آتی ہے۔ آپ ویب پیج کیسے ڈاون لوڈ کر رہے ہیں؟ کیونکہ اس کے بعد والا کام تو پروگرام نے کرنا ہوتا ہے اور ایچ ٹی ایم ایل میں سے ٹیکسٹ نکالنا کوئی ایسا مسئلہ نہیں ہے۔ اس کام کے لیے میں ایچ ٹی ایم ایل اگلیٹی پیک نامی لائبریری استعمال کرتا ہوں۔ لاجواب چیز ہے۔
تدوین: ایچ ٹی ایم ایل سے نکالنے کے لیے آپ بھی یہ لائبریری استعمال کر رہے ہیں اور اس کا استعمال کافی کمپلیکس بھی ہے جو کہ میرے سادہ سے پروگرامز کے مقابلے میں کافی اوپر کی چیز ہے۔ لیکن ڈیٹا حاصل کیسے کیا جا رہا ہے یہ سوال باقی ہے۔
 

محمد عمر

لائبریرین
میں بھی کچھ سی شارپ جانتا ہوں لیکن مجھے ایسے کسی ڈیٹا سورس سے سکریپنگ کرتے ہوئے ہمیشہ مشکل پیش آتی ہے۔ آپ ویب پیج کیسے ڈاون لوڈ کر رہے ہیں؟ کیونکہ اس کے بعد والا کام تو پروگرام نے کرنا ہوتا ہے اور ایچ ٹی ایم ایل میں سے ٹیکسٹ نکالنا کوئی ایسا مسئلہ نہیں ہے۔ اس کام کے لیے میں ایچ ٹی ایم ایل اگلیٹی پیک نامی لائبریری استعمال کرتا ہوں۔ لاجواب چیز ہے۔
تدوین: ایچ ٹی ایم ایل سے نکالنے کے لیے آپ بھی یہ لائبریری استعمال کر رہے ہیں اور اس کا استعمال کافی کمپلیکس بھی ہے جو کہ میرے سادہ سے پروگرامز کے مقابلے میں کافی اوپر کی چیز ہے۔ لیکن ڈیٹا حاصل کیسے کیا جا رہا ہے یہ سوال باقی ہے۔


ویب سائیٹ میں کوئی انڈیکس نہیں ہے لہذا مجھے بروٹ فورس سے ڈاؤنلوڈ کرنا پڑا۔خوش قسمتی سے تمام الفاظ کے صفحے کا لنک ایک ٹیمپلیٹ تھا اور تمام الفاظ ایک ترتیب میں تھے ۔ سو میں نے 1 سے 270000 تک کے الفاظ کو محفوظ کیا۔۔ 262266 کے بعد کوئی لفظ نہیں ملا سو اسی کو کافی سمجھا۔ آپ اس کا کوڈ بھی یہاں دیکھ سکتے ہیں۔ اور اگر اس کوڈ کو ان کومنٹ کر کے پروگرام چلائیں تو تمام صفحات آپ کی ڈسک میں محفوظ ہو جائیں گے۔
 

دوست

محفلین
یعنی لنک کے لیے کیوری نہیں دینا پڑی ورنہ مشکل ہوتا. فرہنگ تلفظ میں کوئی فکسڈ پیٹرن نہیں لگتا. کیوری پر ہی صفحہ لوڈ ہوتا ہے.
 

محمد عمر

لائبریرین
آپ کی فائل دیکھنے اور سکریپ شدہ ڈیٹا کا جائزہ لینے پر بظاہر ایسا معلوم ہوتا ہے کہ آپ نے الفاظ کے معانی اخذ کرتے وقت جو StripNumber فنکشن استعمال کیا ہے اس میں آپ نے ایک مخصوص علامت (شاید ختمہ) کو معانی میں سے ہندسے علیحدہ کرنے کے لیے استعمال کیا ہے جس کی وجہ سے وہ تمام معانی جن کے اندر ہندسے اور ان کے بعد یہ علامت موجود نہیں تھی وہاں معانی کے آخر میں موجود علامت تک متن حذف ہو گیا اور ان تمام الفاظ کے معانی شامل نہیں ہوئے جن میں شروع میں ہندسے کے بعد مذکورہ علامت موجود نہ تھی اور آخر میں موجود تھی۔ آئندہ فرصت ملنے پر کبھی پارسنگ دوبارہ کریں تو اگر اس فنکشن کو ختم کر دیں یا یوں کر دیں کہ صرف ۲ یا ۳ انڈیکس پر موجود ختمہ کی علامت کو ہی ہندسے حذف کرنے کے لیے استعمال کرے تو بہت سارے الفاظ جن کا ایک ہی معنی ہے یا معنی کے شروع میں ہندسہ موجود نہیں ہے اور ان کے معانی فی الحال اخذ نہیں ہو سکے وہ بھی ہو جائیں گے۔ جزاک اللہ!


میں نے آپ کے سکرپٹ کو استعمال کر کے اور معانی کے نقائص دور کر کے نئی فائل اپلوڈ کر دی ہے۔ اگر ایک دفعہ نظر دوڑائیں کہ کچھ بہتر ہوئی ہے ۔
میں نے زپ فائل میں سی ایس وی بھی ڈال دی ہے ۔میری کوشش میں درست فارمیٹ بنا ہے یا نہیں یہ دیکھنا پڑے گا۔
 

محمد عمر

لائبریرین
یعنی لنک کے لیے کیوری نہیں دینا پڑی ورنہ مشکل ہوتا. فرہنگ تلفظ میں کوئی فکسڈ پیٹرن نہیں لگتا. کیوری پر ہی صفحہ لوڈ ہوتا ہے.
جی درست فرمایا۔ یو آر ایل کیوری سٹرنگ سے ہی کام چل گیا۔

فرہنگ تلفظ دراصل سرور سائیڈ رینڈرنگ ہے۔ اور کوئی الگ پیج نہیں۔ فارم پوسٹ کرنا پڑے گا جو کہ مطلوبہ تلاش کے نتائج واپس کرتا ہے اسی صفحے میں۔ لیکن یہ کوئی مکمل فہرست دکھائی نہیں دیتی۔ اور تلاش معانی میں بھی دکھائی دیتی ہے۔ سو اسے ڈا‎ؤنلوڈ کرنا کافی مشکل کام ہے۔
کوشش کرتے ہیں اسے بھی اتارنے کی۔
 

دوست

محفلین
یہی مسئلہ مقتدرہ قومی انگریزی اردو لغت کے ساتھ بھی تھا بلکہ ہے۔ وہاں سے ڈیٹا حاصل نہیں کیا جا سکتا۔ تاہم اب انگریزی اردو کی "ملتی جلتی" دو تین لغات موجود ہیں جو عام صارف کی ضروریات کو بخوبی پورا کرتی ہیں۔
مقتدرہ کی قانونی انگریزی اردو لغت پر البتہ دل کافی للچاتا ہے، لیکن وہی گندی امپلی مینٹیشن۔
 
میں نے آپ کے سکرپٹ کو استعمال کر کے اور معانی کے نقائص دور کر کے نئی فائل اپلوڈ کر دی ہے۔ اگر ایک دفعہ نظر دوڑائیں کہ کچھ بہتر ہوئی ہے ۔
میں نے زپ فائل میں سی ایس وی بھی ڈال دی ہے ۔میری کوشش میں درست فارمیٹ بنا ہے یا نہیں یہ دیکھنا پڑے گا۔
عمر بھائی نئی فائل پہلے سے بہت بہتر ہے اور بہت سارے الفاظ کے معانی شامل ہو گئے ہیں لیکن ابھی بھی کچھ مسائل موجود ہیں مثلاً:
۱۔ کچھ الفاظ کے درمیان میں موجود پہلی سپیس حذف ہو گئی ہے۔ (مثلاً "آنکھ سینکنا" کی جگہ "آنکھسینکنا")
۲۔ کچھ الفاظ میں اضافی حروف شامل ہو گئے ہیں۔ (مثلاً "آپ آئے بھاگ آئے" کی جگہ "آپ و آئے بھاگ آئے")
۳۔ کچھ الفاظ میں اضافی حصے شامل ہو گئے ہیں۔ (مثلاً "سعید" کی جگہ "سعی سعید")
۴۔ کچھ الفاظ کے چند معانی تو شامل ہو گئے ہیں لیکن چند نہیں۔(مثلاً "سعی" میں چار معانی موجود ہیں اور تین اخذ ہوئے)
ابتدائی تین مسائل والے الفاظ میں ایک قدر مشترک ہے کہ ان تمام الفاظ کے ٹائٹل میں کسی دوسرے لفظ کا لنک موجود ہے۔ اس کی وجہ سکریپنگ کا مسئلہ بھی ہو سکتا ہے، یہ بھی ہو سکتا ہے کہ اعراب اور غیر ضروری کریکٹرز حذف کرتے ہوئے مسئلہ ہوا ہو اور یہ بھی ہو سکتا ہے کہ پہلے ویب سائٹ میں غلط ہو اور بعد میں درست کیا گیا ہو۔ اگر آپ ان مثالوں کے صفحات کا اپنے پاس ڈسک پر موجود صفحات سے تقابل کر لیں اور پھر سکریپنگ کے بعد ان میں آنے والی تبدیلی کا جائزہ لے لیں تو ان مسائل کی وجوہات کا تعین کرنے میں آسانی رہے گی۔
 
آخری تدوین:

محمد عمر

لائبریرین
عمر بھائی نئی فائل پہلے سے بہت بہتر ہے اور بہت سارے الفاظ کے معانی شامل ہو گئے ہیں لیکن ابھی بھی کچھ مسائل موجود ہیں مثلاً:
۱۔ کچھ الفاظ کے درمیان میں موجود پہلی سپیس حذف ہو گئی ہے۔ (مثلاً "آنکھ سینکنا" کی جگہ "آنکھسینکنا")
۲۔ کچھ الفاظ میں اضافی حروف شامل ہو گئے ہیں۔ (مثلاً "آپ آئے بھاگ آئے" کی جگہ "آپ و آئے بھاگ آئے")
۳۔ کچھ الفاظ میں اضافی حصے شامل ہو گئے ہیں۔ (مثلاً "سعید" کی جگہ "سعی سعید")
۴۔ کچھ الفاظ کے چند معانی تو شامل ہو گئے ہیں لیکن چند نہیں۔(مثلاً "سعی" میں چار معانی موجود ہیں اور تین اخذ ہوئے)
ابتدائی تین مسائل والے الفاظ میں ایک قدر مشترک ہے کہ ان تمام الفاظ کے ٹائٹل میں کسی دوسرے لفظ کا لنک موجود ہے۔ اس کی وجہ سکریپنگ کا مسئلہ بھی ہو سکتا ہے، یہ بھی ہو سکتا ہے کہ اعراب اور غیر ضروری کریکٹرز حذف کرتے ہوئے مسئلہ ہوا ہو اور یہ بھی ہو سکتا ہے کہ پہلے ویب سائٹ میں غلط ہو اور بعد میں درست کیا گیا ہو۔ اگر آپ ان مثالوں کے صفحات کا اپنے پاس ڈسک پر موجود صفحات سے تقابل کر لیں اور پھر سکریپنگ کے بعد ان میں آنے والی تبدیلی کا جائزہ لے لیں تو ان مسائل کی وجوہات کا تعین کرنے میں آسانی رہے گی۔


آپ نے مرض درست تشخیص کی ہے۔ کچھ الفاظ کا حصہ ایک لنک ہے جیسے کہ آنکھ سینکنا میں آنکھ۔ چونکہ یہ ایک حصہ ایک لنک کے ٹیگ میں ہے۔ اس لئے یہ ٹھیک پارس نہیں ہو رہا۔ یہ درستگی ہو جائے گی۔
دوسری غلطیوں کی وجہ میرے پیج ہیں۔ چونکہ میں نے چند ماہ پہلے یہ پیج ڈاؤنلوڈ کئے تھے۔ اس وقت کے صفحات میں اور حالیہ صفحات میں کچھ تبدیلیاں ہیں۔ جیسے کہ میرے پاس "آپ (۱) (و) آئے بھاگ آئے" جو کہ درست کر دیا گیا ہے۔ اسی طرح "سَعی سَعِید (فت س ، ی مع) صف" کو بھی درست کر دیا گیا ہے۔ میں دوبارہ سے ڈاؤنلوڈ کرتا ہوں تا کہ تمام تصحیح‌شدہ صفحات کو استعمال کر کے غلطیوں کو کم سے کم کیا جا سکے۔
معنی کی غلطی کی وجہ یہ ہے کہ کچھ معانی میں نمبر کے بعد مختلف سمبل استعمال کیا گیا ہے۔ جیسے کہ "۔" کی جگہ "."۔ یہ بھی درست ہو جائے گا۔
اس کے علاوہ اگر کوئی سقم موجود ہو تو ضرور مطلع کیجئے ۔۔
 
آخری تدوین:
اس وقت کے صفحات میں اور حالیہ صفحات میں کچھ تبدیلیاں ہیں۔ جیسے کہ میرے پاس "آپ (۱) (و) آئے بھاگ آئے" جو کہ درست کر دیا گیا ہے۔ اسی طرح "سَعی سَعِید (فت س ، ی مع) صف" کو بھی درست کر دیا گیا ہے۔
یہ تو بہت اچھی خبر ہے کہ لغت کا کام رکا نہیں ہے بلکہ لغت کی غلطیوں کو درست کرنے کا عمل جاری ہے۔
 
اس کے علاوہ اگر کوئی سقم موجود ہو تو ضرور مطلع کیجئے ۔۔
سکریپنگ میں تو اس کے علاوہ کوئی خاص غلطی نظر نہیں آئی البتہ لغت کے اندر ایک سقم یہ ہے کہ کئی محاورات، تراکیب اور ضرب الامثال میں جہاں ایک سے زیادہ متبادل الفاظ استعمال کیے جاتے ہیں وہاں پہ تمام ممکنہ متبادل الفاظ بھی ساتھ ہی درج کر دیے گئے ہیں۔ جہاں پہ متبادل الفاظ بریکٹ میں لکھے گئے ہیں انہیں تو بآسانی حذف کیا جا سکتا ہے البتہ جہاں متبادل الفاظ سلیش سے علیحدہ کیے گئے ہیں وہاں ایسی تراکیب کی تلاش میں مشکل پیش آ سکتی ہے۔ اس مسئلے کے حل کے لیے کسی کے ذہن میں کوئی جگاڑ ہو تو استعمال کیا جا سکتا ہے۔
 

محمد عمر

لائبریرین
سکریپنگ میں تو اس کے علاوہ کوئی خاص غلطی نظر نہیں آئی البتہ لغت کے اندر ایک سقم یہ ہے کہ کئی محاورات، تراکیب اور ضرب الامثال میں جہاں ایک سے زیادہ متبادل الفاظ استعمال کیے جاتے ہیں وہاں پہ تمام ممکنہ متبادل الفاظ بھی ساتھ ہی درج کر دیے گئے ہیں۔ جہاں پہ متبادل الفاظ بریکٹ میں لکھے گئے ہیں انہیں تو بآسانی حذف کیا جا سکتا ہے البتہ جہاں متبادل الفاظ سلیش سے علیحدہ کیے گئے ہیں وہاں ایسی تراکیب کی تلاش میں مشکل پیش آ سکتی ہے۔ اس مسئلے کے حل کے لیے کسی کے ذہن میں کوئی جگاڑ ہو تو استعمال کیا جا سکتا ہے۔

جی بالکل۔ یہ تمام الفاظ جو کہ سلیش کے ذریعے جوڑ دئیے گئے ہیں انہیں الگ کرنے کی کوشش کر رہا ہوں مگر توجہ پہلے تمام الفاظ کی درستگی ہے ۔ یہ ہو جائے تو ان الفاظ کو الگ الگ کروں گا۔
 

محمد عمر

لائبریرین
عمر بھائی نئی فائل پہلے سے بہت بہتر ہے اور بہت سارے الفاظ کے معانی شامل ہو گئے ہیں لیکن ابھی بھی کچھ مسائل موجود ہیں مثلاً:
۱۔ کچھ الفاظ کے درمیان میں موجود پہلی سپیس حذف ہو گئی ہے۔ (مثلاً "آنکھ سینکنا" کی جگہ "آنکھسینکنا")
۲۔ کچھ الفاظ میں اضافی حروف شامل ہو گئے ہیں۔ (مثلاً "آپ آئے بھاگ آئے" کی جگہ "آپ و آئے بھاگ آئے")
۳۔ کچھ الفاظ میں اضافی حصے شامل ہو گئے ہیں۔ (مثلاً "سعید" کی جگہ "سعی سعید")
۴۔ کچھ الفاظ کے چند معانی تو شامل ہو گئے ہیں لیکن چند نہیں۔(مثلاً "سعی" میں چار معانی موجود ہیں اور تین اخذ ہوئے)
ابتدائی تین مسائل والے الفاظ میں ایک قدر مشترک ہے کہ ان تمام الفاظ کے ٹائٹل میں کسی دوسرے لفظ کا لنک موجود ہے۔ اس کی وجہ سکریپنگ کا مسئلہ بھی ہو سکتا ہے، یہ بھی ہو سکتا ہے کہ اعراب اور غیر ضروری کریکٹرز حذف کرتے ہوئے مسئلہ ہوا ہو اور یہ بھی ہو سکتا ہے کہ پہلے ویب سائٹ میں غلط ہو اور بعد میں درست کیا گیا ہو۔ اگر آپ ان مثالوں کے صفحات کا اپنے پاس ڈسک پر موجود صفحات سے تقابل کر لیں اور پھر سکریپنگ کے بعد ان میں آنے والی تبدیلی کا جائزہ لے لیں تو ان مسائل کی وجوہات کا تعین کرنے میں آسانی رہے گی۔


میں نے نئی فائل آپلوڈ کر دی ہے۔ یہاں ملاحظہ کریں۔
 
میں نے نئی فائل آپلوڈ کر دی ہے۔ یہاں ملاحظہ کریں۔
شکریہ عمر بھائی، لیکن نئی فائل میں الفاظ و تراکیب کی تعداد پہلے سے کافی کم ہے بہت سے ایسے الفاظ نئی فائل میں موجود نہیں ہیں جو سابقہ فائل میں موجود تھے۔ مثلاً لفظ "عمدگی"۔ شاید آپ نے دوبارہ ڈاؤن لوڈ کیا تو کچھ صفحات ڈاؤن لوڈ نہیں ہوئے۔ اس کے علاوہ کچھ ایسے الفاظ جن کی تفصیلات ایک سے زیادہ صفحات تھے ان میں سے زیادہ تر میں ایک یا دو صفحات کی تفصیلات شامل ہوئی ہیں باقی نہیں۔ مثلاً لفظ "سال"۔ شاید اس کی وجہ بھی وہی ہو کہ ابھی تک تمام صفحات ڈاؤن لوڈ نہیں ہوئے۔ نیز سلیش والے الفاظ کے لیے ایک مشورہ ہے کہ ایسے الفاظ جن میں سلیش ہے اور سلیش کے دونوں طرف اعراب حذف کرنے کے بعد ایک جیسا ہی لفظ ہے ان میں سلیش کو ختم کر کے لفظ کو ایک ہی بار شامل کر دیا جائے۔ یہ طریقہ ایسے الفاظ کے لیے کارگر ہو سکتا ہے جن میں صرف اعراب کے فرق کے ساتھ ایک لفظ کو دو بار لکھا گیا ہے۔ مثلاً لفظ "آتش" اور اس کے مرکبات وغیرہ۔
 
آخری تدوین:
Top