اردو لغت کبیر کی گولڈن ڈکشنری کے لیے تیاری

وہی جتھوں اے مسئلہ شروع ہویا. اردو ڈکشنری بورڈ والی تریخی اصول پر.
وہ تو نہیں البتہ اس ملتی جلتی کچھ دیگر دستیاب لغات کو میں نے گولڈن ڈکشنری میں آف لائن استعمال کے قابل بنایا ہے۔
گولڈن ڈکشنری یا کلر ڈکشنری کے لیے اردو سے اردو لغات ڈاؤن لوڈ کی جا سکتی ہیں!
 

محمد عمر

لائبریرین
پنجابی میں بھی اب فٹے منہ ہی لکھتے ہیں۔
مذکورہ لغت میں تاریخی حوالوں کی وجہ سے املا کے اختلافات ہیں۔
خیر ہمیں تو انتظار ہے کوئی اللہ کا بندہ اسے سکریپ کر کے ڈیٹا مہیا کر دے تاکہ آفلائن استعمال بھی ہو سکے۔

میں نے ڈیٹا سکریپ کیا تو ہے۔ کچھ حد تک اسے درست بھی کیا ہے۔ لیکن ابھی قابل‌استعمال نہیں ہے۔ اگر یہ آپ کے کسی کام کا ہے تو میں آپ کو مہیا کر دوں گا۔ آپ اس ڈیٹا کو یہاں دیکھ سکتے ہیں ۔ اور اگر پسند آئے تو یہاں سے ڈاؤنلوڈ کر سکتے ہیں۔ اگر کچھ وقت ملے تو میں اسے سیکول لائٹ میں کنورٹ کر کے بھی دے سکتا ہوں۔
 

دوست

محفلین
اچھے والا دیں نا۔ چاہے دیر سے دیں۔ میں تو ٹیب ڈی لمیٹڈ والا استعمال کرتا ہوں تاکہ گولڈن ڈکشنری کے فارمیٹ میں بدلا جا سکے۔
 
اگر ٹیب ڈیلی میٹڈ فائل کی ایک مثال مل جائے تو میں کوشش کر سکتا ہوں۔
ہر لائن میں پہلے لفظ لکھا ہو، پھر ٹیب ہو اور اس کے بعد لفظ کے معنی اور اسی طرح اگلی لائن میں اگلا لفظ اور ٹیب کے بعد اس کے معنی یا جو بھی تفصیلات ہیں! ویسے آپ سیکول لائٹ میں ہی کنورٹ کر کے دیں تو باقی میں کر لوں گا۔ آپ نے ڈیٹا کے ناقابل استعمال ہونے کا تذکرہ کیا ہے، اس کی کیا وجوہات ہیں اور ڈیٹا میں کس قسم کی خامیاں موجود ہیں؟
 

دوست

محفلین
ایس کیو ایل لائٹ سے اپنی تو واقفیت نہیں ہے لیکن ہمیں تو آم کھانے سے غرض ہے کہیں سے بھی آ جائیں
 

محمد عمر

لائبریرین
ہر لائن میں پہلے لفظ لکھا ہو، پھر ٹیب ہو اور اس کے بعد لفظ کے معنی اور اسی طرح اگلی لائن میں اگلا لفظ اور ٹیب کے بعد اس کے معنی یا جو بھی تفصیلات ہیں! ویسے آپ سیکول لائٹ میں ہی کنورٹ کر کے دیں تو باقی میں کر لوں گا۔ آپ نے ڈیٹا کے ناقابل استعمال ہونے کا تذکرہ کیا ہے، اس کی کیا وجوہات ہیں اور ڈیٹا میں کس قسم کی خامیاں موجود ہیں؟

معیاری ایچ ٹی ایم ایل کے نہ ہونے کی وجہ سے کافی الفاظ کے ساتھ سابقے اور لاحقے موجود ہیں۔ کچھ تو وائٹ سپیس کیریکٹر ہیں۔ باقی کچھ سمبل ہیں اور جو کافی الفاظ میں موجو د ہیں۔ اس کی وجہ سے الفاظ کی تلاش اور ترتیب میں مشکل آتی ہے۔ میں نے جو لنک دیا تھا اسے دیکھیں تو شاید آپ کو بہتر اندازہ ہو سکے۔

میں کوشش کرتا ہوں کہ آپ کو چند دن کے اندر کچھ قابل استعمال ڈیٹا دے سکوں۔
 
معیاری ایچ ٹی ایم ایل کے نہ ہونے کی وجہ سے کافی الفاظ کے ساتھ سابقے اور لاحقے موجود ہیں۔ کچھ تو وائٹ سپیس کیریکٹر ہیں۔ باقی کچھ سمبل ہیں اور جو کافی الفاظ میں موجو د ہیں۔ اس کی وجہ سے الفاظ کی تلاش اور ترتیب میں مشکل آتی ہے۔ میں نے جو لنک دیا تھا اسے دیکھیں تو شاید آپ کو بہتر اندازہ ہو سکے۔

میں کوشش کرتا ہوں کہ آپ کو چند دن کے اندر کچھ قابل استعمال ڈیٹا دے سکوں۔
یہ ڈیٹا اردو لغت بورڈ کی سائٹ سے لیا ہے یا دوسری؟
 
معیاری ایچ ٹی ایم ایل کے نہ ہونے کی وجہ سے کافی الفاظ کے ساتھ سابقے اور لاحقے موجود ہیں۔ کچھ تو وائٹ سپیس کیریکٹر ہیں۔ باقی کچھ سمبل ہیں اور جو کافی الفاظ میں موجو د ہیں۔ اس کی وجہ سے الفاظ کی تلاش اور ترتیب میں مشکل آتی ہے۔ میں نے جو لنک دیا تھا اسے دیکھیں تو شاید آپ کو بہتر اندازہ ہو سکے۔
جی بھائی شکریہ! آپ کے دیے گئے لنک سے ڈیٹا ڈاؤن لوڈ کر لیا ہے اور مطلوبہ فارمیٹ میں کنورٹ کرنے پر بھی کچھ کام کیا ہے۔۔۔
 
ڈیٹا کو کچھ حد تک گولڈن ڈکشنری میں استعمال کے قابل بنایا ہے۔ ابھی اس میں صرف الفاظ اور ان کے معنی شامل کیے ہیں، لفظ کے متعلق دیگر معلومات، مثالیں یا حوالہ جات فی الحال شامل نہیں ہیں۔ لنک
ابھی تک الفاظ کے اندر کئی خامیاں اور بہت سے الفاظ میں ٹائپنگ کی غلطیاں موجود ہیں۔
 

دوست

محفلین
یہ پرائیویٹ کنٹریکٹر سے کروایا گیا کام تھا اور لگتا ہے کہ ادھ پکا ہی جاری کر دیا گیا ہے
 
یہ پرائیویٹ کنٹریکٹر سے کروایا گیا کام تھا اور لگتا ہے کہ ادھ پکا ہی جاری کر دیا گیا ہے
متفق ! ساڑھے چھ مہینے بعدبھی کوئی پیش رفت سامنے نہ آنے کا مطلب تو یہی بنتا ہے۔ ویسے کچھ الفاظ تلاش کرنے پر پتہ چلا کہ اس کا ایک بڑا حصہ تو وہی ہے برسوں سے آن لائن دستیاب ہے۔ اور جو اضافی الفاظ ہیں ان میں سے بہت سے ٹائپنگ کی غلطیوں کی وجہ سے ناقابل تلاش ہیں!
 

ابو ہاشم

محفلین
زبردست! بہت اچھا کام ہے۔
ویسے اردو لغت بورڈ کو ہی اسے نیٹ پر ڈاؤنلوڈ کرنے کے لیے رکھ دینا چاہیے تھا
 
معیاری ایچ ٹی ایم ایل کے نہ ہونے کی وجہ سے کافی الفاظ کے ساتھ سابقے اور لاحقے موجود ہیں۔ کچھ تو وائٹ سپیس کیریکٹر ہیں۔ باقی کچھ سمبل ہیں اور جو کافی الفاظ میں موجو د ہیں۔ اس کی وجہ سے الفاظ کی تلاش اور ترتیب میں مشکل آتی ہے۔ میں نے جو لنک دیا تھا اسے دیکھیں تو شاید آپ کو بہتر اندازہ ہو سکے۔
الفاظ کو قابل تلاش بنانے کے لیے آپ کے ڈیٹا پر یہ کام کیا ہے:
کوڈ:
#!/usr/bin/python3

import json
import re

f = open('udb_test.txt','a')
with open('words.json', encoding='utf-8') as data_file:
    data = json.loads(data_file.read())
rows=[list(data['Word'])]
n=0
words = [[]]
for row in rows[0]:
            print(n)
            words.append([])
            words[n].append(row['TitleWithMovements'])
            words[n][0]=words[n][0].replace('\t',' ')
            words[n][0]=words[n][0].replace('ِ','')
            words[n][0]=words[n][0].replace('َ','')
            words[n][0]=words[n][0].replace('ُ','')
            words[n][0]=words[n][0].replace('ّ','')
            words[n][0]=words[n][0].replace('ً','')
            words[n][0]=words[n][0].replace('ٍ','')
            words[n][0]=words[n][0].replace('ْ','')
            words[n][0]=words[n][0].replace('۔','')
            words[n][0]=words[n][0].replace('-','')
            words[n][0]=words[n][0].replace('.','')
            words[n][0]=words[n][0].replace('ٓ','')
            words[n][0]=words[n][0].replace('(','')
            words[n][0]=words[n][0].replace(')','')
            words[n][0]=words[n][0].replace('￿','')
            words[n][0]=words[n][0].replace('ؑ','')
            words[n][0]=words[n][0].replace('٘','')
            words[n][0]=words[n][0].replace('۱','')
            words[n][0]=words[n][0].replace('۲','')
            words[n][0]=words[n][0].replace('۵','')
            words[n][0]=words[n][0].replace('۳','')
            words[n][0]=words[n][0].replace('۴','')
            words[n][0]=words[n][0].replace('۶','')
            words[n][0]=words[n][0].replace('۷','')
            words[n][0]=words[n][0].replace('۸','')
            words[n][0]=words[n][0].replace('۹','')
            words[n][0]=words[n][0].replace('۰','')
            words[n][0]=words[n][0].replace(' ب ',' ')
            words[n][0]=words[n][0].replace(' د ',' ')
            words[n][0]=words[n][0].replace(' ہ ',' ')
            words[n][0]=words[n][0].replace(' ء ',' ')
            words[n][0]=words[n][0].replace(' ج ',' ')
            words[n][0]=words[n][0].replace(' الف ',' ')
            while '  ' in words[n][0]:
                words[n][0]=words[n][0].replace('  ',' ')
            words[n][0]=words[n][0].strip()
            words[n][0] = re.sub(' الف$', '', words[n][0])
            words[n][0] = re.sub(' ب$', '', words[n][0])
            words[n][0] = re.sub(' ج$', '', words[n][0])
            words[n][0] = re.sub(' و$', '', words[n][0])
            words[n][0] = re.sub(' د$', '', words[n][0])
            words[n][0] = re.sub(' ہ$', '', words[n][0])
            x=row['Meaning']
            words[n].append([])
            for y in x:
                words[n][1].append(y['Value'])
            n=n+1
words.sort()
prev="start"
for wdata in words:
    if wdata:
      if wdata[0]!=prev:
        print("",file=f)
        print(wdata[0]+"\t",end="", file=f)
      for mdata in wdata[1]:
          if mdata:
            mdata=mdata.replace("\r"," ")
            mdata=mdata.replace("\t"," ")
            mdata=mdata.replace("\n"," ")
            while '  ' in mdata:
                mdata=mdata.replace('  ',' ')
            print(mdata+"\\n",end="", file=f)
      prev=wdata[0]
 
Top