کثیر الاستعمال الفاظ کی فہرست بمعہ معیاری تلفظ

عمدہ!

عامر بھائی، آپ کو ایسی کسی فہرست کی تلاش ہے یا آپ یہ نیک کام کرنے کا ارادہ رکھتے ہیں؟
اصل میں یہ خیال محترم الف نظامی صاحب کا ہے تو ہم نے سوچا کہ جہاں تک ہم سے ہو سکے ہم اتنی کوشش کر لیتے ہیں اور باقی احباب سے بھی التماس ہے کہ وہ بھی ہمارا ساتھ دیں۔ بہت شکریہ سلامت رہیں۔
 

الف نظامی

لائبریرین
کارپس کا تجزیہ کرنے کے بعد ایک خام فہرست حاصل ہوئی جو دو کالمز پر مشتمل ہے پہلا کالم لفظ اور دوسرا اس کی تعداد بتاتا ہے۔

یہ سب ایک ہی لفظ ہیں لیکن کسی کے ساتھ تخلص کی علامت اور کسی کے ساتھ ! سٹار کا نشان یا ؟ ، - ۔ موجود تھے جنہیں فہرست سے فانڈ اینڈ ریپلیس کرنے سے اس طرح کی صورت حال پیدا ہوئی۔

حامد
227​
حامد
6​
حامدؒ
1​
حامد
3​
حامد
1​
حامد:
3​
حامد: اپنے
1​
حامد: اٹھ
1​
حامد: اخبار
3​
حامد: بستر
1​
حامد: پھر
1​
حامد: چوڑی
1​
حامد: چوڑیوں
1​
حامد: حیرت
1​
حامد: خوش
1​
حامد: دوکان
1​
حامد: دوکاندار
1​
حامد: شوکیس
1​
حامد: کرسی
1​
حامد: گاتا
1​
حامد: ماں
1​
حامد:اب
2​
حامد:اباجی
1​
حامد:اس
2​
حامد:آپ
4​
حامد:آج
1​
حامد:بہت
1​
حامد:تحفہ
1​
حامد:تحفوں
1​
حامد:تو
2​
حامد:ٹھہرو
1​
حامد:جس
1​
حامد:جی
1​
حامد:چلئے
1​
حامد:دیکھئے
1​
حامد:ڈپٹی
1​
حامد:رہی
1​
حامد:غالبا
1​
حامد:فی
1​
حامد:قبلہ
1​
حامد:کالج
2​
حامد:کوئی
1​
حامد:مجھے
1​
حامد:میری
1​
حامد:میں
6​
حامد:ہاں
2​
حامد:ہر
1​
حامد:یا
1​
حامد:یعنی
1​
حامد:یہ
3​
حامد:یہاں
1​
حامد‘
1​
 

سیما علی

لائبریرین
کارپس کا تجزیہ کرنے کے بعد ایک خام فہرست حاصل ہوئی جو دو کالمز پر مشتمل ہے پہلا کالم لفظ اور دوسرا اس کی تعداد بتاتا ہے۔
جزاک اللہ خیرا کثیرا
نظامی صاحب سلامت رہیے ۔یہ ہمارے لئے معلومات میں اضافہ ہے ۔بہت خوب ۔
 

الف عین

لائبریرین
کارپس کا تجزیہ کرنے کے بعد ایک خام فہرست حاصل ہوئی جو دو کالمز پر مشتمل ہے پہلا کالم لفظ اور دوسرا اس کی تعداد بتاتا ہے۔

یہ سب ایک ہی لفظ ہیں لیکن کسی کے ساتھ تخلص کی علامت اور کسی کے ساتھ ! سٹار کا نشان یا ؟ ، - ۔ موجود تھے جنہیں فہرست سے فانڈ اینڈ ریپلیس کرنے سے اس طرح کی صورت حال پیدا ہوئی۔

حامد
227​
حامد
6​
حامدؒ
1​
حامد
3​
حامد
1​
حامد:
3​
حامد: اپنے
1​
حامد: اٹھ
1​
حامد: اخبار
3​
حامد: بستر
1​
حامد: پھر
1​
حامد: چوڑی
1​
حامد: چوڑیوں
1​
حامد: حیرت
1​
حامد: خوش
1​
حامد: دوکان
1​
حامد: دوکاندار
1​
حامد: شوکیس
1​
حامد: کرسی
1​
حامد: گاتا
1​
حامد: ماں
1​
حامد:اب
2​
حامد:اباجی
1​
حامد:اس
2​
حامد:آپ
4​
حامد:آج
1​
حامد:بہت
1​
حامد:تحفہ
1​
حامد:تحفوں
1​
حامد:تو
2​
حامد:ٹھہرو
1​
حامد:جس
1​
حامد:جی
1​
حامد:چلئے
1​
حامد:دیکھئے
1​
حامد:ڈپٹی
1​
حامد:رہی
1​
حامد:غالبا
1​
حامد:فی
1​
حامد:قبلہ
1​
حامد:کالج
2​
حامد:کوئی
1​
حامد:مجھے
1​
حامد:میری
1​
حامد:میں
6​
حامد:ہاں
2​
حامد:ہر
1​
حامد:یا
1​
حامد:یعنی
1​
حامد:یہ
3​
حامد:یہاں
1​
حامد‘
1​
اس کی وجہ صرف یہ ہے کہ کولن : کے بعد وقفہ نہیں دیا گیا اس لئے تکنیکی طور پر کولن کو بطور حرف مان کر علیحدہ الفاظ بنا دیے گئے ہیں ۔ زیادہ درست یہ ہو گا کہ ان اوقاف کو حروف کی طرح برتاؤ نہ کرنے کا نظم ہو
غالباً کی تنوین کے بغیر وہ بھی کن سے جڑ گیا ہے
 

الف نظامی

لائبریرین
اس کی وجہ صرف یہ ہے کہ کولن : کے بعد وقفہ نہیں دیا گیا اس لئے تکنیکی طور پر کولن کو بطور حرف مان کر علیحدہ الفاظ بنا دیے گئے ہیں ۔ زیادہ درست یہ ہو گا کہ ان اوقاف کو حروف کی طرح برتاؤ نہ کرنے کا نظم ہو
غالباً کی تنوین کے بغیر وہ بھی کن سے جڑ گیا ہے
ٹھیک ہے سر۔ فہرست کی صفائی کر رہا ہوں۔

اس میں عربی کے حروف بھی شامل ہیں ان کو بھی فہرست سے نکال رہا ہوں
یؤْتکم​
2​
یؤْتوْن​
6​
یؤْتون​
1​
یؤْتی​
2​
یؤْتیْ​
3​
یؤْتیہ​
2​
یؤْذن​
1​
یؤْذی​
1​
یؤْذیک​
3​
یؤْذین​
1​
یؤْفکون​
2​
یؤْفکون​
1​
یؤْقنوْن​
1​
یؤْلوْن​
1​
یؤْلون​
3​
یؤْمروْن​
1​
یؤْمن​
7​
یؤْمنْ​
1​
یؤْمنّ​
4​
یؤْمنوْا​
3​
یؤْمنوْن​
18​
یؤْمنوْن الانبیاء​
1​
یؤْمنوا​
2​
یؤْمنون​
16​
یؤْمنون​
2​
یؤاخذ​
2​
یؤاخذکم​
3​
یؤاخذکمْ​
3​
یؤت​
1​
یؤتمن​
1​
یؤتون​
1​
یؤتیہ​
5​
یؤحی​
1​
یؤخّرھمْ​
1​
یؤخذ​
4​
یؤخر​
2​
یؤدّونہا​
1​
یؤدّی​
1​
 

الف نظامی

لائبریرین
لفظ اللہ کے متعدد اندراج دیکھ کر معلوم ہوا کہ متن میں متعدد جگہ پر لفظ اللہ کو ایک لگیچر کی صورت میں لکھا گیا ہے یعنی ﷲ جس کی یونیکود ویلیو FDF2 ہے اور اور کہیں کیریکٹرز کی صورت میں لہذا فائنڈ اینڈ ری پلیس سے اس کو بھی یکساں کرنے کے لیے لفظ اللہ سے تبدیل کیا گیا
 
آخری تدوین:

الف عین

لائبریرین
متن میں مندرجہ ذیل کنٹرول کیریکٹرز بھی موجود ہیں، ان کا کیا کرنا چاہیے؟
ZWNJ zero width non joiner
PDF pop directional formatting
LRM left to right mark
ZWNBSP Zero Width No-Break Space
RLO start of right to left over-ride
RLE
الف عین سعادت زیک محب علوی دوست
سعادت اور زیک تو یقیناً کہیں گے کہ انہیں رہنے دیا جائے، لیکن میں پریکٹس کے لحاظ سے اسے ترجیح دوں گا کہ ان کو نکال دیا جائے لیکن زونج کو سپیس سے تبدیل کردیا جائے
 

الف نظامی

لائبریرین
سعادت اور زیک تو یقیناً کہیں گے کہ انہیں رہنے دیا جائے، لیکن میں پریکٹس کے لحاظ سے اسے ترجیح دوں گا کہ ان کو نکال دیا جائے لیکن زونج کو سپیس سے تبدیل کردیا جائے
جی بہتر ، ایسا ہی کرتا ہوں۔ بہت شکریہ
 

الف نظامی

لائبریرین
کثیر الاستعمال الفاظ کے استخراج کے لیے اردو جملوں کا ذخیرہ استعمال کیا گیا جو دو طرح کے متون کا مجموعہ ہے ادبی اور سیاسی ۔
ادبی متن الف عین صاحب کی مرتب کردہ کتب سے لیا گیا ہے اور محمد وارث صاحب کے بلاگ کا متن بھی اس میں شامل ہے۔
سیاسی متن مختلف کالم نگاروں کے کالموں سے لیا گیا ہے۔

متن کے اس ذخیرہ کی تمام فائلوں کو ایک فائل data.txt میں اکٹھا کیا گیا تا کہ اس سے کثیر الاستعمال الفاظ نکالے جا سکیں۔ اس فائل کا سائز 198 میگا بائٹ ہے۔
متن کے اس ذخیرہ (کارپس) میں الفاظ کی تعداد:
صفائی سے قبل 26686084
صفائی کے بعد 26598152
دو کروڑ پینسٹھ لاکھ اٹھانوے ہزار ایک سو باون الفاظ موجود ہیں۔

متن سے کثیر الاستعمال الفاظ نکالنے کے لیے مندرجہ ذیل پائتھون سکرپٹ word_counts.py لکھا گیا۔ سکرپٹ کی ان پٹ data.txt تھی اور آوٹ پٹ میں یہ ایک ایکسل فائل بناتا ہے

کوڈ:
import collections as cs
import unicodecsv as csv
import pandas as pd


path = "D:\\urdu-sentences-master\\sentences\\literature\\merged\\"


input_file = "data.txt"
output_file = "frequent_words_raw.xlsx"


corpus_text = ""
with open(path + input_file , 'r', encoding="utf-8") as fp:
        corpus_text = fp.read()
 
# create list of words
words = corpus_text.split()
# clean each word
def remove_unwanted_characters(text):
    unwanted_characters = "ٌّْۭؒؓؐۙۤۚۧٓ#%,?@[]_`{}~¦¨¯´¸¿؛؟٬٬‘’’’’¢£¤¥+<>±«»×÷§©®°µ¶…۝۝ۙ؎؀٭٭۞؏؍؁؃nanßþüýÿۗ$&*﴾.0123456789:=\;¡ª²³¹º¼½¾ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖØÙÚÛÜÝÞĄĆĈĊČĎǺǼàáâãäåæçèéêëìíîïðñòóôõöøùúû"
    translation_table = str.maketrans('', '', unwanted_characters)
    cleaned_text = text.translate(translation_table)
    return cleaned_text
clean_words=[]
for w in words:
        clean_words.append(remove_unwanted_characters(w))


# find count of word
word_counts = cs.Counter(clean_words)




# counter to pandas df
df = pd.DataFrame.from_dict(word_counts, orient='index').reset_index()


# save to excel
df.to_excel(path + output_file, engine='xlsxwriter')


print("done")

اس فائل میں کافی cleaning کی ضرورت تھی جس کے لیے ایک علیحدہ پائتھون سکرپٹ clean_excel.py لکھا جو الفاظ سے غیر ضروری حروف نکال دیتا ہے اور الفاظ کو نارملائز کر دیتا ہے اور ایک لفظ کے متعدد اندراج کو اکٹھا کر دیتا ہے مزید یہ کہ جس ریکارڈ میں ایک لفظ کے بجائے متعدد الفاظ موجود ہوں انہیں بھی علیحدہ علیحدہ کر کے درج کر دیتا ہے

کوڈ:
import pandas as pd
from urduhack.normalization import normalize
import re

path = "D:\\urdu-sentences-master\\sentences\\literature\\merged\\"

input_file="frequent_words_V25.xlsx"
output_file="frequent_words_V25.1 "

df= pd.read_excel(path + input_file)


word_column = df['word']


#function to remove whitespaces
import pandas as pd

def remove_unwanted_characters(text):
    unwanted_characters = "ٌّْۭؒؓؐۙۤۚۧٓx#%,?@[]_`{}~¦¨¯´¸¿؛؟٬٬‘’’’’¢£¤¥+<>±«»×÷§©®°µ¶…۝۝ۙ؎؀٭٭۞؏؍؁؃nanßþüýÿۗ$&*﴾.0123456789:=\;¡ª²³¹º¼½¾ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖØÙÚÛÜÝÞĄĆĈĊČĎǺǼàáâãäåæçèéêëìíîïðñòóôõöøùúû!"
    translation_table = str.maketrans('', '', unwanted_characters)
    cleaned_text = text.translate(translation_table)
    return cleaned_text

# clean text by removing unwanted characters
word_column = df['word']
new_word_column = word_column.apply(remove_unwanted_characters)
# Assign the new values back to the column
df['word'] = new_word_column


#normalise words
def norm(x):
    return  normalize(x)

word_column = df['word']
new_word_column = word_column.apply(norm)
# Assign the new values back to the column
df['word'] = new_word_column

# aggrigate duplicates
df = df.value_counts(normalize=False, sort=True, ascending=False,dropna=False).reset_index(name='num')
#update count
df['total_count'] = df['count'] * df['num']
# drop columns
df.drop(columns=["count", "num"], inplace=True)
print(df.head())

# rename columns
df.rename(columns={"total_count": "count"}, inplace=True)

#consolidated count
df = df.groupby('word')['count'].sum().reset_index()

#split words
df_split = df.assign(word=df['word'].str.split()).explode('word')
#consolidated count
df_split = df_split.groupby('word')['count'].sum().reset_index()
# save dataframe to excel file
df_split.to_excel(path + output_file +  str(df_split.index.size) + ".xlsx", engine='xlsxwriter')

print("done")

اپ ڈیٹ:
22 جنوری 2024
کثیر الاستعمال الفاظ کی فہرست ورژن 0.1
 
آخری تدوین:

الف نظامی

لائبریرین
کارپس کے لئے بھی میری فہرست ہی بہتر ہے۔
ابھی جو کارپس استعمال کیا گیا ہے اس میں آپ کی لائبریری والی کتابوں کا متن شامل ہے جومحمد شاکر عزیز اور محب علوی نے مرتب کیا تھا۔
کارپس میں الفاظ کی تعداد:
صفائی سے قبل 26686084
صفائی کے بعد 26598152
دو کروڑ پینسٹھ لاکھ اٹھانوے ہزار ایک سو باون الفاظ
 
آخری تدوین:

الف نظامی

لائبریرین
مندرجہ ذیل صورت میں کیا طریقہ اپنایا جائے؟

جہاں ﷺ کسی لفظ کے ساتھ آ رہا ہے اس کو دو علیحدہ لفظ بنا کر اندراج کر دیا جائے ۔
مثلا :
ﷺاخلاق 1
کو
ﷺ 1
اخلاق 1
سے تبدیل کر دیا جائے؟


ﷺ​
1717​
ﷺاخلاق​
1​
ﷺالبقرۃ​
1​
ﷺاور​
3​
ﷺایکم​
1​
ﷺبس​
1​
ﷺتمہارا​
1​
ﷺسے​
9​
ﷺقال​
1​
ﷺقالوالذی​
1​
ﷺمثل​
1​
ﷺمن​
1​
ﷺنے​
7​
ﷺپر​
2​
ﷺکا​
3​
ﷺکو​
4​
ﷺکواس​
1​
ﷺکہلوانا​
1​
ﷺکی​
8​
ﷺکے​
5​
ﷺہیں​
2​
 

دوست

محفلین
ﷺ کو ایک لفظ سمجھیں، ویسے تو یہ پورا فرےز (یا جملہ) ہے۔ سپیس ڈال دیں تو سب الگ الگ گِنا جائے گا۔
 

الف عین

لائبریرین
میری فہرست، جسے میں کارپس نہیں کہتا، کرلپ کے کارپس سے درست کردہ اور ورڈ میں لغت کے طور پر استعمال شدہ ہونے کے بعد. اضافہ شدہ ہے، اور جس میں روز بروز اضافہ ہوتا رہتا ہے، ہے۔ خود میری پرانی برقی کتابوں میں بے شمار اغلاط تھیں کہ اس زمانے ورڈ میں سپیل چیک ممکن نہ تھا۔ میری فہرست استعمال کر کے دیکھیں
الف نظامی
 
Top