کثیر الاستعمال الفاظ کی فہرست بمعہ معیاری تلفظ

عامر گولڑوی · جنوری 12، 2024

السلام علیکم ورحمتہ اللہ وبرکاتہ

الف عین الف نظامی سیما علی سید عاطف علی سید عمران محمد عبدالرؤوف وجی

عامر گولڑوی · جنوری 12، 2024

بَہُت : بَ ۔ ہُت (سنسکرت)
معانی: نہایت، زیادہ، کافی
جمع: بَهُتات/ بَهُتوں

علی وقار · جنوری 12، 2024

عمدہ!

عامر بھائی، آپ کو ایسی کسی فہرست کی تلاش ہے یا آپ یہ نیک کام کرنے کا ارادہ رکھتے ہیں؟

الف نظامی · جنوری 12، 2024

کثیر الاستعمال الفاظ کی فہرست مرتب کرنے کے لیے اردو متن کا ذخیرہ یا کارپس درکار ہے جس کا تجزیہ کرنے سے یہ فہرست مرتب ہوگی.
اس کے بعد فہرست کے الفاظ کے تلفظ پر کام کرنے کی باری آئے گی۔

عامر گولڑوی · جنوری 12، 2024

علی وقار نے کہا:
عمدہ!

عامر بھائی، آپ کو ایسی کسی فہرست کی تلاش ہے یا آپ یہ نیک کام کرنے کا ارادہ رکھتے ہیں؟

اصل میں یہ خیال محترم الف نظامی صاحب کا ہے تو ہم نے سوچا کہ جہاں تک ہم سے ہو سکے ہم اتنی کوشش کر لیتے ہیں اور باقی احباب سے بھی التماس ہے کہ وہ بھی ہمارا ساتھ دیں۔ بہت شکریہ سلامت رہیں۔

الف نظامی · جنوری 12، 2024

کارپس کا تجزیہ کرنے کے بعد ایک خام فہرست حاصل ہوئی جو دو کالمز پر مشتمل ہے پہلا کالم لفظ اور دوسرا اس کی تعداد بتاتا ہے۔

یہ سب ایک ہی لفظ ہیں لیکن کسی کے ساتھ تخلص کی علامت اور کسی کے ساتھ ! سٹار کا نشان یا ؟ ، - ۔ موجود تھے جنہیں فہرست سے فانڈ اینڈ ریپلیس کرنے سے اس طرح کی صورت حال پیدا ہوئی۔

حامد	227
حامد	6
حامدؒ	1
حامد	3
حامد	1
حامد:	3
حامد: اپنے	1
حامد: اٹھ	1
حامد: اخبار	3
حامد: بستر	1
حامد: پھر	1
حامد: چوڑی	1
حامد: چوڑیوں	1
حامد: حیرت	1
حامد: خوش	1
حامد: دوکان	1
حامد: دوکاندار	1
حامد: شوکیس	1
حامد: کرسی	1
حامد: گاتا	1
حامد: ماں	1
حامد:اب	2
حامد:اباجی	1
حامد:اس	2
حامد:آپ	4
حامد:آج	1
حامد:بہت	1
حامد:تحفہ	1
حامد:تحفوں	1
حامد:تو	2
حامد:ٹھہرو	1
حامد:جس	1
حامد:جی	1
حامد:چلئے	1
حامد:دیکھئے	1
حامد:ڈپٹی	1
حامد:رہی	1
حامد:غالبا	1
حامد:فی	1
حامد:قبلہ	1
حامد:کالج	2
حامد:کوئی	1
حامد:مجھے	1
حامد:میری	1
حامد:میں	6
حامد:ہاں	2
حامد:ہر	1
حامد:یا	1
حامد:یعنی	1
حامد:یہ	3
حامد:یہاں	1
حامد‘	1

سیما علی · جنوری 13، 2024

الف نظامی نے کہا:
کارپس کا تجزیہ کرنے کے بعد ایک خام فہرست حاصل ہوئی جو دو کالمز پر مشتمل ہے پہلا کالم لفظ اور دوسرا اس کی تعداد بتاتا ہے۔

جزاک اللہ خیرا کثیرا
نظامی صاحب سلامت رہیے ۔یہ ہمارے لئے معلومات میں اضافہ ہے ۔بہت خوب ۔

الف عین · جنوری 13، 2024

الف نظامی نے کہا:
کارپس کا تجزیہ کرنے کے بعد ایک خام فہرست حاصل ہوئی جو دو کالمز پر مشتمل ہے پہلا کالم لفظ اور دوسرا اس کی تعداد بتاتا ہے۔

یہ سب ایک ہی لفظ ہیں لیکن کسی کے ساتھ تخلص کی علامت اور کسی کے ساتھ ! سٹار کا نشان یا ؟ ، - ۔ موجود تھے جنہیں فہرست سے فانڈ اینڈ ریپلیس کرنے سے اس طرح کی صورت حال پیدا ہوئی۔

حامد
227
حامد
6
حامدؒ
1
حامد
3
حامد
1
حامد:
3
حامد: اپنے
1
حامد: اٹھ
1
حامد: اخبار
3
حامد: بستر
1
حامد: پھر
1
حامد: چوڑی
1
حامد: چوڑیوں
1
حامد: حیرت
1
حامد: خوش
1
حامد: دوکان
1
حامد: دوکاندار
1
حامد: شوکیس
1
حامد: کرسی
1
حامد: گاتا
1
حامد: ماں
1
حامد:اب
2
حامد:اباجی
1
حامد:اس
2
حامد:آپ
4
حامد:آج
1
حامد:بہت
1
حامد:تحفہ
1
حامد:تحفوں
1
حامد:تو
2
حامد:ٹھہرو
1
حامد:جس
1
حامد:جی
1
حامد:چلئے
1
حامد:دیکھئے
1
حامد:ڈپٹی
1
حامد:رہی
1
حامد:غالبا
1
حامد:فی
1
حامد:قبلہ
1
حامد:کالج
2
حامد:کوئی
1
حامد:مجھے
1
حامد:میری
1
حامد:میں
6
حامد:ہاں
2
حامد:ہر
1
حامد:یا
1
حامد:یعنی
1
حامد:یہ
3
حامد:یہاں
1
حامد‘
1

اس کی وجہ صرف یہ ہے کہ کولن : کے بعد وقفہ نہیں دیا گیا اس لئے تکنیکی طور پر کولن کو بطور حرف مان کر علیحدہ الفاظ بنا دیے گئے ہیں ۔ زیادہ درست یہ ہو گا کہ ان اوقاف کو حروف کی طرح برتاؤ نہ کرنے کا نظم ہو
غالباً کی تنوین کے بغیر وہ بھی کن سے جڑ گیا ہے

الف نظامی · جنوری 13، 2024

الف عین نے کہا:
اس کی وجہ صرف یہ ہے کہ کولن : کے بعد وقفہ نہیں دیا گیا اس لئے تکنیکی طور پر کولن کو بطور حرف مان کر علیحدہ الفاظ بنا دیے گئے ہیں ۔ زیادہ درست یہ ہو گا کہ ان اوقاف کو حروف کی طرح برتاؤ نہ کرنے کا نظم ہو
غالباً کی تنوین کے بغیر وہ بھی کن سے جڑ گیا ہے

ٹھیک ہے سر۔ فہرست کی صفائی کر رہا ہوں۔

اس میں عربی کے حروف بھی شامل ہیں ان کو بھی فہرست سے نکال رہا ہوں

یؤْتکم	2
یؤْتوْن	6
یؤْتون	1
یؤْتی	2
یؤْتیْ	3
یؤْتیہ	2
یؤْذن	1
یؤْذی	1
یؤْذیک	3
یؤْذین	1
یؤْفکون	2
یؤْفکون	1
یؤْقنوْن	1
یؤْلوْن	1
یؤْلون	3
یؤْمروْن	1
یؤْمن	7
یؤْمنْ	1
یؤْمنّ	4
یؤْمنوْا	3
یؤْمنوْن	18
یؤْمنوْن الانبیاء	1
یؤْمنوا	2
یؤْمنون	16
یؤْمنون	2
یؤاخذ	2
یؤاخذکم	3
یؤاخذکمْ	3
یؤت	1
یؤتمن	1
یؤتون	1
یؤتیہ	5
یؤحی	1
یؤخّرھمْ	1
یؤخذ	4
یؤخر	2
یؤدّونہا	1
یؤدّی	1

الف نظامی · جنوری 13، 2024

لفظ اللہ کے متعدد اندراج دیکھ کر معلوم ہوا کہ متن میں متعدد جگہ پر لفظ اللہ کو ایک لگیچر کی صورت میں لکھا گیا ہے یعنی ﷲ جس کی یونیکود ویلیو FDF2 ہے اور اور کہیں کیریکٹرز کی صورت میں لہذا فائنڈ اینڈ ری پلیس سے اس کو بھی یکساں کرنے کے لیے لفظ اللہ سے تبدیل کیا گیا

الف نظامی · جنوری 14، 2024

متن میں مندرجہ ذیل کنٹرول کیریکٹرز بھی موجود ہیں، ان کا کیا کرنا چاہیے؟
ZWNJ zero width non joiner
PDF pop directional formatting
LRM left to right mark
ZWNBSP Zero Width No-Break Space
RLO start of right to left over-ride
RLE
الف عین سعادت زیک محب علوی دوست

الف عین · جنوری 14، 2024

الف نظامی نے کہا:
متن میں مندرجہ ذیل کنٹرول کیریکٹرز بھی موجود ہیں، ان کا کیا کرنا چاہیے؟
ZWNJ zero width non joiner
PDF pop directional formatting
LRM left to right mark
ZWNBSP Zero Width No-Break Space
RLO start of right to left over-ride
RLE
الف عین سعادت زیک محب علوی دوست

سعادت اور زیک تو یقیناً کہیں گے کہ انہیں رہنے دیا جائے، لیکن میں پریکٹس کے لحاظ سے اسے ترجیح دوں گا کہ ان کو نکال دیا جائے لیکن زونج کو سپیس سے تبدیل کردیا جائے

الف نظامی · جنوری 14، 2024

الف عین نے کہا:
سعادت اور زیک تو یقیناً کہیں گے کہ انہیں رہنے دیا جائے، لیکن میں پریکٹس کے لحاظ سے اسے ترجیح دوں گا کہ ان کو نکال دیا جائے لیکن زونج کو سپیس سے تبدیل کردیا جائے

جی بہتر ، ایسا ہی کرتا ہوں۔ بہت شکریہ

الف عین · جنوری 14، 2024

کارپس کے لئے بھی میری فہرست ہی بہتر ہے۔

الف نظامی · جنوری 14، 2024

کثیر الاستعمال الفاظ کے استخراج کے لیے اردو جملوں کا ذخیرہ استعمال کیا گیا جو دو طرح کے متون کا مجموعہ ہے ادبی اور سیاسی ۔
ادبی متن الف عین صاحب کی مرتب کردہ کتب سے لیا گیا ہے اور محمد وارث صاحب کے بلاگ کا متن بھی اس میں شامل ہے۔
سیاسی متن مختلف کالم نگاروں کے کالموں سے لیا گیا ہے۔

متن کے اس ذخیرہ کی تمام فائلوں کو ایک فائل data.txt میں اکٹھا کیا گیا تا کہ اس سے کثیر الاستعمال الفاظ نکالے جا سکیں۔ اس فائل کا سائز 198 میگا بائٹ ہے۔
متن کے اس ذخیرہ (کارپس) میں الفاظ کی تعداد:
صفائی سے قبل 26686084
صفائی کے بعد 26598152
دو کروڑ پینسٹھ لاکھ اٹھانوے ہزار ایک سو باون الفاظ موجود ہیں۔

متن سے کثیر الاستعمال الفاظ نکالنے کے لیے مندرجہ ذیل پائتھون سکرپٹ word_counts.py لکھا گیا۔ سکرپٹ کی ان پٹ data.txt تھی اور آوٹ پٹ میں یہ ایک ایکسل فائل بناتا ہے

کوڈ:

import collections as cs
import unicodecsv as csv
import pandas as pd


path = "D:\\urdu-sentences-master\\sentences\\literature\\merged\\"


input_file = "data.txt"
output_file = "frequent_words_raw.xlsx"


corpus_text = ""
with open(path + input_file , 'r', encoding="utf-8") as fp:
        corpus_text = fp.read()
 
# create list of words
words = corpus_text.split()
# clean each word
def remove_unwanted_characters(text):
    unwanted_characters = "ٌّْۭؒؓؐۙۤۚۧٓ#%,?@[]_`{}~¦¨¯´¸¿؛؟٬٬‘’’’’¢£¤¥+<>±«»×÷§©®°µ¶…۝۝ۙ؎؀٭٭۞؏؍؁؃nanßþüýÿۗ$&*﴾.0123456789:=\;¡ª²³¹º¼½¾ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖØÙÚÛÜÝÞĄĆĈĊČĎǺǼàáâãäåæçèéêëìíîïðñòóôõöøùúû"
    translation_table = str.maketrans('', '', unwanted_characters)
    cleaned_text = text.translate(translation_table)
    return cleaned_text
clean_words=[]
for w in words:
        clean_words.append(remove_unwanted_characters(w))


# find count of word
word_counts = cs.Counter(clean_words)




# counter to pandas df
df = pd.DataFrame.from_dict(word_counts, orient='index').reset_index()


# save to excel
df.to_excel(path + output_file, engine='xlsxwriter')


print("done")

اس فائل میں کافی cleaning کی ضرورت تھی جس کے لیے ایک علیحدہ پائتھون سکرپٹ clean_excel.py لکھا جو الفاظ سے غیر ضروری حروف نکال دیتا ہے اور الفاظ کو نارملائز کر دیتا ہے اور ایک لفظ کے متعدد اندراج کو اکٹھا کر دیتا ہے مزید یہ کہ جس ریکارڈ میں ایک لفظ کے بجائے متعدد الفاظ موجود ہوں انہیں بھی علیحدہ علیحدہ کر کے درج کر دیتا ہے

کوڈ:

import pandas as pd
from urduhack.normalization import normalize
import re

path = "D:\\urdu-sentences-master\\sentences\\literature\\merged\\"

input_file="frequent_words_V25.xlsx"
output_file="frequent_words_V25.1 "

df= pd.read_excel(path + input_file)


word_column = df['word']


#function to remove whitespaces
import pandas as pd

def remove_unwanted_characters(text):
    unwanted_characters = "ٌّْۭؒؓؐۙۤۚۧٓx#%,?@[]_`{}~¦¨¯´¸¿؛؟٬٬‘’’’’¢£¤¥+<>±«»×÷§©®°µ¶…۝۝ۙ؎؀٭٭۞؏؍؁؃nanßþüýÿۗ$&*﴾.0123456789:=\;¡ª²³¹º¼½¾ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖØÙÚÛÜÝÞĄĆĈĊČĎǺǼàáâãäåæçèéêëìíîïðñòóôõöøùúû!"
    translation_table = str.maketrans('', '', unwanted_characters)
    cleaned_text = text.translate(translation_table)
    return cleaned_text

# clean text by removing unwanted characters
word_column = df['word']
new_word_column = word_column.apply(remove_unwanted_characters)
# Assign the new values back to the column
df['word'] = new_word_column


#normalise words
def norm(x):
    return  normalize(x)

word_column = df['word']
new_word_column = word_column.apply(norm)
# Assign the new values back to the column
df['word'] = new_word_column

# aggrigate duplicates
df = df.value_counts(normalize=False, sort=True, ascending=False,dropna=False).reset_index(name='num')
#update count
df['total_count'] = df['count'] * df['num']
# drop columns
df.drop(columns=["count", "num"], inplace=True)
print(df.head())

# rename columns
df.rename(columns={"total_count": "count"}, inplace=True)

#consolidated count
df = df.groupby('word')['count'].sum().reset_index()

#split words
df_split = df.assign(word=df['word'].str.split()).explode('word')
#consolidated count
df_split = df_split.groupby('word')['count'].sum().reset_index()
# save dataframe to excel file
df_split.to_excel(path + output_file +  str(df_split.index.size) + ".xlsx", engine='xlsxwriter')

print("done")

اپ ڈیٹ:
22 جنوری 2024
کثیر الاستعمال الفاظ کی فہرست ورژن 0.1

الف نظامی · جنوری 14، 2024

الف عین نے کہا:
کارپس کے لئے بھی میری فہرست ہی بہتر ہے۔

ابھی جو کارپس استعمال کیا گیا ہے اس میں آپ کی لائبریری والی کتابوں کا متن شامل ہے جومحمد شاکر عزیز اور محب علوی نے مرتب کیا تھا۔
کارپس میں الفاظ کی تعداد:
صفائی سے قبل 26686084
صفائی کے بعد 26598152
دو کروڑ پینسٹھ لاکھ اٹھانوے ہزار ایک سو باون الفاظ

الف نظامی · جنوری 14، 2024

مندرجہ ذیل صورت میں کیا طریقہ اپنایا جائے؟

جہاں ﷺ کسی لفظ کے ساتھ آ رہا ہے اس کو دو علیحدہ لفظ بنا کر اندراج کر دیا جائے ۔
مثلا :
ﷺاخلاق 1
کو
ﷺ 1
اخلاق 1
سے تبدیل کر دیا جائے؟

ﷺ	1717
ﷺاخلاق	1
ﷺالبقرۃ	1
ﷺاور	3
ﷺایکم	1
ﷺبس	1
ﷺتمہارا	1
ﷺسے	9
ﷺقال	1
ﷺقالوالذی	1
ﷺمثل	1
ﷺمن	1
ﷺنے	7
ﷺپر	2
ﷺکا	3
ﷺکو	4
ﷺکواس	1
ﷺکہلوانا	1
ﷺکی	8
ﷺکے	5
ﷺہیں	2

دوست · جنوری 15، 2024

ﷺ کو ایک لفظ سمجھیں، ویسے تو یہ پورا فرےز (یا جملہ) ہے۔ سپیس ڈال دیں تو سب الگ الگ گِنا جائے گا۔

الف نظامی · جنوری 15، 2024

دوست نے کہا:
ﷺ کو ایک لفظ سمجھیں، ویسے تو یہ پورا فرےز (یا جملہ) ہے۔ سپیس ڈال دیں تو سب الگ الگ گِنا جائے گا۔

جی بہتر ، ایسا ہی کرتا ہوں ۔ بہت شکریہ!
دوست

الف عین · جنوری 15، 2024

میری فہرست، جسے میں کارپس نہیں کہتا، کرلپ کے کارپس سے درست کردہ اور ورڈ میں لغت کے طور پر استعمال شدہ ہونے کے بعد. اضافہ شدہ ہے، اور جس میں روز بروز اضافہ ہوتا رہتا ہے، ہے۔ خود میری پرانی برقی کتابوں میں بے شمار اغلاط تھیں کہ اس زمانے ورڈ میں سپیل چیک ممکن نہ تھا۔ میری فہرست استعمال کر کے دیکھیں
الف نظامی

کثیر الاستعمال الفاظ کی فہرست بمعہ معیاری تلفظ

محفلین

محفلین

محفلین

لائبریرین

محفلین

لائبریرین

لائبریرین

لائبریرین

لائبریرین

لائبریرین

لائبریرین

لائبریرین

لائبریرین

لائبریرین

لائبریرین

لائبریرین

لائبریرین

محفلین

لائبریرین

لائبریرین