کیا اردو کے تمام حرفِ اصلی کی فہرست اور تمام سابقے اور لاحقے کی مکمل فہرست دستیاب ہے؟؟

میں اردو کے لیئے سٹیمر کے سافٹ وئیر پر کام کر رہی ہوں جس کے لئے مجھے اردو کے مکمل حروفِ اصلی اور تمام سابقوں اور لاحقوں کی فہرست کی ضرورت ہے، اس سلسلے میں مدد درکار ہے۔
 

ابو ہاشم

محفلین
اردو کے حروفِ اصلی؟ تھوڑی ان کی وضاحت کر دیجیے۔
سٹیمر کا سافٹ ویئر؟ کچھ اس بارے بھی بتا دیجیے۔
اور اردو کے سلسلے میں کام کیا کر رہے ہیں؟
 
حروفِ اصلی سے مراد 'روٹ ورڈز' یا 'سٹیم ورڈز' ہے۔ اور سٹیمر دیئے گئے الفاظ میں سے سٹیم یا روٹ نکالنے کے لئے ہے۔ جسے:
'صفات' میں 'صفت'
'اشکال' میں 'شکل'
'لطائف' میں 'لطیفہ'
'با پردہ' میں 'پردہ'
'ادباء' میں 'ادب'
'تدریس' میں 'درس'
'باغ بان' میں 'باغ'
'بے پردگی' میں 'پردہ'
'روٹ ورڈز' یا 'حروفِ اصلی' ہیں۔ اسی پر کام کر رہی ہوں جس کے لئے مجھے مکمل سابقے لاحقے اور روٹ ورڈز کی فہرست درکار ہے۔ میں ۴۰۰۰ حروفِ اصلی کی فہرست ترتیب دے پائی ہوں مزید درکار ہیں۔ اور سابقے اور لاحقے کتابوں میں بہت کم ملے ہیں۔
 

ابو ہاشم

محفلین
حروفِ اصلی سے مراد 'روٹ ورڈز' یا 'سٹیم ورڈز' ہے۔ اور سٹیمر دیئے گئے الفاظ میں سے سٹیم یا روٹ نکالنے کے لئے ہے۔ جسے:
'صفات' میں 'صفت'
'اشکال' میں 'شکل'
'لطائف' میں 'لطیفہ'
میرا خیال ہے انھیں الفاظِ اصلی کہہ سکتے ہیں۔
جہاں تک میں سمجھا ہوں آپ ان الفاظِ اصلی کی مدد سے اردو کے دیگر الفاظ بنانے والا سافٹ ویئر بنانے کی کوشش کر رہی ہیں۔ بہت زبردست کام ہے!
امید ہے کہیں نہ کہیں سے اس سلسلے میں کچھ مواد مل جائے گا

اور ہاں اردو محفل میں خوش آمدید
 
میرا خیال ہے انھیں الفاظِ اصلی کہہ سکتے ہیں۔
جہاں تک میں سمجھا ہوں آپ ان الفاظِ اصلی کی مدد سے اردو کے دیگر الفاظ بنانے والا سافٹ ویئر بنانے کی کوشش کر رہی ہیں۔ بہت زبردست کام ہے!
امید ہے کہیں نہ کہیں سے اس سلسلے میں کچھ مواد مل جائے گا

اور ہاں اردو محفل میں خوش آمدید
ابھی تک تو کچھ مواد نہیں مل سکا۔ ۴۰۰۰ الفاظ اپنی مدد آپ کے تحت اکٹھے کئے ہیں۔ جو لوگ کام کر چکے ہیں وہ شیئر کرنے کو تیار نہیں۔
 

وصی اللہ

محفلین
میرے خیال میں یہاں سٹم اور روٹ میں فرق نہیں کیا جا رہا۔۔ اور دونوں کو ایک ہی شے گردانا جا رہا ہے۔۔۔believe روٹ۔۔believable سٹم اور unbelievable ورڈکہلائے گا۔۔۔
 

دوست

محفلین
اردو کے حوالے سے ایسی کسی فہرست میرے علم میں نہیں ہے۔ ایسی فہرست بنانا مشکل کام نہیں ہونا چاہیے بنیادی کام حوالے کا مواد یا ریفرنس میٹیریل ڈھونڈنا ہوتا ہے متعلقہ کتابیں وغیرہ اگر مل جائیں تو ان میں سے سابقوں اور لاحقوں کی فہرست تیار کی جا سکتی ہے۔ مجھے یاد پڑتا ہے کہ پرائمری سکول کی اردو کی گائیڈ بک میں سابقوں اور لاحقوں کے حوالے سے کچھ مواد موجود ہوتا تھا۔ میٹرک تک کی اردو لازمی کی کتب کو کھنگالنا اس سلسلے میں مفید ثابت ہوسکتا ہے۔ اردو کی لغات اور گرامر کی کتب جیسے مولوی عبدالحق کی قواعد ِ اردو سے بھی کچھ مدد ملنے کی امید کی جا سکتی ہے۔ ڈاکٹر سرمد حسین cle.org.pk یا ڈاکٹر تفسیر احمد (فیس بُک)سے اس سلسلے میں رابطہ کیا جاسکتا ہے۔ جو چیز البتہ مل سکتی ہے وہ اردو الفاظ یا الفاظ جمع مرکبات یا آدھے ادھورے الفاظ کی ایک فہرست ہے جو یہاں اردو سپیل چیکر کیلئے کچھ برس قبل تیار کی گئی تھی۔ محفل کے سرچ فنکشن کو استعمال کر کے اس فہرست تک رسائی حاصل کی جاسکتی ہے۔
 
سکول کی کتابوں میں چند مخصوص سابقے اور لاحقے ہی درج ہیں میں ابھی تک ۱۱۰ سابقے اور ۱۵۰ لاحقے اور ۴۰۰۰ روٹ ورڈز تلاش کر پائی ہوں۔ :confused1:
 

دوست

محفلین
اس کا حل یہی ہے کہ لغات اور حوالے کے مواد کی نشاندہی کی جائے اور اسے استعمال کرتے ہوئے سابقوں اور لاحقوں کی تلاش کی جائے. ہمراہ وہ الفاظ جو ان کے ہمراہ شامل ہوکر نئے الفاظ جیسے جمع یا دیگر مرکبات تشکیل دیتے ہیں.
 

سید ذیشان

محفلین
عروض سائٹ پر کسی حد تک سٹیمنگ کی جاتی ہے۔ الفاظ کی فہرست تو اردو ویب پر سرچ کرنے سے مل جائے گی۔ سٹیمنگ پر ایک مرتبہ پہلے ایک دو مراسلے کئے تھے۔ شائد آپ کے کام آ جائیں:

نہایت مفید کام کرنے کی ٹھانی ہے اس کی کامیابی کے لئے دعائیں۔ اس سلسلے میں شائد میں آپ کی کچھ چیزوں میں مدد کر سکتا ہوں۔ کچھ فرصت ملے تو ایک تفصیلی پوسٹ لکھوں گا۔

پس نوشت: درج زیل ریسرچ پیپر آپ کے لئے کافی مفید ثابت ہو سکتا ہے:

Assas-Band, an affix-exception-list based Urdu stemmer


اسی پیپر کی بنیاد پر بنی اپلیکیشن اور الفاظ کی فہرستیں اس لنک پر موجود ہیں:
Urdu stemmer Assas-band

سب سے پہلے تو یہ بتا دوں کہ میں اردو انسائکلوپیڈیا والی لغت استعمال کرتا ہوں الفاظ تلاش کرنے کے لئے۔ اس میں واحد اور جمع الفاط دئیے گئے ہیں تو ان سب کو لغت میں شامل کیا گیا ہے۔

لغت میں الفاظ عام طور پر مصادر کی شکل میں یعنی 'کھانا'، 'پینا'، وغیرہ۔ اگر کوئی 'کھا'، 'پی' یا پھر 'کھایا'، 'پیا' لکھے گا تو یہ الفاظ لغت میں نہیں ملیں گے۔ اس کے لئے میں نے کچھ لاحقوں کی لسٹ بنائی ہے جو کہ عام طور پر استعمال ہوتے ہیں
اس لسٹ میں سے اگر کچھ لاحقے ملیں گے، تو پروگرام ان لاحقوں کو الفاظ کے آخر میں سے ہٹا دے گا اور پھر ڈکشنری میں وہ لفظ تلاش کرے گا، اس کے علاوہ اس لفظ کی کچھ اور شکلیں تلاش کرے گا۔ اس طرح سے اس لٖفظ کا روٹ اس کو مل جائے گا۔
ذیل میں لاحقوں کو لسٹ کیا ہوا ہے اور الفاظ کی مختلف شکلیں بنانے کے طریقے بھی درج ہیں ہر ایک لاحقے کے لئے۔
1۔ 'ں'
نون غنہ اگر کسی لفظ کے آخر میں آئے تو اس لفظ میں نون غنہ کو 'ن' سے تبدیل کر کے ڈکشنری میں تلاش کریں۔ مثالیں: مہماں، قرآں، ایراں، وغیرہ
2۔ اضافت: 'ئے'
آخر میں 'ئے' آئے تو لاحقے کو ہٹا کر باقی لفظ کو تلاش کریں، آخر میں 'نا' لگا کر تلاش کریں۔ مثالیں:کوئے، جوئے، کھائے (اگرچہ کھائے اضافت نہیں لیکن اس کا لاحقہ اصافت والے کیس سے ملتا جلتا ہے)
3- 'تا'،'تے'،'تی'،تیں'،'نا'،'نے''نی'،'ئیں'،'ا'،'ی'،'ے'،'و'،'ہ'،'ان'،'ئی'
ان سب کیسز میں لاحقے ہٹا کر لفظ تلاش کرنا ہے اور لاحقے ہٹا کر 'نا' لگانے کے بعد لفظ تلاش کرنا ہے۔ مثالیں: 'کھا'،'کھاتا'،'کھائیں'،'کھانے'، وغیرہ
4۔ 'ات'،'یات'،'ئیات'
اس میں تین طرح کی شکلیں بنتی ہیں:
ا: لاحقہ ہٹا دینے سے۔ مثالیں: 'تصورات' سے 'ات' ہٹا کر یعنی 'تصور'
ب: لاحقہ ہٹا کر آخر میں 'ہ' لگا دینے سے۔ مثالیں: 'نظریات' سے 'نظریہ'، 'کلیات' سے 'کلیہ'، وغیرہ
ج: آخر سے پہلے والا حرف ہٹا دینے سے۔ مثالیں: 'آیات' سے 'آیت'، 'صفات' سے 'صفت'، وغیرہ

5: 'وں'، 'اں'، 'ایں'
اس میں چار شکلیں بنتی ہیں:
ا: لاحقہ ہٹا دینے سے۔ مثال: 'لڑکیاں' سے 'لڑکی'
ب: لاحقہ ہٹا کر 'ہ' کا اضافہ کرنے سے۔ مثال: 'رستوں' سے 'رستہ'
ج: لاحقہ ہٹا کر 'ا' لگا دینے سے۔ مثال: 'سودوں' سے 'سودا'
د: لاحقہ ہٹا کر آخر میں 'نا' لگانے سے: 'دکھاوں' سے 'دکھانا'


یہ سب تو الفاظ کی مختلف شکلیں، جمع وغیرہ بنانے کے اصول ہو گئے۔ کچھ لاحقے بھی ہیں جو کہ کافی استعمال ہوتے ہیں۔ مثلاً 'ستان'۔ گلستان، شبنمستان جیسے الفاظ میں۔
چونکہ میری اپلیکیشن الفاظ کے وزن نکالتی ہے نہ کہ سپیل چیکر ہے تو ایسے لاحقے بھی میں الفاظ کی فہرست میں شامل کر دیتا ہوں۔ اور پھر یہ چیک کرتا ہوں کہ کوئی لفظ کمپاونڈ ورڈ تو نہیں ہے، یعنی دو الفاظ سے مل کر تو نہیں بنا۔ اس سے ایسے الفاظ کا بھی معلوم ہو جاتا ہے جو لوگوں نے غلطی سے سپیس کے بغیر ٹائپ کئے ہوتے ہیں۔

اس طرح کے لاحقوں کی فہرست اس پیپر میں موجود ہے جس کا میں نے اوپر ایک پوسٹ میں ذکر کیا تھا۔ نمونے کے طور پر اس فہرست میں سے چند سابقے اور لاحقے یہاں لکھ لیتا ہوں:
سابقے:
نا، پا، برائے، بازی، انڈر، نو، ادا، روئے، گراں، دل، باد، غم، گلو، شہ، نیل، صد، مابعد، بد، دم، ابو، ام، اشک، ناز، تنگ، بن، برائے، روبہ، آن، پر، غیر، تہ، مے، صاحب، بال، قبل، خرد، ظالع، آرام۔
لاحقے:
سوزی، نمائی، نفسی، انگیزی، نامی، تھانی، دلی، پوشی، بیانی، برادری، اتی، خوری، نگاہی، چاری، سنجی، فشانی، آرائی، رنگی، فروشی، سرائی، گردانی، رسانی، پروری، آمیزی، نشینی، ستانی، آزاری، گردی، بندی، آفرینی، سوز، آمیز، گرافر، اندوز، آموز، نواز، راز، پرداز، گاہی، دست، نامے، خانے، کدے، بندی، پروریاں، نوازیاں، نوازیوں، خیزیوں، گاہئیں، نوازیاں، بیانیاں، فشانیاں، اندوزوں، بریوں، گوئیوں، تراشیاں، نگیں، سراؤں، کاریوں، ریزیوں
 
اسے دیکھیں شاید آپ کے کچھ کام آسکے۔ اس میں ’’مُفصل تلاش‘‘ کا ایک آپشن ہے جس میں آپ ’’سابقہ‘‘ اور ’’لاحقہ‘‘ کو سلیکٹ کر کے مدد لے سکتی ہیں۔ چونکہ یہ ویب سائٹ ابھی حال ہی میں حکومتِ پاکستان کے ذیلی ادارے ’’قومی تاریخ و ادبی ورثہ ڈویژن‘‘ کے ماتحت بنائی گئی ہے اور تاحال ابھی ڈیویلپمنٹ کے عمل سے گزر رہی ہے تو ممکن ہے آپ کو مسئلے مسائل کا سامنا کرنا پڑے۔
 
ہمارا خیال ہے کہ اسے حرف اصلی کے بجائے مادّہ کہا جاتا ہے۔ آپ کی ریسرچ الفاظ سے ان کا مادہ اخذ کرنے کے بارے میں ہے یا پھر اسٹیم حاصل کرنا مقصود ہے؟ واضح رہے کہ ضروری نہیں کہ کسی لفظ کا اسٹیم با معنی لفظ ہو (کیونکہ اس میں حروف کی کاٹ چھانٹ کچھ اسی نوعیت کی ہوتی ہے)، جبکہ مادہ با معنی ہوتا ہے۔ اسٹیمنگ انگریزی اور کچھ دیگر زبانوں میں سرچ کینونیکلائزیشن کے لیے مفید ہوتی ہے، جبکہ اردو جیسی زبانوں میں مادہ ہی زیادہ معقول شئے ہے۔ ہم نے اپنے اسکین کردہ لغات میں تلاش والے پیپر (سیکشن 4.4.3) میں عربی کے حوالے سے اس بات کا ذکر کیا ہے کہ کیسے مادے سے مشتقات بنانے میں نہ صرف ابتدا و اخیر میں اضافے کیے جاتے ہیں بلکہ درمیان میں بھی تبدیلیاں کی جاتی ہیں اور کئی دفعہ تعلیل کے باعث مادے کے اصلی حروف مشتق الفاظ میں گم یا تبدیل ہو جاتے ہیں۔ چونکہ اردو میں بے شمار الفاظ عربی الاصل ہیں، اس لیے اردو میں بھی یہ اثر موجود ہے۔ :) :) :)

اسٹیمنگ کے لیے آپ نے طریقہ کار کون سا اپنایا ہے؟ کیا آپ الفاظ کا جائزہ لے کر قواعد مرتب کرنے والی ہیں یا پھر مشین لرننگ استعمال کرنے کا ارادہ ہے؟ :) :) :)
 
جی سر آپ نے بالکل درست فرمایا درست اصطلاح سٹیم (ساق) اور روٹ (مادّہ) ہے۔ میرا ارادہ اردو کے لئے سٹیمر بنانے کا ہے مگر کوشش ہے کہ با معنی الفاظ اخذ کئے جائیں جیسا کہ آپ نے کہا کہ اردو جیسی زبانوں میں مادہ ہی زیادہ معقول شئے ہے۔ اردو میں سابقے اور لاحقے کے علاوہ وسطیے بھی پائے جاتے ہیں ان کا مادہ اخذ کرنا بھی مقصود ہے۔ سابقوں اور لاحقوں سے ساق یا مادہ اخذ کرنے کے لئے ہی سابقوں اور لاحقوں کی فہرست درکار ہے۔ جہاں تک طریقہ کار کی بات ہے تو میں نے الفاظ کا جائزہ لے کر قواعد مرتب کئے ہیں۔
 
جہاں تک طریقہ کار کی بات ہے تو میں نے الفاظ کا جائزہ لے کر قواعد مرتب کئے ہیں۔
قواعد کی مدد سے مادہ اخذ کرنا بہت جوکھم کا کام ہوگا اور کئی دفعہ ایک قاعدہ دوسرے قاعدے کو منسوخ کرے گا لہذا ان کے واقع ہونے کی ترتیب بدلنی ہوگی یا بعد قواعد کو زیادہ تخصیص کے ساتھ لکھنا پڑ جائے گا۔ اس سارے کام کے لیے آپ کو ایک اچھا ٹیسٹ سیٹ درکار ہوگا اور یہ یقینی بنانا ہوگا کہ نیا قاعدہ شامل کرنے پر پرانے ٹیسٹ کیسیز فیل نہیں ہو رہے۔ :) :) :)

ہمارا خیال ہے کہ اس کام کے لیے آپ کو ڈیپ نیورل نیٹورک کی مدد سے سیکوئینس ٹو سیکوئینس کنورژن کی ٹیکنیک سے استفادہ کرنا چاہیے۔ بلکہ ہم خود دو ہفتے قبل اسٹیمنگ، ٹرانسلٹریشن، اور عروضی تقطیع سمیت کچھ اور کاموں کے لیے اس کے استعمال پر غور کر رہے تھے۔ :) :) :)
 
Top