اردو متن کا جائزہ لینے کے لیے تحقیق

نبیل

تکنیکی معاون
السلام علیکم،
میں نے نوٹ کیا ہے کہ تقریباً تمام نستعلیق ٹائپوگرافی کے پراجیکٹس میں مرزا جمیل احمد کے نوری نستعلیق کے ترسیمہ جات کو جو کو بطور ریفرینس استعمال کیا جاتا ہے۔ میرے خیال میں ترسیمہ جات کی یہ لسٹ اب قدرے پرانی ہو گئی ہے اور اب مختلف ویب سائٹس اور جرائد پر موجود اردو متن کا جائزہ لے کر اعدادوشمار اکٹھے کیے جانے چاہییں کہ ان میں کون کون سے ترسیمہ جات کثرت سے استعمال ہوتے ہیں اور ان کا تعدد (Frequency) کیا ہے۔ یہ تحقیق نئے فونٹ ڈیزائن کرنے اور موجودہ فونٹس کو بہتر میں مدد گار ثابت ہو سکتی ہے۔ میں نے اس سمت میں کچھ کام شروع کیا ہے اور ایک پروگرام لکھا ہے جس میں ایک مختصر اردو جملے سے ترسیمہ جات الگ کیے جاتے ہیں اور ان کا تعدد بھی معلوم کیا جاتا ہے۔ ابھی اس کوڈ میں کچھ بگز ہیں۔ میں وقت ملنے پر اس کی خرابیوں کو دور کروں گا اور قابل استعمال ہونے کی صورت میں یہاں بھی فراہم کر دوں گا۔
والسلام
 

نبیل

تکنیکی معاون
کونسے حروف ترسیمہ جات کو علیحدہ کرتے ہیں، اس بنیاد پر متن کا تجزیہ کیا جاتا ہے:

[SYNTAX="csharp"]private static char[] LigatureEndings ={'آ','ا','د','ڈ','ذ','ر','ز','ڑ','ژ','و','ے'};[/SYNTAX]

اور اس کے بعد:

[SYNTAX="csharp"]for (int i = 0; i < strWord.Length; i++)
{
if (LigatureEndings.Contains(strWord))
{
// extract the ligature
}
}[/SYNTAX]
 
Top