زیک

مسافر
دوم یہ کہ اردو مواد سے کارپس بنا کر (جو کہ شاکر بھائی نے بنا بھی رکھا ہے، اس کی توسیع کی جا سکتی ہے) اس میں سے سب سے زیادہ مستعمل الفاظ کی فہرست کو پانچ پانچ الفاظ کے سیٹ کی شکل میں لوگوں کو ریکارڈ کرنے کو کہا جائے۔ یہ ریکارڈنگ آف لائن بھی ہو سکتی ہے یا پھر براؤزر میں ایچ ٹی ایم ایل فائیو کی نئی اے پی آئی کو استعمال کر کے مائکرو فون سے ڈیٹا حاصل کر کے سرور پر اپلوڈ کرائی جا سکتی ہے۔ پھر ان الفاظ کی سیگمنٹیشن کر کے انھیں اکوسٹک ماڈل بلڈ کرنے میں استعمال کیا جا سکے گا، نیز اوپن سورس اکوسٹک رپوزیٹری میں بھی محفوظ کیا جا سکے گا۔ یہ تو قصہ ہوا اسپیچ ٹو ٹیکسٹ کا، جو کہ ٹیکسٹ ٹو اسپیچ سے کہیں زیادہ مشکل عمل ہے۔ بہر کیف اس ڈیٹا میں سے کسی اچھے تلفظ و لب و لہجے کا منتخب کر کے اس کی مد سے ٹیکسٹ ٹو اسپیچ پر تجربات کیے جا سکتے ہیں۔ اولاً ایک ایک لفظ علیحدہ علیحدہ بولے جائیں گے لیکن ان میں تسلسل لانے پر کافی ریسرچ موجود ہے جس سے استفادہ کیا جا سکتا ہے
اس میں سب سے مشکل کام ریکارڈنگ حاصل کرنا اور اسے مساج کرنا ہے۔ جتنے زیادہ الفاظ اور لوگوں سے ریکارڈنگ حاصل ہو گی اتنی سپیچ ریکگنشن کی ایکوریسی بہتر ہوگی۔
 

دوست

محفلین
اعجاز صاحب والی ٹیکسٹ آرکائیو سے حاصل کردہ الفاظ کی فہرست اس سلسلے میں معاون ثابت ہو سکتی ہے. یا کوئی اردو لغت استعمال کی جائے. لیکن اس کا ڈیٹا بھی ایکسٹریکٹ کرنا پڑے گا، جسے اردو انگلش ڈکشنری آرگ میں تین چار لاکھ الفاظ موجود ہیں.
 
Top