اوپن آفس،نستعلیق فونٹ اور املا کی پڑتال

نبیل

تکنیکی معاون
السلام علیکم،

میں نے اردو ویب کے بلاگ پر اوپن آفس میں نستعلیق فونٹ اور املا کی پڑتال کے حوالے سے حالیہ پیشرفت کے بارے میں انگریزی اور اردو میں پوسٹ لکھی ہیں۔ ان کے روابط ذیل میں موجود ہیں۔

اردو پوسٹ: اوپن آفس، نستعلیق فونٹ اور املا کی پڑتال
انگریزی پوسٹ: OpenOffice, Nastaleeq Font and Spell Checking

والسلام
 

آصف

محفلین
نبیل: میں اس پر تبصرہ کرنا چاہ رہا تھا لیکن ایسا کرنا ممکن نہیں بلکہ یہ پیغام آ رہا ہے:
[eng:fd6186f3c4]Sorry: This file can't be used on its own[/eng:fd6186f3c4]
بہر حال بہت اچھی خبریں ہیں۔ آپ کو بھی بہت مبارک ہو۔
 

دوست

محفلین
تمام احباب کو بھی مبارکباد جن کی سرپرستی کے بغیر یہ ممکن نہ تھا۔ خصوصًا ہمارے پراجیکٹ ڈائرکٹر جناب آصف بھائی۔
 

جیسبادی

محفلین
لینکس Thunderbird کے ساتھ تجربہ:

فائل کو
thundebird/components/myspell
میں کاپی کر دیا۔ فائل کا نام ur-PK.dic رکھ دیا۔ ساتھ ایک ur-PK.aff بھی بنا دی، جس میں لکھ دیا
SET UTF-8

اس کے علاوہur-PK.dic میں سب سے پہلی لائن میں الفاظ کی تعداد لکھ دی (
33651)

اس طرح تھنڈر برڈ نے اسے لغت مان لیا مگر کئ مسائل دیکھنے میں آئے:

* لفظ "کام" نہیں ملتا۔ وجہ یہ ہے کہ لغت میں حرف "ک" کا غلط یونیکوڈ استعمال ہؤا ہے۔ 06430 (صحیح 06a90 ہے)
* اس طرح کئی الفاظ جن میں "ک" استعمال ہؤا۔
* لفظ "اختیار" لغت میں الف کے نیچے زیر سے لکھا گیا ہے، اس لیے نہیں ملتا۔
* لفظ "باقاعدہ" میں "با" اور "قاعدہ" کے درمیان فضاء ڈالی گئ ہے۔ اس طرح بہت سے الفاظ کے ساتھ ہؤا ہے۔
* بہت سے الفاظ "کا" سے شروع ہو رہے ہیں، "کا معانہ"، "کا منصوبہ"
* اس طرح "کام کر"
* لفظ "بھارت" کو نہیں مانتا، حالانکہ لغت میں موجود ہے، اور یونیکوڈ بھی صحیح ہیں۔ یہ شاید سیاسی اختلاف ہے۔

غرصیکہ QC کے حوالے سے بہت سے کام کرنے والے ہیں۔ صحیح یونیکوڈ والا کام سب سے آسان ہے، پروگرام کے زریعہ ہو سکتا ہے۔
 

مہوش علی

لائبریرین
جیسبادی، آپ نے کچھ مسائل کا ذکر کیا ہے جو بہت اہم ہیں۔

* لفظ "کام" نہیں ملتا۔ وجہ یہ ہے کہ لغت میں حرف "ک" کا غلط یونیکوڈ استعمال ہؤا ہے۔ 06430 (صحیح 06a90 ہے)
* اس طرح کئی الفاظ جن میں "ک" استعمال ہؤا۔
* لفظ "اختیار" لغت میں الف کے نیچے زیر سے لکھا گیا ہے، اس لیے نہیں ملتا۔



میرے خیال میں اس سلسلے میں ایک سافٹ ویئر کا تذکرہ اس محفل میں پچھلے دنوں کیا گیا ہے جو کہ کسی بھی فائل کو کھولے بنا ہی اس میں مطلوبہ "Search and Replace" تبدیلیاں کر دیتا ہے۔ چنانچہ "ک" کی اس قدر کو پوری فائل میں تبدیل کر دیا جائے تاکہ یہ مسئلہ حل ہو سکے

\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\


* لفظ "باقاعدہ" میں "با" اور "قاعدہ" کے درمیان فضاء ڈالی گئ ہے۔ اس طرح بہت سے الفاظ کے ساتھ ہؤا ہے۔

مجھے صحیح علم نہیں، لیکن کیا ایسا ممکن ہے کہ سرچ اینڈ ریپلیس کے ذریعے اس مسئلے کو دور کیا جا سکے؟ (میرا مطلب ہےکہ سرچ میں ہیں " " یعنی سپیس ڈالیں اور ریپلیس میں کچھ بھی نہیں۔۔۔۔ تو شاید اس طرح ایک الفاظ کے درمیان موجود تمام ایسی درمیانی فضائیں دور ہو سکیں۔

اگر یہ کام نہ ہو سکا تو شاید پورے تیس ہزار الفاظ کی پروف ریڈنگ کرنی پڑے۔

\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\

* بہت سے الفاظ "کا" سے شروع ہو رہے ہیں، "کا معانہ"، "کا منصوبہ"
* اس طرح "کام کر"


اس پرابلم کو دور کرنے کے لیے ممبران تجاویز پیش کریں۔

\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\

* لفظ "بھارت" کو نہیں مانتا، حالانکہ لغت میں موجود ہے، اور یونیکوڈ بھی صحیح ہیں۔ یہ شاید سیاسی اختلاف ہے۔

یہ سیاسی اختلاف نہیں ہو سکتا چنانچہ اس پرابلم کی اصل وجہ ڈھونڈنے کی کوشش فرمائیں۔
 

الف عین

لائبریرین
پروف ریڈنگ کے لئے مزید احباب کو یہ فہرست بھیجی جا سکتی ہے۔ میں بھی راضی ہوں۔ بلکہ چاہیں تو شاکر اور آصف مکمل فائل ہی مجھے بھیج دیں۔
 

جیسبادی

محفلین
اعجاز،
پروف ریڈنگ ابھی نہ کریں۔

پہلے خودکار طریقہ سے یہ مسائل دور ہونے دیں۔ جو حضرات اس سلسلہ میں خدمات پیش کرنا چاہیں وہ یہاں آپ احباب کو مطلع کر دیں۔ آصف کے پاس اس طرح کے پروگرام ہوں گے جو یہ کام کر سکیں۔

کچھ مسائل (مثلاً بھارت) ممکن ہے تھنڈربرڈ میں myspell کی وجہ سے ہوں۔ OO 2.x میں دیکھیں کہ یہ مسلئہ ہے کہ نہیں۔

موزیلا ابھی hunspellپر منتقل نہیں ہؤا۔

پروف ریڈنگ سے پہلے یہ اطمینان کر لیں کہ سب حضرات صحیح اردو تختے استعمال کر رہے ہیں۔
 

جیسبادی

محفلین
جہاں تک میرا علم ہے spellchecker متن میں الفاظ ان چیزوں کو کہتا ہے جن کے گرد فضاء ہو۔ یعنی فضاء token speparator ہوتی ہے۔ اس لیے اس مقصد کے لیے جو لغت بنے اس میں دو الفاظ ایک سطر پر دینا بیکار ہے۔ مثلاً "محل نظر" لغت میں ڈالنے کا کوئ فائدہ نظر نہیں آتا۔

کوئ تجویز؟
 

الف عین

لائبریرین
درمیانی فضا والے الفاظ نکالنے کی ضرورت ہے۔ ہاں، محلِ نظر قسم کے اضافت والے الفاظ جو بطور محاورہ استعمال ہوتے ہوں، ان کو شامل کیا جا سکتا ہے۔ لیکن سارے اضافت والے الفاظ نہیں جیسے خونِ جگر وغیرہ کی ضرورت نہیں۔
 

جیسبادی

محفلین
مسلئہ صرف لغت کا نہیں، بلکہ شمارندہ پر ایسے الفاظ لکھنے کا بھی ہے۔

میری تجویز ہے کہ ایسے الفاظ کو ایک لفظ سمجھتے ہوئے لکھا جائے (یعنی دو لفظوں کے درمیان فضاء نہ ڈالی جائے)۔ اگر ایسا کرنے سے الفاظ جڑتے ہوں، تو پھر درمیان میں ZWNJ ڈالا جائے۔ یہی طریقہ لغت میں بھی استعمال کیا جائے۔ ورنہ spellcheckin نہیں ہو سکے گی۔
 
کچھ خیالات

لغت کی اوپن آفس میں شمولیت پر جملہ اراکین کو مبارک باد!

میں نے ابھی لغت کی فائل اپنے کمپیوٹر پر لاد کر اوپن آفس میں استعمال کیا۔ کچھ خیالات یہ ہیں:

۔ ک سے شروع ہونے والے کئی الفاظ پہچانے نہیں جا رہے

۔ اعراب کے ساتھ الفاظ کو نہیں پہچانتا ۔ غالباً اس مسئلہ کا ہن سپیل کے پاس بھی کوئی حل نہیں اور اوپن آفس میں بھی اعراب کو (م س ورڈ کی طرح) غائب کرنے کا انتظام نہیں

۔ بہت سے الفاظ میں غالباً trailing space (اول و آخر میں فضاء) موجود ہے۔ اس وجہ سے ان الفاظ کو نہیں پہچان پا رہا۔ 'بھارت' کا مسئلہ بھی غالباً یہی ہے

۔ میں اس بات سے متفق ہوں کہ ایک سطر میں ایک لفظ ہونا چاہیے۔ مرکبات کے لیے زونج کے استعمال کا مشورہ نہیں دوں گا کیوں کہ اس طرح نئے پڑھنے والوں کو کنفیوژن ہوگی۔ ویسے فارسی لغت میں مَیں نے زونج کا کثرت سے استعمال دیکھا ہے۔ مسئلہ یہ بھی ہے کہ مرکبات کے ساتھ یہ اسکیم فیل ہوجائے گی مثلاً کام + چور کو بحیثیت مرکب لکھیں تو کامچور بن جائے گا، فضاء سے الگ کریں تو مرکب نہیں رہے گا اور زونج کا استعمال کریں تو کنفیوژن !

۔ اسی طرح اعراب کا مسئلہ بھی پیچیدہ ہے۔ ہن سپیل کے بارے میں تھوڑا بہت پڑھنے کے بعد اندازہ ہوا ہے کہ فی الوقت اس مسئلہ کا حل مشکل لگ رہا ہے۔ اب لغت کو زیادہ قابلِ استعمال بنانے کے لیے میرا مشورہ ہوگا کہ اعراب کا استعمال کم از کم کردیا جائے۔ ختم تو کرنا مشکل ہے

۔ اعراب کی پوزیشن بھی درست رکھنے کی ضرورت ہے مثلاً لغت میں قطعًا ایسے نظر آیا ہے بجائے ایسے: قطعاً

۔ ایسے تمام الفاظ جن کے آخر میں 'ہ' ہو ان کو 'ۂ' کی شکل کے ساتھ بھی لکھا جائے جیسے جلوہ اور جلوۂ

۔ الفاظ کے جمع کا خیال: چونکہ لغت کی AFF. فائل میں جمع کرنے کے قوانین نہیں، اس لیے فی الحال الفاظ کے جمع بھی الفاظ کی صورت میں موجود رکھنا پڑیں گے

خلاصہ یہ کہ لغت کی ہر سطر میں ایک لفظ لکھا ہو جس کے ساتھ کسی سمت میں فضاء نہ ہو، تمام سابقہ لاحقہ بھی لفظ کی فہرست میں شامل کیے جائیں، الفاظ کے جمع بھی لغت میں رلھے جائیں، کچھ حروف کی مختلف شکلوں کا خیال رکھا جائے (ہ اور ۂ)، اعراب کا استعمال کم سے کم کیا جائے، اردو کے معروف اور مستند یونی کوڈ استعمال کیے جائیں
 

جیسبادی

محفلین
شارق،
ہمیشہ کی طرح عمدہ تجزیہ کیا ہے۔

اعراب کے سلسلہ میں ایک میل hunspell کے استاد کو ڈال رہا ہوں، آپ کو کاپی کر رہا ہوں۔

مرکب الفاظ ہجے پڑتال کی بجائے صرف و نحو میں آ جاتے ہیں۔ ایک صورت یہ ہے کہ ان کو اس لغت میں شامل نہ کیا جائے۔ اگر کرنا ہے تو زونج کے بغیر گزارہ نہیں۔

ضرورت اس بات کی ہے کہ چھوٹے چھوٹے سکرپت بنائے جائیں جن کی مدد سے لغت کی مرمت کی جا سکے۔ مثلاً

* لفظ کے شروع اور آخر کی فضاء کو ختم کرنے کے لیے۔
* دو لفظوں کے درمیان فضا کو زونج سے بدلنے کے لیے (اور اس کا اُلٹ)
* اعراب ختم کرنے کے لیے، یا اعراب کے بغیر لفظ کو بھی لغت میں شامل کرنے کے لیے۔
* ایسے لفظ کا سطر عدد پتہ کرنے کے لیے جس میں غیر اردو یونیکوڈ استعمال ہوئے ہیں۔
* عربی کے یونیکوڈ کو اردو یونیکوڈ سے بدلنے کے لیے۔

یہ سکرپٹ سب کو فراہم کیے جائیں۔ اس طرح خودکار طریقہ سے پروف ریڈنگ کا بوجھ کم سے کم ہو جائے گا۔
 

الف عین

لائبریرین
درست ہے شارق اور جیس۔ لیکن زونج کے استعمال کی میں بھی رائے نہیں دوں گا۔
ویسے یہ کام ہم جیسے غیر پروگرامر بھی کر سکتے ہیں۔ م س ورڈ کے ڈھونڈھو بدلو کے ذریعے۔ اور یہی سوچ کر میں نے آفر کیا تھا۔
 
Top