'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

دوست

محفلین
میں بھی اعجاز اختر صاحب والا مشورہ دوں گا، ان کی کتب بہترین حل ہیں (بُکس والی زپ فائل انہیں کی کتابیں ہیں 2011 سے پہلے کی، جس میں قرآنی تراجم اور عربی بھی ملے گی، اس پر دھیان رہے)۔ میں نے جو اوپر شیئر کیا تھا اس میں عالمی اخبار اور نیوز اردو میں بہت اغلاط ہیں۔ نوائے وقت اور جنگ نسبتاً بہتر ہیں چونکہ یہ اخبارات ہیں۔ اور ان میں بہت سے ترسیمے اور الفاظ مل جائیں گے جو اور کہیں نہیں (انگریزی سے درآمد شدہ الفاظ وغیرہ)۔ میرا خیال تو ورڈ لسٹ سے سطور تیار کرنے کا تھا جیسا کہ میں نے کچھ کام بھی کیا تھا۔ باقی آپ کو جیسے مناسب لگے۔
 
آخری تدوین:

سروش

محفلین
کسی کے پاس اگر یونیکوڈ میں اگر اردو کا مواد ، کتب وغیرہ ہیں تو وہ مہربانی کرکے شئیر کرے۔ ابھی تک میرے پاس جو مواد تھا اس سے تقریبا ایک لاکھ تیس ہزار سطریں بن سکیں ہیں۔ بہت سا مواد اسلامی کتب سے لیا گیا ہے جس میں عربی والا متن نکال دیا ہے۔ بہت سے سپیشل کریکٹرز، سپیسز وغیرہ کو علیحدہ کرنے کے بعد ابھی تک صرف ایک لاکھ تیس ہزار سطریں ہی بن سکیں ہیں۔ فائل یہاں موجود ہے۔
https://archive.org/download/lughat_kabeer/lughat_kabeer.rar
لغت کبیر (مولوی عبدالحق) یونیکوڈ میں یہاں ہے ۔ لیکن اسکو پہلے آپ کو سمپل ٹیکسٹ میں کسی سکرپٹ جیسے کہ pyglossary-master سے کنورٹ کرانا ہوگا کیونکہ یہ گولڈن ڈکشنری کے فارمیٹ میں ہے ۔
 

سروش

محفلین
اسکے علاوہ موطأ امام مالک کا فقہ و فوائد ایکسیل فائل کی شکل میں ہیں اگر کہیں تو وہ بھی اپلوڈ ہوجائیں گے ۔
 

فلسفی

محفلین
میں بھی اعجاز اختر صاحب والا مشورہ دوں گا، ان کی کتب بہترین حل ہیں (بُکس والی زپ فائل انہیں کی کتابیں ہیں 2011 سے پہلے کی، جس میں قرآنی تراجم اور عربی بھی ملے گی، اس پر دھیان رہے)۔ میں نے جو اوپر شیئر کیا تھا اس میں عالمی اخبار اور نیوز اردو میں بہت اغلاط ہیں۔ نوائے وقت اور جنگ نسبتاً بہتر ہیں چونکہ یہ اخبارات ہیں۔ اور ان میں بہت سے ترسیمے اور الفاظ مل جائیں گے جو اور کہیں نہیں (انگریزی سے درآمد شدہ الفاظ وغیرہ)۔ میرا خیال تو ورڈ لسٹ سے سطور تیار کرنے کا تھا جیسا کہ میں نے کچھ کام بھی کیا تھا۔ باقی آپ کو جیسے مناسب لگے۔
جی بہتر ہے، محترم اعجاز عبید صاحب سے گذارش کی ہے اگر ان کے پاس فائلز ٹیکسٹ فائل میں موجود ہیں۔ ورنہ ایک ایک فائل کو بلاگ سے ڈاونلوڈ کرنا مشکل کام ہے۔

https://archive.org/download/lughat_kabeer/lughat_kabeer.rar
لغت کبیر (مولوی عبدالحق) یونیکوڈ میں یہاں ہے ۔ لیکن اسکو پہلے آپ کو سمپل ٹیکسٹ میں کسی سکرپٹ جیسے کہ pyglossary-master سے کنورٹ کرانا ہوگا کیونکہ یہ گولڈن ڈکشنری کے فارمیٹ میں ہے ۔
بہت شکریہ سروش بھائی، یہ بہت مدد گار رہے گی۔ اس کی مدد سے دوست بھائی والا طریقہ کار بھی استعمال کیا جاسکتا ہے۔ میں لغت کو کنورٹ کرنے کے لیے سکرپٹ کو دیکھتا ہوں۔ پھر آپ حضرات سے شئیر کروں گا۔
 

دوست

محفلین
اردو ریسرچ جرنل والا مواد اچھا لگ رہا تھا، سارے ایچ ٹی ایم ایل ڈاؤنلوڈ کر کے اب بیٹھا ہوں ٹیکسٹ کیسے نکالوں۔ سر پیر کوئی نہیں ہے سی ایس ایس کا۔ بس جگاڑ لگائی ہوئی ہے۔ میرا خیال ہے ناشتہ کر لوں،
 

شکیب

محفلین
اردو ریسرچ جرنل والا مواد اچھا لگ رہا تھا، سارے ایچ ٹی ایم ایل ڈاؤنلوڈ کر کے اب بیٹھا ہوں ٹیکسٹ کیسے نکالوں۔ سر پیر کوئی نہیں ہے سی ایس ایس کا۔ بس جگاڑ لگائی ہوئی ہے۔ میرا خیال ہے ناشتہ کر لوں،
کوئی اسکرپٹ استعمال کریں تو کوڈ یہاں بھی شیئر کر دیجیے گا۔ ہمارے بھی کام آجائے گا کسی دن۔ (ایچ ٹی ایم ایل صفحات سے متن نکالنے/جمع کرنے کا طریقہ)
اچھا ہے فرقان بھائی، یہ میں نے نوٹ نہیں کیا تھا۔ یونیکوڈ ڈیٹا سکرپٹ کے ذریعے آسانی سے نکل سکتا ہے۔ کرتا ہوں اس کا کچھ :)
 

فرقان احمد

محفلین
اردو ریسرچ جرنل والا مواد اچھا لگ رہا تھا، سارے ایچ ٹی ایم ایل ڈاؤنلوڈ کر کے اب بیٹھا ہوں ٹیکسٹ کیسے نکالوں۔ سر پیر کوئی نہیں ہے سی ایس ایس کا۔ بس جگاڑ لگائی ہوئی ہے۔ میرا خیال ہے ناشتہ کر لوں،
شاکر بھیا! کسی قدر ترتیب کے ساتھ ۔۔۔! ربط
 

فلسفی

محفلین
دوست بھائی کے مہیا کیے گئے مواد سے تقریبا چار لاکھ سے زائد سطریں بنیں ہیں۔ مواد یہاں موجود ہے۔ آپ حضرات ذرا نظر ڈالیے کہ او سی آر کی تربیت کے لیے مناسب ہے یا نہیں۔

ریسرچ جرنل والی فائلیں یہاں دستیاب ہیں
اس میں یہ فہرست وغیرہ بھی ہو گی۔ انگریزی میں پتہ، ای میل پتہ بھی ہیں۔ بہرحال میں نے چیک نہیں کیا سب کو۔
زبردست ہو گیا، اس میں سے بھی سطریں بنا کر شئیر کرتا ہوں۔
 

دوست

محفلین
جیسے ہندسے اٹکل سے درمیان میں ڈالے ہیں، اردو کے اعراب اور علامات بھی الگ سے لسٹ بنا کر کہیں کہیں الفاظ کے شروع یا آخر میں ڈال دئیے جائیں۔ ٹیسرکٹ کی اردو ٹرین ڈیٹا میں ہر لفظ پر کوئی نہ کوئی اعراب تھا۔ ظاہر ہے رینڈم کیریکٹر کمبی نیشنز تھے۔
 

فلسفی

محفلین
اس میں ایچ ٹی ایم ایل کوڈز ہیں
” رائٹ کوٹیشن مارک وغیرہ
وہ فلٹر آوٹ ہو جائیں گے۔ مثلا یہ چند لائنز دیکھیے

کوڈ:
ڈاکٹر زاہرہ نثار ڈاکٹر زاہرہ نثار منور خاں غافل ولد
نہ صرف اُس کا ذکر کیا ہے بلکہ اپنے تذکرے میں اُس کے
کلام کی ستائش کے ساتھ ساتھ اُس کا کثیر انتخابِ کلام
بھی پیش کیا ہے مصحفی کے علاوہ دیگر تذکرہ نویسوں میں
کے مختصر حالات ملتے ہیں جب کہ قدرت اللہ شوق کے طبقات
شاعر کا نام تک مکمل نہیں لکھا تاہم ان شعروں کی دیوانِ
میں ترجمۂ غافل کے ضمن میں لکھتے ہیں میں ترجمۂ غافل
مشتاق تھے شہرۂ آفاق تھے نہایت کامل تھے سب چھوٹے بڑے
ان کی استادی کے قائل تھے اُن کے زمرۂ تلامذہ میں سے
مسمی منور خان ابن صلابت خان متخلص بہ غافل احاطہ فقیر
محمد خان گویا واقع لکھنؤ میں رہتے تھے واقعی خوب شعر

لیکن یہ مواد بہت تھوڑا ہے۔ صرف چودہ ہزار سطریں بنی ہیں۔
 

فلسفی

محفلین
اردو کیریکٹرز کی لسٹ بنائی تھی۔ اس میں سجدہ آیت وغیرہ کی علامت تو نہیں ملے گی۔ البتہ باقی اعراب، سنہ، شعر کی علامت، دعائیہ کلمات (درود شریف، رضی اللہ عنہ، رحمتہ اللہ علیہ) وغیرہ الگ کر کے رینڈملی ڈال دئیے جائیں۔

سطریں دوہرائی جا سکتی ہیں۔ دو لفظ آگے پیچھے کر کے، اس میں کوئی مسئلہ نہیں ہے۔ اعراب کے ساتھ مصنوعی الفاظ تخلیق ہو سکتے ہیں۔
تین لاکھ سطریں تو میں نے تب بنا ڈالی تھیں، ورڈ لسٹ کی بنیاد پر۔
میرے خیال میں رینڈم ٹیکسٹ شامل کرنے سے مزید مسائل سامنے آئیں گے۔ جاسم کی مہیا کردہ لیگیچر کی فائل سے رینڈم انداز میں لیگیچر لگا کر سطریں بنائیں تھیں اس سے جو تربیتی مواد بنا تھا اس نیتجہ مایوس کن تھا۔ میرا خیال ہے کہ مواد جتنا حقیقی ہوگا اتنا مددگار ہوگا۔ کیونکہ فانٹ بھی لیگیچر بیسڈ ہے اس لیے میں فائنل فائل بناتے ہوئے ہر سطر کے ہر لفظ کو لیگیچر کی فائل سے چیک کر لیتا ہوں۔ اب اردو جرنل والے مواد سے سات ہزار سطریں بنیں ہیں۔ وہ یہاں موجود ہیں۔ اب تک مجموعی طور پر جو مواد ہے وہ تقریبا چار لاکھ سے زیادہ ہے۔ اس پر تربیت کروائی جاسکتی ہے۔
 

دوست

محفلین
الفاظ آگے پیچھے کر کے جیسے یہاں کیا گیا ہے۔
آگے پیچھے کر کے جیسے یہاں کیا گیا ہے۔ ایک
پیچھے کر کے جیسے یہاں کیا گیا ہے۔ ایک دو
تکنیکی نام ابھی یاد نہیں آ رہا۔
 
Top