'ٹیزرکٹ' کے سا تھ آف لائن اردو او سی آر

فلسفی نے 'اردو او سی آر پر تحقیق' کی ذیل میں اس موضوع کا آغاز کیا، ‏فروری 25, 2019

  1. دوست

    دوست محفلین

    مراسلے:
    13,072
    جھنڈا:
    Germany
    موڈ:
    Fine
    میں بھی اعجاز اختر صاحب والا مشورہ دوں گا، ان کی کتب بہترین حل ہیں (بُکس والی زپ فائل انہیں کی کتابیں ہیں 2011 سے پہلے کی، جس میں قرآنی تراجم اور عربی بھی ملے گی، اس پر دھیان رہے)۔ میں نے جو اوپر شیئر کیا تھا اس میں عالمی اخبار اور نیوز اردو میں بہت اغلاط ہیں۔ نوائے وقت اور جنگ نسبتاً بہتر ہیں چونکہ یہ اخبارات ہیں۔ اور ان میں بہت سے ترسیمے اور الفاظ مل جائیں گے جو اور کہیں نہیں (انگریزی سے درآمد شدہ الفاظ وغیرہ)۔ میرا خیال تو ورڈ لسٹ سے سطور تیار کرنے کا تھا جیسا کہ میں نے کچھ کام بھی کیا تھا۔ باقی آپ کو جیسے مناسب لگے۔
     
    آخری تدوین: ‏اپریل 28, 2019
    • پسندیدہ پسندیدہ × 4
    • زبردست زبردست × 1
  2. سروش

    سروش محفلین

    مراسلے:
    2,208
    موڈ:
    Relaxed
    https://archive.org/download/lughat_kabeer/lughat_kabeer.rar
    لغت کبیر (مولوی عبدالحق) یونیکوڈ میں یہاں ہے ۔ لیکن اسکو پہلے آپ کو سمپل ٹیکسٹ میں کسی سکرپٹ جیسے کہ pyglossary-master سے کنورٹ کرانا ہوگا کیونکہ یہ گولڈن ڈکشنری کے فارمیٹ میں ہے ۔
     
    • پسندیدہ پسندیدہ × 4
    • زبردست زبردست × 3
  3. سروش

    سروش محفلین

    مراسلے:
    2,208
    موڈ:
    Relaxed
    اسکے علاوہ موطأ امام مالک کا فقہ و فوائد ایکسیل فائل کی شکل میں ہیں اگر کہیں تو وہ بھی اپلوڈ ہوجائیں گے ۔
     
    • پسندیدہ پسندیدہ × 3
    • معلوماتی معلوماتی × 1
  4. سروش

    سروش محفلین

    مراسلے:
    2,208
    موڈ:
    Relaxed
    • زبردست زبردست × 3
    • پسندیدہ پسندیدہ × 1
  5. سروش

    سروش محفلین

    مراسلے:
    2,208
    موڈ:
    Relaxed
    کچھ اور اردو لغات یونیوکوڈ میں :
     
    • زبردست زبردست × 2
    • پسندیدہ پسندیدہ × 1
  6. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    جی بہتر ہے، محترم اعجاز عبید صاحب سے گذارش کی ہے اگر ان کے پاس فائلز ٹیکسٹ فائل میں موجود ہیں۔ ورنہ ایک ایک فائل کو بلاگ سے ڈاونلوڈ کرنا مشکل کام ہے۔

    بہت شکریہ سروش بھائی، یہ بہت مدد گار رہے گی۔ اس کی مدد سے دوست بھائی والا طریقہ کار بھی استعمال کیا جاسکتا ہے۔ میں لغت کو کنورٹ کرنے کے لیے سکرپٹ کو دیکھتا ہوں۔ پھر آپ حضرات سے شئیر کروں گا۔
     
    • پسندیدہ پسندیدہ × 3
  7. سروش

    سروش محفلین

    مراسلے:
    2,208
    موڈ:
    Relaxed
    ایک فائل مزید ملی ہے یہ شاید بزم اردو پر بھی ہے ۔
     
    • پسندیدہ پسندیدہ × 1
  8. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    بس بھائیوں بس بہت مواد ہو گیا۔ پہلے اس سے نبرد آزما ہوں لوں پھر باقی مواد کو دیکھیں گے۔ :)
     
    • پر مزاح پر مزاح × 4
    • پسندیدہ پسندیدہ × 1
  9. دوست

    دوست محفلین

    مراسلے:
    13,072
    جھنڈا:
    Germany
    موڈ:
    Fine
    اردو ریسرچ جرنل والا مواد اچھا لگ رہا تھا، سارے ایچ ٹی ایم ایل ڈاؤنلوڈ کر کے اب بیٹھا ہوں ٹیکسٹ کیسے نکالوں۔ سر پیر کوئی نہیں ہے سی ایس ایس کا۔ بس جگاڑ لگائی ہوئی ہے۔ میرا خیال ہے ناشتہ کر لوں،
     
    • پسندیدہ پسندیدہ × 5
    • زبردست زبردست × 1
    • معلوماتی معلوماتی × 1
  10. شکیب

    شکیب محفلین

    مراسلے:
    1,792
    جھنڈا:
    India
    موڈ:
    Breezy
    کوئی اسکرپٹ استعمال کریں تو کوڈ یہاں بھی شیئر کر دیجیے گا۔ ہمارے بھی کام آجائے گا کسی دن۔ (ایچ ٹی ایم ایل صفحات سے متن نکالنے/جمع کرنے کا طریقہ)
     
    • پسندیدہ پسندیدہ × 3
  11. فرقان احمد

    فرقان احمد محفلین

    مراسلے:
    10,183
    شاکر بھیا! کسی قدر ترتیب کے ساتھ ۔۔۔! ربط
     
  12. دوست

    دوست محفلین

    مراسلے:
    13,072
    جھنڈا:
    Germany
    موڈ:
    Fine
    • زبردست زبردست × 3
    • پسندیدہ پسندیدہ × 2
  13. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    دوست بھائی کے مہیا کیے گئے مواد سے تقریبا چار لاکھ سے زائد سطریں بنیں ہیں۔ مواد یہاں موجود ہے۔ آپ حضرات ذرا نظر ڈالیے کہ او سی آر کی تربیت کے لیے مناسب ہے یا نہیں۔

    زبردست ہو گیا، اس میں سے بھی سطریں بنا کر شئیر کرتا ہوں۔
     
    • پسندیدہ پسندیدہ × 1
    • زبردست زبردست × 1
  14. دوست

    دوست محفلین

    مراسلے:
    13,072
    جھنڈا:
    Germany
    موڈ:
    Fine
    اس میں ایچ ٹی ایم ایل کوڈز ہیں
    ” رائٹ کوٹیشن مارک وغیرہ
     
    • متفق متفق × 1
  15. دوست

    دوست محفلین

    مراسلے:
    13,072
    جھنڈا:
    Germany
    موڈ:
    Fine
    جیسے ہندسے اٹکل سے درمیان میں ڈالے ہیں، اردو کے اعراب اور علامات بھی الگ سے لسٹ بنا کر کہیں کہیں الفاظ کے شروع یا آخر میں ڈال دئیے جائیں۔ ٹیسرکٹ کی اردو ٹرین ڈیٹا میں ہر لفظ پر کوئی نہ کوئی اعراب تھا۔ ظاہر ہے رینڈم کیریکٹر کمبی نیشنز تھے۔
     
    • معلوماتی معلوماتی × 1
  16. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    وہ فلٹر آوٹ ہو جائیں گے۔ مثلا یہ چند لائنز دیکھیے

    کوڈ:
    ڈاکٹر زاہرہ نثار ڈاکٹر زاہرہ نثار منور خاں غافل ولد
    نہ صرف اُس کا ذکر کیا ہے بلکہ اپنے تذکرے میں اُس کے
    کلام کی ستائش کے ساتھ ساتھ اُس کا کثیر انتخابِ کلام
    بھی پیش کیا ہے مصحفی کے علاوہ دیگر تذکرہ نویسوں میں
    کے مختصر حالات ملتے ہیں جب کہ قدرت اللہ شوق کے طبقات
    شاعر کا نام تک مکمل نہیں لکھا تاہم ان شعروں کی دیوانِ
    میں ترجمۂ غافل کے ضمن میں لکھتے ہیں میں ترجمۂ غافل
    مشتاق تھے شہرۂ آفاق تھے نہایت کامل تھے سب چھوٹے بڑے
    ان کی استادی کے قائل تھے اُن کے زمرۂ تلامذہ میں سے
    مسمی منور خان ابن صلابت خان متخلص بہ غافل احاطہ فقیر
    محمد خان گویا واقع لکھنؤ میں رہتے تھے واقعی خوب شعر
    لیکن یہ مواد بہت تھوڑا ہے۔ صرف چودہ ہزار سطریں بنی ہیں۔
     
    • پسندیدہ پسندیدہ × 1
  17. دوست

    دوست محفلین

    مراسلے:
    13,072
    جھنڈا:
    Germany
    موڈ:
    Fine
    اردو کیریکٹرز کی لسٹ بنائی تھی۔ اس میں سجدہ آیت وغیرہ کی علامت تو نہیں ملے گی۔ البتہ باقی اعراب، سنہ، شعر کی علامت، دعائیہ کلمات (درود شریف، رضی اللہ عنہ، رحمتہ اللہ علیہ) وغیرہ الگ کر کے رینڈملی ڈال دئیے جائیں۔
     
    • پسندیدہ پسندیدہ × 1
  18. دوست

    دوست محفلین

    مراسلے:
    13,072
    جھنڈا:
    Germany
    موڈ:
    Fine
    • پسندیدہ پسندیدہ × 1
  19. فلسفی

    فلسفی محفلین

    مراسلے:
    2,584
    جھنڈا:
    Pakistan
    موڈ:
    Pensive
    میرے خیال میں رینڈم ٹیکسٹ شامل کرنے سے مزید مسائل سامنے آئیں گے۔ جاسم کی مہیا کردہ لیگیچر کی فائل سے رینڈم انداز میں لیگیچر لگا کر سطریں بنائیں تھیں اس سے جو تربیتی مواد بنا تھا اس نیتجہ مایوس کن تھا۔ میرا خیال ہے کہ مواد جتنا حقیقی ہوگا اتنا مددگار ہوگا۔ کیونکہ فانٹ بھی لیگیچر بیسڈ ہے اس لیے میں فائنل فائل بناتے ہوئے ہر سطر کے ہر لفظ کو لیگیچر کی فائل سے چیک کر لیتا ہوں۔ اب اردو جرنل والے مواد سے سات ہزار سطریں بنیں ہیں۔ وہ یہاں موجود ہیں۔ اب تک مجموعی طور پر جو مواد ہے وہ تقریبا چار لاکھ سے زیادہ ہے۔ اس پر تربیت کروائی جاسکتی ہے۔
     
    • پسندیدہ پسندیدہ × 2
    • متفق متفق × 1
  20. دوست

    دوست محفلین

    مراسلے:
    13,072
    جھنڈا:
    Germany
    موڈ:
    Fine
    الفاظ آگے پیچھے کر کے جیسے یہاں کیا گیا ہے۔
    آگے پیچھے کر کے جیسے یہاں کیا گیا ہے۔ ایک
    پیچھے کر کے جیسے یہاں کیا گیا ہے۔ ایک دو
    تکنیکی نام ابھی یاد نہیں آ رہا۔
     
    • معلوماتی معلوماتی × 1
    • متفق متفق × 1

اس صفحے کی تشہیر