اردو میں کوئی شناخت برائے بصری الفاظ Ocr کا سوفٹویئر موجود ہے؟؟؟

ابو کاشان نے 'اردو او سی آر پر تحقیق' کی ذیل میں اس موضوع کا آغاز کیا، ‏جنوری 17, 2008

  1. ابو کاشان

    ابو کاشان محفلین

    مراسلے:
    1,838
    جھنڈا:
    Pakistan
    موڈ:
    Brooding
    کیا اردو کے لیئے کوئی شناخت برائے بصری الفاظ Ocr کا سوفٹویئر موجود ہے؟؟؟
    اگر نہیں تو کیا اس پر کوئی کوشش کی جا سکتی ہے۔
    یہ یقینا ً ایک مفید کوشش ہو گی۔
    اپنی آراء سے نوازیں۔
     
  2. محسن حجازی

    محسن حجازی محفلین

    مراسلے:
    2,513
    موڈ:
    Breezy
    اس میں کچھ ایسے ہے کہ فاسٹ میں کچھ کام تو ہوا ہے۔ تاہم وہ اسے جاری کرنےکو تیار نہیں۔ دیگر پاکستان میں تو میرا مشاہدہ ہے کہ ہر کس و نا کس میٹ لیب میں ستر تا اسی سطروں کا پروگرام لکھے گھوم رہا ہے او سی آر پر اور ایم ایس اور دیگر ڈگریاں بٹور رہا ہے۔ اور وہ پروگرام کرتا کچھ نہیں اور پھر میٹ لیب سے باہر تو کچھ بھی نہیں۔۔۔ سو یہ صورتحال ہے اس بابت۔ کوشش ضرورر کی جا سکتی ہے کچھ مشکل بھی نہیں کیوں کہ او سی آآر کا مسئلہ کمپیوٹر سائنس میں کافی حد تک حل شدہ سمجھا جاتا ہے تاہم اس کے لیے پہلے نسخ پر کام کرنا ہوگا۔
     
  3. arifkarim

    arifkarim معطل

    مراسلے:
    29,828
    جھنڈا:
    Norway
    موڈ:
    Happy
    کیا omnipage میں عربی کی سپورٹ ہے؟
     
  4. الف نظامی

    الف نظامی لائبریرین

    مراسلے:
    16,167
    جھنڈا:
    Pakistan
    موڈ:
    Amused
    ادارہ تحقیقات اردو کے فراہم کردہ اردو کے ترسیمہ جات کی نسخ یا نستعلیق خط میں تصاویر بنائیں اور تصویری تقابل سے بصری حرف شناس کی طرف پیش رفت شروع کریں۔
     
  5. jawad101

    jawad101 محفلین

    مراسلے:
    63
    readiris 11 middle east version میں عربی کی سپورٹ موجود ہے، اور یہ واقعی کام بھی کرتا ہے۔ یہ پروگرام 110mb پر ہے۔ میں نے دیکھا ہے کہ یہ لفظ ․۔لا۔ کو بھی شناخت کر لیتا ہے، جو کہ لگیچر ہے۔
    ایک اور پروگرام ہے tesseract-ocr
    http://code.google.com/p/tesseract-ocr/
    اس پروگرام میں آپ کو لگیچر شامل کرنے پڑتے ہیں۔ شاید یہ اردو کے لیے بھی کام آ سکے۔ میں نے کوشیش تو کی تھی، لیکن مجھے اس پروگرام کی زیادہ سمجھ نہیں آئی۔
     
  6. قیصرانی

    قیصرانی لائبریرین

    مراسلے:
    45,875
    جھنڈا:
    Finland
    موڈ:
    Festive
    Tesseract-OCR صرف بائیں سے دائیں لکھی جانے والی زبانوں کے لئے کارآمد ہے۔ ویسے یو ٹی ایف 8 کوڈنگ میں‌ یونی کوڈ کو سپورٹ‌کرتا ہے

    حوالہ
     
    • پسندیدہ پسندیدہ × 1
  7. محب علوی

    محب علوی لائبریرین

    مراسلے:
    12,179
    جھنڈا:
    Pakistan
    موڈ:
    Bookworm
    یہ بھائی صاحب بھی کام کرنے کی کوشش میں ہیں ان کے بلاگ پر میں نے ایک تبصرہ تو کیا ہے دیکھتے ہیں کیا جواب آتا ہے۔

    نسیم اردو او سی آر
     
    • پسندیدہ پسندیدہ × 2
  8. محب علوی

    محب علوی لائبریرین

    مراسلے:
    12,179
    جھنڈا:
    Pakistan
    موڈ:
    Bookworm
    ایک اور آرٹیکل بھارت کی طرف سے بھی ہے جس کا لنک یہ ہے یہ آرٹیکل خرید کر پڑھا جا سکتا ہے اس لیے میں دیکھ نہیں سکا مگر دعوی ان کے بڑے بڑے ہیں۔

    پرنٹ اردو کی شناخت
     
    • پسندیدہ پسندیدہ × 2
  9. jawad101

    jawad101 محفلین

    مراسلے:
    63
    یہ pdf اس لنک سے ڈاون لوڈ کی جا سکتی ہے
    http://www.cse.salford.ac.uk/prima/ICDAR2003/Papers/0216_598_pal_u.pdf

    اور یہ بھی دیکھیں
    Layout Analysis of Urdu Document Images
    http://pubs.iupr.org/DATA/2006-IUPR-24Nov_1031.pdf
     
    • پسندیدہ پسندیدہ × 3
  10. محمد عویدص عطاری

    محمد عویدص عطاری محفلین

    مراسلے:
    1,086
  11. محمد عویدص عطاری

    محمد عویدص عطاری محفلین

    مراسلے:
    1,086
    اردو کا تو ابھی شاید Trail کہی بھی نہیں مل رہا۔ پیسے کا ہے شاید یا ابھی بن رہا ہے۔ لیکن عربی، فارسی ، انگلش اور عبرانی زُبان کا ocr ایک سوفٹ وئیر ہے۔ جس کا لنک ہے ۔۔۔۔۔۔ http://www.scanstore.com/Scanning_Software/OCR/default.asp?ITEM_ID=19122

    آپ مندرجہ بالا لنک کو ضرور دیکھے ۔ میں ابھی ڈاؤن لوڈ کر رہا ہوں ۔ اس کے بعد آپ کو اس کے نتائج بتاتا ہوں
    والسلام
     
  12. ذیشان سکندر

    ذیشان سکندر محفلین

    مراسلے:
    12
    دوستو "ریڈ آئی آر آئی ایس" میں‌ عربی اور فارسی دونوں‌کی سپورٹ ہے۔ اس کے علاوہ ایک مکمل فارسی او سی آر بھی ہے "وجہہ شناس"۔ میں نے یہ دونوں‌اردو کیلیے ٹرائی کیے تو دونوں نے تقریباً تمام حروف کو شناخت کیا۔ میرے خیال میں تو صرف اردو لغت ان میں‌ انسٹال کرنے کی ضرورت ہے اور یہ کام سوفٹ ویر انجینیرز کا ہے اگر کوئی اس میں‌دلچسپی لے (اگر میں‌غلطی پر ہوں‌ تو پلیز اگنور کیجیے گا کیوں کہ مجھے پروگرامنگ کا کچھ آئیدیا نہیں)۔

    وجہہ شناس کو گوگل میں‌سرچ کریں‌تو ریپڈ شئر کے لنک مل جائیں‌گے۔
     
    • پسندیدہ پسندیدہ × 9
  13. الف نظامی

    الف نظامی لائبریرین

    مراسلے:
    16,167
    جھنڈا:
    Pakistan
    موڈ:
    Amused

    کیا یہ نستعلیق خط میں لکھے ہوئے متن کو شناخت کرتا ہے؟
     
  14. محمد عویدص عطاری

    محمد عویدص عطاری محفلین

    مراسلے:
    1,086
    جی میں نے بھی یہی ڈاؤن لوڈ کیا ہے ۔ مگر یار ایک مسئلہ آرہا ہے۔ وہ 300 dpi سے کم میں recognize نہیں کر رہا ۔ اس کا کیا کروں۔ کوئی چیز ہے جس سے تصویر کا ریسولیشن بڑھ سکے ۔ مجھ سے تو نہیں ہورہا ہے
     
  15. ذیشان سکندر

    ذیشان سکندر محفلین

    مراسلے:
    12


    نیچے دیے ہوئے لنک پہ جائیں، یہاں‌ پر دونوںسوفٹ ویرز ‌کیلیے ڈاؤنلوڈ لنکس آپ کو مل جائیں‌ گے۔ انسٹال کر کے چیک کر لیں۔

    http://www.majidonline.com/forum/showthread.php?p=554934
     
    • پسندیدہ پسندیدہ × 3
  16. ذیشان سکندر

    ذیشان سکندر محفلین

    مراسلے:
    12

    اس کیلیے آپ امیجنگ کے ایکسرٹس سے رابطہ کریں۔ سوفٹ ویر تو بہت ہیں لیکن میں‌ نے کبھی ٹرائی نہیں‌کیے۔
     
  17. ذیشان سکندر

    ذیشان سکندر محفلین

    مراسلے:
    12
  18. محمد عویدص عطاری

    محمد عویدص عطاری محفلین

    مراسلے:
    1,086
    یہ واژہ شناس کا سکرین شاٹ نیچے دے رہا ہوں جس میں قرآن کے کچھ آیات کو کنورٹ کرنے کے کوشش کی تھی ۔
    [​IMG]
     
  19. قیصرانی

    قیصرانی لائبریرین

    مراسلے:
    45,875
    جھنڈا:
    Finland
    موڈ:
    Festive
    Correction

    یہ آیات عربی فانٹ میں ہیں۔ اردو کا مسئلہ یہ ہے کہ وہ نستعلیق فانٹ‌میں لکھی جاتی ہے اور اکثر کتب ہاتھ سے خطاطی کی ہوئی ہوتی ہیں نہ کہ کمپیوٹر پر لکھی ہوئی۔ اس وجہ سے ہم یہ جاننا چاہ رہے ہیں کہ کیا یہ او سی آر ہاتھ سے تحریر کردہ یعنی کاتب کی لکھی ہوئی نستعلیق خط کی تحریر کو پڑھ کر سمجھ سکتا ہے یا نہیں

    مجھ سے یہ ڈاؤن لوڈ نہیں‌ہو سکے اس لئے خود نہیں چیک کر سکتا
     
    • پسندیدہ پسندیدہ × 1
  20. jawad101

    jawad101 محفلین

    مراسلے:
    63
    میرا کام

    سلام: چند ہفتے پہلے بھی میں نے Tesseract OCR کے متعلق بتایا تھا۔ اس میں لگیچر استعمال ہوتے ہیں۔اس میں ابھی اردو /عربی کی سپورٹ تو نہیں ہے۔ لیکن اگر آپ اپنا دل خوش کرنا چاہتے ہیں تو یہ رزلٹ دیکھیں۔
    [​IMG]
    اور میرا کام اس فائل میں ہے۔
    2.8mb Tesseract.rar
    ّ(اس لنک کو ڈاون لوڈ منیجر سے ڈاون لوڈ کر سکتے ہیں۔resume کے ساتھ)
    http://www.fileden.com/files/2008/2/13/1757067/Tesseract.rar
    abc1.bat کی فائل کو چلاہیں گے تو وہ abc1.tif کو سکین کر کے abc1.txt کی فائل بنائے گا۔
    اس کا لگیچر کو شامل کرنے کا طریقہ کچھ مشکل ہے، لیکن اگر کہیں گے توتمام طریقہ بھی بتا دوں گا۔
    جواد
     
    • پسندیدہ پسندیدہ × 3

اس صفحے کی تشہیر