اردو میں کوئی شناخت برائے بصری الفاظ Ocr کا سوفٹویئر موجود ہے؟؟؟

ابو کاشان

محفلین
کیا اردو کے لیئے کوئی شناخت برائے بصری الفاظ Ocr کا سوفٹویئر موجود ہے؟؟؟
اگر نہیں تو کیا اس پر کوئی کوشش کی جا سکتی ہے۔
یہ یقینا ً ایک مفید کوشش ہو گی۔
اپنی آراء سے نوازیں۔
 

محسن حجازی

محفلین
اس میں کچھ ایسے ہے کہ فاسٹ میں کچھ کام تو ہوا ہے۔ تاہم وہ اسے جاری کرنےکو تیار نہیں۔ دیگر پاکستان میں تو میرا مشاہدہ ہے کہ ہر کس و نا کس میٹ لیب میں ستر تا اسی سطروں کا پروگرام لکھے گھوم رہا ہے او سی آر پر اور ایم ایس اور دیگر ڈگریاں بٹور رہا ہے۔ اور وہ پروگرام کرتا کچھ نہیں اور پھر میٹ لیب سے باہر تو کچھ بھی نہیں۔۔۔ سو یہ صورتحال ہے اس بابت۔ کوشش ضرورر کی جا سکتی ہے کچھ مشکل بھی نہیں کیوں کہ او سی آآر کا مسئلہ کمپیوٹر سائنس میں کافی حد تک حل شدہ سمجھا جاتا ہے تاہم اس کے لیے پہلے نسخ پر کام کرنا ہوگا۔
 

الف نظامی

لائبریرین
ادارہ تحقیقات اردو کے فراہم کردہ اردو کے ترسیمہ جات کی نسخ یا نستعلیق خط میں تصاویر بنائیں اور تصویری تقابل سے بصری حرف شناس کی طرف پیش رفت شروع کریں۔
 

jawad101

محفلین
کیا omnipage میں عربی کی سپورٹ ہے؟
readiris 11 middle east version میں عربی کی سپورٹ موجود ہے، اور یہ واقعی کام بھی کرتا ہے۔ یہ پروگرام 110mb پر ہے۔ میں نے دیکھا ہے کہ یہ لفظ ․۔لا۔ کو بھی شناخت کر لیتا ہے، جو کہ لگیچر ہے۔
ایک اور پروگرام ہے tesseract-ocr
http://code.google.com/p/tesseract-ocr/
اس پروگرام میں آپ کو لگیچر شامل کرنے پڑتے ہیں۔ شاید یہ اردو کے لیے بھی کام آ سکے۔ میں نے کوشیش تو کی تھی، لیکن مجھے اس پروگرام کی زیادہ سمجھ نہیں آئی۔
 

قیصرانی

لائبریرین
Tesseract-OCR صرف بائیں سے دائیں لکھی جانے والی زبانوں کے لئے کارآمد ہے۔ ویسے یو ٹی ایف 8 کوڈنگ میں‌ یونی کوڈ کو سپورٹ‌کرتا ہے

حوالہ
 

jawad101

محفلین
ایک اور آرٹیکل بھارت کی طرف سے بھی ہے جس کا لنک یہ ہے یہ آرٹیکل خرید کر پڑھا جا سکتا ہے اس لیے میں دیکھ نہیں سکا مگر دعوی ان کے بڑے بڑے ہیں۔

پرنٹ اردو کی شناخت

یہ pdf اس لنک سے ڈاون لوڈ کی جا سکتی ہے
http://www.cse.salford.ac.uk/prima/ICDAR2003/Papers/0216_598_pal_u.pdf

اور یہ بھی دیکھیں
Layout Analysis of Urdu Document Images
http://pubs.iupr.org/DATA/2006-IUPR-24Nov_1031.pdf
 
اردو کا تو ابھی شاید Trail کہی بھی نہیں مل رہا۔ پیسے کا ہے شاید یا ابھی بن رہا ہے۔ لیکن عربی، فارسی ، انگلش اور عبرانی زُبان کا ocr ایک سوفٹ وئیر ہے۔ جس کا لنک ہے ۔۔۔۔۔۔ http://www.scanstore.com/Scanning_Software/OCR/default.asp?ITEM_ID=19122

آپ مندرجہ بالا لنک کو ضرور دیکھے ۔ میں ابھی ڈاؤن لوڈ کر رہا ہوں ۔ اس کے بعد آپ کو اس کے نتائج بتاتا ہوں
والسلام
 
دوستو "ریڈ آئی آر آئی ایس" میں‌ عربی اور فارسی دونوں‌کی سپورٹ ہے۔ اس کے علاوہ ایک مکمل فارسی او سی آر بھی ہے "وجہہ شناس"۔ میں نے یہ دونوں‌اردو کیلیے ٹرائی کیے تو دونوں نے تقریباً تمام حروف کو شناخت کیا۔ میرے خیال میں تو صرف اردو لغت ان میں‌ انسٹال کرنے کی ضرورت ہے اور یہ کام سوفٹ ویر انجینیرز کا ہے اگر کوئی اس میں‌دلچسپی لے (اگر میں‌غلطی پر ہوں‌ تو پلیز اگنور کیجیے گا کیوں کہ مجھے پروگرامنگ کا کچھ آئیدیا نہیں)۔

وجہہ شناس کو گوگل میں‌سرچ کریں‌تو ریپڈ شئر کے لنک مل جائیں‌گے۔
 

الف نظامی

لائبریرین
دوستو "ریڈ آئی آر آئی ایس" میں‌ عربی اور فارسی دونوں‌کی سپورٹ ہے۔ اس کے علاوہ ایک مکمل فارسی او سی آر بھی ہے "وجہہ شناس"۔ میں نے یہ دونوں‌اردو کیلیے استمعال کیے تو دونوں نے تقریباً تمام حروف کو شناخت کیا۔ میرے خیال میں تو صرف اردو لغت ان میں‌ انسٹال کرنے کی ضرورت ہے اور یہ کام سوفٹ ویر انجینیرز کا ہے اگر کوئی اس میں‌دلچسپی لے (اگر میں‌غلطی پر ہوں‌ تو پلیز اگنور کیجیے گا کیوں کہ مجھے پروگرامنگ کا کچھ آئیدیا نہیں)۔

وجہہ شناس کو گوگل میں‌سرچ کریں‌تو ریپڈ شئر کے لنک مل جائیں‌گے۔


کیا یہ نستعلیق خط میں لکھے ہوئے متن کو شناخت کرتا ہے؟
 
دوستو "ریڈ آئی آر آئی ایس" میں‌ عربی اور فارسی دونوں‌کی سپورٹ ہے۔ اس کے علاوہ ایک مکمل فارسی او سی آر بھی ہے "وجہہ شناس"۔ میں نے یہ دونوں‌اردو کیلیے ٹرائی کیے تو دونوں نے تقریباً تمام حروف کو شناخت کیا۔ میرے خیال میں تو صرف اردو لغت ان میں‌ انسٹال کرنے کی ضرورت ہے اور یہ کام سوفٹ ویر انجینیرز کا ہے اگر کوئی اس میں‌دلچسپی لے (اگر میں‌غلطی پر ہوں‌ تو پلیز اگنور کیجیے گا کیوں کہ مجھے پروگرامنگ کا کچھ آئیدیا نہیں)۔

وجہہ شناس کو گوگل میں‌سرچ کریں‌تو ریپڈ شئر کے لنک مل جائیں‌گے۔
جی میں نے بھی یہی ڈاؤن لوڈ کیا ہے ۔ مگر یار ایک مسئلہ آرہا ہے۔ وہ 300 dpi سے کم میں recognize نہیں کر رہا ۔ اس کا کیا کروں۔ کوئی چیز ہے جس سے تصویر کا ریسولیشن بڑھ سکے ۔ مجھ سے تو نہیں ہورہا ہے
 
جی میں نے بھی یہی ڈاؤن لوڈ کیا ہے ۔ مگر یار ایک مسئلہ آرہا ہے۔ وہ 300 dpi سے کم میں recognize نہیں کر رہا ۔ اس کا کیا کروں۔ کوئی چیز ہے جس سے تصویر کا ریسولیشن بڑھ سکے ۔ مجھ سے تو نہیں ہورہا ہے


اس کیلیے آپ امیجنگ کے ایکسرٹس سے رابطہ کریں۔ سوفٹ ویر تو بہت ہیں لیکن میں‌ نے کبھی ٹرائی نہیں‌کیے۔
 
یہ واژہ شناس کا سکرین شاٹ نیچے دے رہا ہوں جس میں قرآن کے کچھ آیات کو کنورٹ کرنے کے کوشش کی تھی ۔
02Feb131723.gif
 

قیصرانی

لائبریرین
Correction

یہ آیات عربی فانٹ میں ہیں۔ اردو کا مسئلہ یہ ہے کہ وہ نستعلیق فانٹ‌میں لکھی جاتی ہے اور اکثر کتب ہاتھ سے خطاطی کی ہوئی ہوتی ہیں نہ کہ کمپیوٹر پر لکھی ہوئی۔ اس وجہ سے ہم یہ جاننا چاہ رہے ہیں کہ کیا یہ او سی آر ہاتھ سے تحریر کردہ یعنی کاتب کی لکھی ہوئی نستعلیق خط کی تحریر کو پڑھ کر سمجھ سکتا ہے یا نہیں

مجھ سے یہ ڈاؤن لوڈ نہیں‌ہو سکے اس لئے خود نہیں چیک کر سکتا
 

jawad101

محفلین
میرا کام

سلام: چند ہفتے پہلے بھی میں نے Tesseract OCR کے متعلق بتایا تھا۔ اس میں لگیچر استعمال ہوتے ہیں۔اس میں ابھی اردو /عربی کی سپورٹ تو نہیں ہے۔ لیکن اگر آپ اپنا دل خوش کرنا چاہتے ہیں تو یہ رزلٹ دیکھیں۔
tesseract.jpg

اور میرا کام اس فائل میں ہے۔
2.8mb Tesseract.rar
ّ(اس لنک کو ڈاون لوڈ منیجر سے ڈاون لوڈ کر سکتے ہیں۔resume کے ساتھ)
http://www.fileden.com/files/2008/2/13/1757067/Tesseract.rar
abc1.bat کی فائل کو چلاہیں گے تو وہ abc1.tif کو سکین کر کے abc1.txt کی فائل بنائے گا۔
اس کا لگیچر کو شامل کرنے کا طریقہ کچھ مشکل ہے، لیکن اگر کہیں گے توتمام طریقہ بھی بتا دوں گا۔
جواد
 
Top