نسیم ان پیج پی ڈی ایف ٹیکسٹ ایکسٹریکشن سافٹوئیر

رانا

محفلین
السلام علیکم
محض اللہ کے فضل سے اس سافٹوئیر کا ابتدائی ورژن اردو محفل کی دسویں سالگرہ کے موقع پر ریلیز کرنے کی توفیق مل رہی ہے۔ اللہ تعالیٰ کی مدد شامل حال نہ ہوتی تو یہ کام کبھی بھی مکمل نہ ہوسکتا کہ اس کے راستے میں جو رکاوٹیں تھیں وہ ناقابل عبور محسوس ہوتی تھیں۔ ہر رکاوٹ کے دور ہونے پر یہ محسوس ہوتا تھا کہ اس کے سامان الٰہی تصرف سے ظہور میں آئے ہیں۔ بطور خاص اس کے لئے الگورتھم تو محض اللہ میاں نے اپنے فضل سے ذہن میں ڈالا ورنہ اس ناچیز کا تو گمان بھی اس طرف نہ جاسکتا تھا۔

جیسا کہ نام سے ہی ظاہر ہے یہ ان پیج سے بنائی گئی پی ڈی ایف سے متن اخذ کرنے کے لئے ہے۔ اس کو بنانے کا خیال اس طرح آیا کہ خاکسار گذشتہ کئی سال سے ایک اخبار الفضل کا روزانہ آن لائن باقاعدگی سے مطالعہ کرتا ہے۔ اس کا شمارہ روزانہ کی بنیاد پر پی ڈی ایف فائل کی شکل میں نیٹ پر اپ لوڈ ہوجاتا تھا۔ اس میں اکثر ایسے معلوماتی اور دلچسپ مضامین شائع ہوتے کہ خاکسار کی بے اختیار یہ خواہش ہوتی کہ انہیں اپنے بلاگ پر شئیر کیا جائے۔ لیکن جب اس پی ڈی ایف سے متن کاپی کرکے ورڈ میں پیسٹ کرتا تو بے معنی علامات نمودار ہوجاتیں۔ اس مشکل کا ذکر پھر تین سال پہلے یہیں محفل پر کیا تو پتہ لگا کہ ابھی تک ایسا کوئی طریقہ موجود نہیں ہے جو ان پیج سے بنائی گئی پی ڈی ایف سے متن اخذ کرسکے اور بظاہر یہ ناممکن کام ہے۔ لیکن پھر بھی نہ جانے کیوں ایک خیال ذہن میں رہتا کہ آخر اس کا کوئی نہ کوئی طریقہ تو ہوگا ہی۔ اس لئے فرصت کے اوقات میں اگر دھیان اس طرف چلاجاتا تو تجربات کرنا شروع کردیتا جو ہر بار ناکامی سے دوچار ہوجاتے۔ البتہ ان تجربات کے دوران ایک بات مشاہدہ میں آئی کہ جب پی ڈی ایف سے متن کاپی کرکے ورڈ میں پیسٹ کئے جاتے ہیں تو بے معنی علامات ہی نمودار ہوتی ہیں لیکن وہ علامات اکثر مختلف ترسیموں کے لئے ایک جیسی ہوتی ہیں۔ مثلا "رسول" کا لفظ جب بھی کاپی کرکے پیسٹ کرو تو ہمیشہ ایک جیسی علامات نمودار ہوں گی۔ اس مشاہدے نے کمزور ارادوں کو پھر سے توانائی بخش دی۔ اب تجربات کو ایک لائن آف ایکشن میسر آگئی تھی۔

تقریبا سال بھر پہلے کی بات ہے کہ اپنے آفس میں ایک کولیگ کے کمپیوٹر پر فاکس ریڈر میں ایک فائل کھلی ہوئی دیکھی۔ غالبا اسی موقعے پر یہ خیال آیا کہ فاکس ریڈر میں بھی ان پیج کی پی ڈی ایف درست نظر آتی ہے۔ اس سے اس طرف توجہ مبذول ہوئی کہ جب فاکس ریڈر بھی ان پیج کی پی ڈی ایف کو درست طور پر رینڈر کرتا ہے تو پھر کوئی نہ کوئی اسٹینڈرڈ تو ہوگا جس پر کام کرکے ہم بھی کوئی سافٹوئیر بناسکیں جو پی ڈی ایف کو رینڈر کرکے متن یونی کوڈ میں دکھاسکے۔ یہاں سے پھر محض اللہ کے فضل سے ایک ایسی لائن آف ایکشن ذہن میں آئی کہ جس کے حوالے سے ذہن سو فیصد مطمئن تھا کہ یہ کام ممکن ہے۔ بس یوں لگا جیسے پورا الگورتھم ایک بجلی کی طرح ذہن میں کوند گیا ہو۔ اس الگورتھم اور بعد کی کہانی تفصیل سے اس دھاگے میں بیان کی جاچکی ہے۔ اس سافٹوئیر پر کام شروع کیا اور کچھ کامیابی ہوئی لیکن وہ اس قابل نہ تھی کہ اس سے کوئی فائدہ اٹھایا جاسکتا۔ اس کی وجہ کچھ مسائل تھے جن میں سے ایک مسئلہ کافی بڑا نظر آیا جو ان پیج کی فانٹ فائلز میں خالی کشتیوں اور نقطوں کا مسئلہ تھا۔ پھر کئی ماہ تک وہ کام رکا رہا۔ ان مسائل کا ذکر بھی مذکورہ دھاگے میں تفصیل سے کیا گیا ہے۔

جس طرح Expendables فلم میں سب ہیروز ایک جگہ قید ہوجاتے ہیں اور نکلنے کا کوئی راستہ نہیں ملتا تو اچانک آرنلڈ شوارزنیگر نمودار ہوتا ہے اور ایک بلڈوزر کی مدد سے باہر سے دیوار توڑ کر انہیں رہا کراتا ہے۔ اسی طرح جب اس مسئلے کی وجہ سے کام رکا تو اس دھاگے میں ذکر کرتے ہی عارف کریم اچانک نمودار ہوئے اور آتے ہی نوید سنائی کہ اس مسئلے کا حل تو انتہائی آسان ہے اور ان کے پاس موجود ہے۔ پھر انہون نے اس مسئلے کے حل کے لئے خاکسار کو عملی مدد فراہم کی جس کی بدولت پھر آن کی آن میں وہ رکاوٹ دور ہوئی اور ایک ماہ کے بعد ہی سافٹ وئیر کا ابتدائی ورژن آج اللہ کے فضل سے ریلیز کے لئے تیار ہے۔ عارف کریم بطور خاص اس کے لئے شکریہ کے مستحق ہیں کہ ان سے رابطہ ہونے سے پہلے یہ کام کئی ماہ سے رکا ہوا تھا اور شائد یہ سرد خانے میں ہی پڑا رہ جاتا لیکن ان کی فوری مدد کی بدولت رکا ہوا کام نہ صرف چل پڑا بلکہ ایک ماہ کے قلیل عرصہ میں مکمل بھی ہوگیا۔ اردو محفل کا بھی بہت بہت شکریہ کہ اسی پلیٹ فارم پر مذکورہ دھاگے میں ان مسائل کا ذکر کیا گیا تو اسی پلیٹ فارم سے عارف کریم کی مدد پھر ان مسائل کے حل کے لئے مہیا ہوئی۔ جزاکم اللہ و احسن الجزاء
اس ابتدائی ورژن میں اس سافٹوئیر کا رزلٹ اسی سے نوے فیصد تک ہے۔ یعنی سو الفاظ کی پی ڈی ایف اگر اس سے پراسس کی جائے تو اکثر صورتوں میں اسی سے نوے الفاظ درست اخذ کرلیتا ہے۔

سافٹ وئیر کا لنک ( version 1.3)
سورس کوڈ کا لنک (گٹ ریپازیٹری)
ملٹی پیج فیچر (از مائنڈ روسٹر میر)

اگلے مراسلے میں سافٹوئیر کو استعمال کرنے کے طریقہ کا مختصر ذکر کیا جائے گا۔
 
مدیر کی آخری تدوین:

رانا

محفلین
سافٹوئیر کے استعمال کا طریقہ کار:

ان پیج کی پی ڈی ایف سے متن اخذ کرنے کے لئے

1. Select PDF کا بٹن دباکر مطلوبہ پی ڈیف ایف فائل منتخب کرلیں۔
2. جس صفحے کا متن اخذ کرنا مقصود ہو اس کا نمبر ٹیکسٹ باکس میں درج کریں۔
3. Extract Text کا بٹن دبائیں۔ متن پی ڈی ایف کے نیچے والے ٹیکسٹ باکس میں ظاہر ہوجائے گا۔

کنورژن ٹولز کا استعمال
ان پیج سے یونی کوڈ میں کنورژن کے لئے
1. ان پیج سے متن کاپی کریں
2. Inpage To Unicode کا بٹن دبائیں
3. ایم ایس ورڈ یا کسی بھی جگہ پیسٹ کردیں۔

یونی کوڈ سے ان پیج میں کنورژن کے لئے
1. ایم ایس ورڈ یا کسی بھی جگہ سے یونی کوڈ متن کاپی کریں
2. Unicode To Inpage کا بٹن دبائیں
3. ان پیج میں جاکر پیسٹ کردیں

چند گزارشات:
1. فی الحال اس میں صرف نوری نستعلیق متن اخذکرنے کی سہولت ہے۔
2. موجود ورژن میں انگریزی الفاظ کو اخذ کرنے کا فیچر فی الوقت آف رکھا گیا ہے۔ آئندہ ورژن میں اسے مزید بہتر بناکر فعال کیا جائے گا۔
3. بعض مخصوص ترسیمے ایسے ہیں جو جس سطر میں آئیں، اس سطر کے الفاظ آگے پیچھے ہوجاتے ہیں۔ اگر تو یہ مسئلہ ایک دو سطور میں ہو تو ٹائپنگ کرکے سطر کو درست کرلیں۔ اگر زیادہ سطور میں یہ مسئلہ آئے تو Repair Text کا چیک باکس ٹک کرکے دوبارہ متن اخذ کرلیں۔ اکثر صورتوں میں اس طرح متن درست ہوجائے گا۔
4۔ پی ڈی ایف فائل دکھانے لئے جو کنٹرول استعمال کیا گیا ہے وہ بیک اینڈپر مائکروسافٹ انٹرنیٹ ایکسپلورر کو استعمال کرتا ہے۔ اس لئے اس سے فائدہ اٹھانے کے لئے آپ کے انٹرنیٹ ایکسپلورر میں یہ سیٹنگز ہونی چاہئے کہ وہ پی ڈی ایف فائل کو براوزر کے اندر ہی دکھائے جیسا کہ سب براوزر کرتے ہیں۔ بصورت دیگر آپ کو فائل اس سافٹوئیر میں نظر نہیں آئے گی لیکن اس سے کام نہیں رکے گا۔ بلکہ فائل ڈاونلوڈ ونڈو کھل جائے گی۔ اسے بند کردیں اور ٹیکسٹ ایکسٹریکٹ کا بٹن دبا دیں۔
5۔ فی الوقت ایک وقت میں ایک ہی صفحے کا متن اخذ کرنے کی سہولت دی گئی ہے۔ اگلے ورژن میں پوری پی ڈی ایف کو ایک ساتھ ہی پراسس کرنے کا فیچر بھی انشاء اللہ شامل کیا جائے گا۔ فی الحال باری باری صفحہ نمبر منتخب کرکے متن اخذ کیا جاسکتا ہے۔
6۔ بعض پی ڈی ایف فائلز ایسی بھی ہوتی ہیں جن کی انکوڈنگ ان کے رائٹرز نے کافی حد تک تبدیل کردی ہوتی ہے تو ان سے متن اخذ کرنے میں ناکامی ہوسکتی ہے۔

b596.gif
 

arifkarim

معطل
زبردست کاوش ہے محترم رانا صاحب!
بس ایک عرض کرنی تھی کہ اوپر ہماری اجازت کے بغیر اسنیپ شاٹ پوسٹ کرنے پر آپکو ایک مٹھائی کا ڈبہ ناروے برآمد کرنے کی سزا سنائی جاتی ہے :)
 

رانا

محفلین
زبردست کاوش ہے محترم رانا صاحب!
بس ایک عرض کرنی تھی کہ اوپر ہماری اجازت کے بغیر اسنیپ شاٹ پوسٹ کرنے پر آپکو ایک مٹھائی کا ڈبہ ناروے برآمد کرنے کی سزا سنائی جاتی ہے :)
ہاہاہا۔:) ڈئیر میں نے سافٹوئیر میں ایک ہیلپ کا بٹن بھی شامل کیا تھا جس میں وہی دوسرا مراسلہ پی ڈی ایف میں کھل جاتا ہے۔ اس کا اسنیپ لے کر گوگل ڈاکس پر اپ لوڈ کیا اور پھر اس کا لنک یہاں مراسلے میں شامل کرنے لگا تو نہیں ہوپایا۔ میں نے سوچا آپ کی ٹیسٹڈ اسنیپ تو موجود ہی ہے تو کیا ضرورت ہے اس دردسری کی۔:)
مٹھائی کا ڈبہ آپ تک پہنچانے کی کوشش کی جائے گی بس کوئی بندہ ناروے کو عازم سفر مل جائے۔:)
 

رانا

محفلین
انسٹال کرتے وقت یہ ایرر آرہا ہے

error.jpg
نشاندہی کے بہت شکریہ افضل بھائی۔
آپ اپنے آپریٹنگ سسٹم کی معلومات شئیر کریں تو میں چیک کرتا ہوں۔ دیکھنے میں تو ونڈوز 7 ہی لگ رہی ہے۔ 32 بٹ ہے یا 64 بٹ؟
میرے پاس ونڈوز 7 ایک ہی جگہ ہے جو میری مشین ہے اس پر تو ٹھیک انسٹال ہورہا ہے۔ اگر کسی اور دوست کے پاس ونڈوز 7 ہے تو پلیز وہ ذرا چیک کرکے بتائیں تاکہ یہ تعین کیا جاسکے کہ یہ ونڈوز 7 سے متعلقہ مسئلہ ہے یا کوئی وجہ ہے۔ جزاک اللہ۔
 

تجمل حسین

محفلین
لیجئے رانا بھائی میرا تجربہ بھی حاضر ہے۔

urdumehfil.jpg

http://postimg.org/image/d0wg430x5/
ویسے تو یہ سافٹ ویئر انسٹال بھی ہوگیا اور صحیح چل بھی گیا ہے لیکن جیسا کہ آپ دیکھ رہے ہیں کہ ٹیکسٹ ایکسٹریکٹ کرتے وقت ایرر آرہا ہے۔ شاید یہ پی ڈی ایف فائل کا مسئلہ ہو۔

سسٹم انفارمیشن:۔
HP Compaq۔ پروسیسر انٹل کور2 ۔ 1.86GHz۔ ریم: 1جی بی۔
آپریٹنگ سسٹم انفارمیشن:۔
ونڈوز 7 پروفیشنل (چوری شدہ :))۔ 32بٹ۔
 

نایاب

لائبریرین
ماشاءاللہ
بہت خوب کام کیا ہے محترم رانا بھائی
بہت سی دعاؤں بھری داد اور مبارکباد
میرے پاس ون 7 پروفیشنل 32 بٹ پر آسانی سے انسٹال ہو گیا ہے ۔۔
کسی پی ڈی ایف بارے یہ کیسے معلوم ہوگا کہ یہ ان پیج سے بنی ہے ۔؟
میں نے اک کوشش کی تو یہ نتیجہ سامنے آیا ۔۔۔۔۔۔۔۔۔۔
con1.jpg

بہت دعائیں
 

رانا

محفلین
لیجئے رانا بھائی میرا تجربہ بھی حاضر ہے۔

urdumehfil.jpg

http://postimg.org/image/d0wg430x5/
ویسے تو یہ سافٹ ویئر انسٹال بھی ہوگیا اور صحیح چل بھی گیا ہے لیکن جیسا کہ آپ دیکھ رہے ہیں کہ ٹیکسٹ ایکسٹریکٹ کرتے وقت ایرر آرہا ہے۔ شاید یہ پی ڈی ایف فائل کا مسئلہ ہو۔

سسٹم انفارمیشن:۔
HP Compaq۔ پروسیسر انٹل کور2 ۔ 1.86GHz۔ ریم: 1جی بی۔
آپریٹنگ سسٹم انفارمیشن:۔
ونڈوز 7 پروفیشنل (چوری شدہ :))۔ 32بٹ۔
ماشاءاللہ
بہت خوب کام کیا ہے محترم رانا بھائی
بہت سی دعاؤں بھری داد اور مبارکباد
میرے پاس ون 7 پروفیشنل 32 بٹ پر آسانی سے انسٹال ہو گیا ہے ۔۔
کسی پی ڈی ایف بارے یہ کیسے معلوم ہوگا کہ یہ ان پیج سے بنی ہے ۔؟
میں نے اک کوشش کی تو یہ نتیجہ سامنے آیا ۔۔۔۔۔۔۔۔۔۔
con1.jpg

بہت دعائیں
ماشاءاللہ بہت اچھا پرگرام بنایا ہے۔۔ میرے پاس بھی نایاب بھائی والا ایرر آرہا ہے۔۔ :)

آپ تینوں احباب کا بہت بہت شکریہ کہ آپ نے اسے ٹیسٹ کرنے کے لئے وقت نکالا۔ جزاک اللہ۔
میں نے اپنے پاس چیک کیا ہے تو یہ پتہ لگا ہے کہ آپ تینوں کے پاس جو پی ڈی ایف ہے وہ غالب امکان ہے کہ یونی کوڈ متن پر مبنی ہے۔ اس کے لئے اس سافٹوئیر کی ضرورت نہیں ہے۔ کیونکہ اس سے تو ویسے ہی متن کاپی پیسٹ ہوجاتا ہے۔ اسے چیک کرنے کے لئے ایسا کریں کہ پی ڈی ایف کو اوپن کریں۔ پھر اس میں سے متن سیلیکٹ کرکے کاپی کریں اور ایم ایس ورڈ میں جاکر پیسٹ کردیں۔ اگر تو پیسٹ کرنے کے بعد اردو کے الفاظ ہی ظاہر ہورہے ہیں تو اس کا مطلب ہے کہ پی ڈی ایف یونی کوڈ میں ہے۔
مجھے گوگل سرچنگ کے دوران اتفاق سے ایک کتاب ملی تھی جو ان پیج سے بنائی گئی پی ڈی ایف تھی۔ کتاب کا عنوان خطرناک ہے۔:) اس کا لنک درج زیل ہے:
گناہ اور سائنس
آپ احباب سے ایک گذارش ہے کہ اس کتاب کو ڈاون لوڈ کرکے ایک بار پھر ٹیسٹ کرلیں تاکہ مجھے تسلی ہوجائے کہ سافٹوئیر میں کوئی مسئلہ نہیں ہے۔جزاک اللہ۔
 

رانا

محفلین
arifkarim یہ کیا ہوا؟ میرے دوسرے مراسلے میں سافٹوئیر کے لئے آپ کی جو اسنیپ لگائی تھی اب اسکی جگہ کسی کھانسی کی دوا کا نسخہ آرہا ہے۔:idontknow:
کیا آپ نے اسنیپ تبدیل کردی ہے؟؟؟:atwitsend:
 

تجمل حسین

محفلین
لیجئے رانا صاحب ٹیسٹنگ حاضر ہے۔

urdumehfil1.jpg

http://postimg.org/image/3ndhn22zx/

پی ڈی ایف یونیکوڈ میں کنورٹ تو ہوگئی ہے مگر جیسا کہ آپ دیکھ رہے ہیں یونیکوڈ حصے میں آدھے الفاظ دکھائی رہے ہیں جبکہ بقیہ آدھے غائب ہیں اور کوئی سکرول بار بھی ظاہر نہیں ہورہی جس سے سکرین کو دائیں بائیں کرسکیں۔ یہ کیا مسئلہ ہے۔۔۔
اور جو پی ڈی ایف فائل والا حصہ ہے وہاں بھی ایسا ہی ہوتا ہے پی ڈی ایف فائل کا کچھ حصہ دکھائی دیتا ہے جبکہ بقیہ غائب رہتا ہے۔
سکرین ریزولیوشن 1024×768 ہے۔
 

طمیم

محفلین
محترم رانا صاحب
بہت بہت مبارک ہو ۔ ماشاء اللہ آپ نے بہت اچھا سافٹ ویئر تیار کیا ہے۔ اس کی بہت ضرورت تھی۔ میرے پاس ونڈوز سیون بتیس بٹ ہوم پریمیم ورژن ہے اور بالکل درست انسٹال ہوگیا ہے۔
ابھی صرف ایک مشکل پیش آئی ہےسافٹ ویئر کا نیچے والا حصہ جہاں پر کنورٹ کیا گیا متن نظر آتا ہے سکرین سے باہر چلا گیا ہے۔ لیکن وہ بھی میرا خیال ہے میرے کمپیوٹر کی ریزولیشن کی وجہ سے ہے۔ (سکرین ریزولیوشن 1366 ×766)
میں نے پروگرام کے اندر نیچے والی حصہ کو اوپر کی طرف کھینچنے کی کوشش کی تھی لیکن میرا خیال ہے یہ سہولت اس میں ابھی موجود نہیں ہے کہ پروگرام کے اندر مختلف حصوں کو بڑا یا چھوٹا کیا جاسکے۔ کیا یہ سہولت دی جاسکتی ہے یا پروگرام کے نیچے والے حصہ کو بڑا کیا جاسکتا ہے۔
 
Top