ٹیکسیکٹ مائننگ

shine نے 'انفارمیشن ٹیکنالوجی کی دنیا' کی ذیل میں اس موضوع کا آغاز کیا، ‏اپریل 27, 2008

  1. shine

    shine محفلین

    مراسلے:
    10
    مجھے ٹیکسیکٹ مائنگ میں مدد درکار ہے اور سب سے پہلے یہ بتائیں کہ ٹیکسیکٹ مائننگ کیا ہے ؟؟؟
     
  2. محمدعبیداللہ

    محمدعبیداللہ محفلین

    مراسلے:
    943
    ابھی تک تو صرف نام ہی سن رکھا ہے
     
  3. ابن سعید

    ابن سعید خادم

    مراسلے:
    60,165
    اس دن آپ نے ڈاٹا مائننگ والے ٹاپک پر یہ سوال کیا تو تھا۔ پر میں نظر انداز کر گیا۔ اس کی در اصل چند وجوہات تھیں۔

    1: مجھے یہ لگا کہ آپ انگریزی زیادہ روانی سے سمجھ سکتے ہیں اور یہ مواد آپ کو گوگل سے بآسانی دستیاب ہو جائے گا۔ اور یقیناً وکی پیڈیا پر بھی سیر حاصل بحث موجود ہوگی۔
    2: در اصل مجھے فرصت بھی کم تھی اورت آپ کے سوال سے ایسا لگا کہ آپ صرف اس ٹاپک آگے بڑھانا چاہتے ہیں۔
    3: آپ نے رومن میں لکھا تھا بلکہ انگلش میں سوال دہرایا تھا سو توجہ بھی کم دیا۔

    خیر اس رویے کے لئے معافی چاہتا ہوں اور مختصراً ٹیکسٹ مائننگ کو سمجھانے کی کوشش کرتا ہوں۔
     
    • پسندیدہ پسندیدہ × 1
  4. ابن سعید

    ابن سعید خادم

    مراسلے:
    60,165
    ٹیکسٹ مائننگ اور ڈاٹا مائننگ میں صرف اتنا فرق ہے کہ آپ ٹیکسٹ مائننگ کو ڈاٹا مائننگ کی ایک شاخ کہہ سکتے ہیں۔ جس میں مائننگ کی زمیں ٹیکسٹ ڈاٹا (ایکس ایم ایل، ایچ ٹی ایم ایل وغیرہ) ہے۔ جبکہ عام ڈاٹا مائننگ کئی طرح کے ہو سکتے ہیں جن میں خرید و فروخت کے ریکارڈ بھی ہو سکتے ہیں۔

    مقصد:

    ٹیکسٹ مائننگ کا مقصد مواد کے زمرے (کیٹیگری) بنانا، کلسٹرنگ کرنا اور مفید پیٹرن تلاشنا ہو سکتا ہے۔

    طریقہ:

    ٹیکسٹ مائننگ کے کام کو عموماً درج ذیل اسٹیپس میں‌ کیا جاتا ہے۔

    1: فارمیٹنگ ٹیگ رموول (ایچ ٹی ایم ایل، ایکس ایم ایل ٹیگ ہٹانا)
    2: پوسٹ ٹیگنگ (جملے میں الفاظ کی نحوی و صرفی کیفیت کا پتہ لگانا تاکہ ایک ایک لفظ کے بارے میں یہ جانا جا سکے کہ وہ اسم، فعل، فاعل، ظرف وغیرہ میں سے کیا ہے)۔ اس کی ضرورت خاص کر تب ہوتی ہے جب سیمینٹیک سرچ انجن یا باٹ بنانا ہو۔
    3: اسٹاپ ورڈ رموول (تو، سے، میں، وہ، ہے، تھا وغیرہ جیسے الفاظ ہٹانا جو ڈاکومینٹ کے مفہوم کا پتہ نہیں دے سکتے)
    4: استعمال شدہ الفاظ کی بنیاد پر ڈاکیومینٹس کی کیٹیگرائزیشن یا کلسٹرنگ کرنا
    5: استعمال شدہ الفاظ کی فریکوئنسی (ٹرم فریکوینسی-انورس ڈاکیومینت فریکوینسی) وغیرہ کی بنیاد پر ڈاکیومینٹس کی رینکنگ کرنا۔

    اس کے آگے کے کام ایپلیکشن پر منحصر ہیں۔

    امید کہ یہ رسالہ مفید ثابت ہوگا۔


    --
    سعود ابن سعید
     
    • پسندیدہ پسندیدہ × 1
  5. shine

    shine محفلین

    مراسلے:
    10
    ابن سعید صاحب

    آپ خواہ مخراہ میں معذرت کررہے ہیں معذرت تو مجھے کرنی چاہیے دراصل میں ایم سی ایس کی سٹوڈنٹ ہوں اور ہمیں اردو کے حوالے سے کوئی کام نہیں کرایا گیا کہ میں اردو میں لکھ سکتی اب بھی بہت دشواری سے جواب دے رہی ہوں
    آپ کا جتنا بھی شکریہ ادا کروں وہ کم ہے کہ آپ اپنے قیمتی وقت میں سے کچھ وقت میرے لئے نکال کر میرے اس الٹے سیدھے ٹاپک کا جواب دے رہے ہیں اور ٹیکسٹ مائننگ میرے تھیسز میں ہے مگر کافی سرچنگ کے بعد بھی یہ سمجھ نہیں آئی کہ یہ ہے کیا بلا
     
    • پسندیدہ پسندیدہ × 1
  6. محمدعبیداللہ

    محمدعبیداللہ محفلین

    مراسلے:
    943
    سعود بھائی بہت خوب بہت اچھے انداز میں آپ نے ٹیکسٹ مائننگ کی تعریف کی اور ہم نکموں کو بھی پتہ چل گیا کہ ٹیکسٹ مائننگ کس چیز کا نام ہے چلیں مزید سوالات پر ہی اور بہت کچھ جاننے کو ملے گا
     
  7. ابن سعید

    ابن سعید خادم

    مراسلے:
    60,165
    پھر تو ہمیں آپ کے کام آکر خوشی ہوگی۔ لہٰذا میرے مختصر مضمون میں کوئی بات سمجھ میں نہ آئی ہو تو مزید وضاحت بلا جھجھک دریافت کریں۔ اور یہ کہ میں نے جو انگریزی اردو مخلوط زبان استعمال کی ہے اسکے سمجھنے میں بھی کوئی دشواری ہو تو بتائیں۔ ان شاء اللہ آپ کی خاطر خواہ اعانت کی جائے گی۔
     
  8. shine

    shine محفلین

    مراسلے:
    10
    سعود صاحب

    میرے تھیسزز کا عنوان document classification using decision tree اور vector space modelہیں لیکن ہمارے سپر وائزر اس سلسلے میں ہماری مدد نہیں کررہے اور اگر اس سلسلے میں میری مزید کچھ مدد کریں۔ اور مجھے بتائیں کہ ٹیکسٹ مائننگ میں فائلز کی ڈکشنری کیسے بناؤں اورterm vector کیا ہوتا ہے اور وکٹور سپیس ماڈل کیسے استعمال کر سکتی ہوں اور یہ سب کیا اور کیسے implementہوتا ہے
    مزید ٹول کے حوالے سے میں سی شارپ یوز کر رہی ہوں مگر اس پر بھی کام ان ہی دنوں شروع کیا ہے
    سعود ابن سعید
    term frequencyاور inverse term document freqencey کیا ہوتی ہے اسکو کیسے فائنڈ کرتے ہیں
     
    • پسندیدہ پسندیدہ × 1
  9. ابن سعید

    ابن سعید خادم

    مراسلے:
    60,165
    میں جلدی ہی اس موضوع پر اپنے قلیل علم کے مطابق روشنی ڈالنی کی کوشش کروں گا۔ از راہ مہربانی انتظار فرمائیں۔
     
  10. دوست

    دوست محفلین

    مراسلے:
    13,076
    جھنڈا:
    Germany
    موڈ:
    Fine
    اور اس سے میرے علم میں بھی اضافہ ہوگا۔ ٹیکسٹ مائننگ کو ہی استعمال کرتے ہوئے شاید شماریات کی بنیاد پر پیش گوئی بھی کی جاسکتی ہے؟‌ میرے استاد محترم ایسے ایک سافٹویر کے بارے میں بتا رہے تھے جو اخباری بیانات کی بنیاد پر پیش گوئی کرتا ہے۔
     
    • پسندیدہ پسندیدہ × 1
  11. ابن سعید

    ابن سعید خادم

    مراسلے:
    60,165
    ٹرم فریکوئینسی:

    سب سے پہلے بات کرتے ہیں ٹرم فریکوئینسی (ٹی ایف) کی۔ ٹرم فریکوئینسی کسی ڈاکیومینٹ میں کسی ٹرم یا لفظ کے تعدد کو بتاتا ہے۔ اس سے اس ڈاکیومینٹ کی کسی خاص موضوع یا زمرے سے وابستگی کا پتہ چلتا ہے۔ مثلاً

    اگر کسی ڈاکیومینٹ میں کمپیوٹر لفظ 50 بار آیا ہے جبکہ ایک دوسرے ڈاکیومینٹ میں 20 بار تو یہ کہا جا سکتا ہے کہ جس ڈاکیومینٹ میں کمپیوٹر لفظ کی تکرار زیادہ ہے وہ کمپیوٹر کے زمرے سے زیادہ متعلق ہے۔ (یعنی اگر کبھی کمپیوٹر لفظ سے سرچ کیا جائے تو رزلٹ سیٹ میں 50 فریکوئینسی والے کو 20 فریکوئینسی والے ڈاکیومینٹ سے پہلے آنا چاہئے)۔

    اب ایک اسٹیپ آگے بڑھتے ہیں۔ مان لیجئے کہ پہلا ڈاکیومینٹ جس میں کمپیوٹر لفظ 50 بار آیا ہے اس میں الفاظ کی مجموعی تعداد 1000 ہے جبکہ دوسرا ڈاکیومینٹ جس میں لفظ کمپیوٹر 20 بار آیا ہے اس میں الفاظ کی مجموعی تعداد 100 ہے۔ اب سوچیئے کہ کون سا ڈاکیومینٹ کمپیوٹر سے زیادہ وابستگی رکھتا ہے۔ یقیناً جواب ہوگا 20 فریکوئینسی والا۔

    کیونکہ ایک میں کمپیوٹر لفظ کا تناسب ہے 50:1000 جبکہ دوسرے میں 20:100

    یہاں ایک چیز اور قابل ذکر ہے کہ اس تناسب کی قدر 0 اور 1 کے درمیان ہوگی۔ اور 1 تبھی ہوگی جب ڈاکیومینٹ میں صرف اور صرف ایک ہی لفظ آیا ہو خواہ کتنی ہی بار۔ لہٰذا ٹرم فریکوئینسی کی بنیاد پر ٹرم کی اہمیت کا تناسب ایک اور طریقے سے حاصل کیا جا سکتا ہے۔ بجائے اس کے کہ کسی لفظ کا تناسب ڈاکیومینٹ میں موجود الفاظ کی مجموعی تعداد سے نکالیں، بہتر ہوگا کہ ہر لفظ کی فریکوئینسی اس لفظ کی نسبت نکال لیں جو ڈاکیومینٹ میں سب سے زیادہ آیا ہو۔ مثلاً

    ایک ڈاکیومینٹ میں سافٹوئیر 70 بار، کمپیوٹر 50 بار، ہارڈ ڈسک 5 بار، میموری 11 بار اور انٹرنیٹ 17 بار آیا ہے۔ تو ان کی ٹرم فریکوئینسیز درج ذیل ہونگی۔ (چونکہ سافٹوئیر لفظ کی تکرار سب سے زیادہ ہے اس لئے اس کی نسبت دوسرے الفاظ کی اہمیت دیکھتے ہیں)

    سافٹوئیر- 70:70
    کمپیوٹر- 50:70
    ہارڈ ڈسک- 5:70
    میموری- 11:70
    انٹرنیٹ- 17:70

    غور کیجئے اس طرح جس لفظ کی فریکوئینسی سب سے زیادہ ہوگی اس کا اہمیتی تناسب ہمیشہ 1 ہوگا۔ (یوں اقدار کا 0 اور 1 کے درمیان زیادہ بہتر ڈسٹریبیوشن ہوگا)

    بجائے سیدھے سیدھے ٹرم کی ڈاکیومینٹ میں تکرار لینے کے اس کی نسبت (ratio) نکالنے کا ایک فائدہ اور ہوتا ہے وہ یہ کہ اگر کبھی اسٹوریج کا اوور فلو ہو تو بجائے موسٹ سگنیفیکینٹ بٹس کے نقصان کے لیسٹ سگنیفیکینٹ بٹس کا نقصان ہو۔ کیوں کہ نسبت کی صورت میں قدر ہمیشہ 0 اور 1 کے مابین ہوگی مثلا 0.123456789 اب اگر اسٹوریج صرف 8 بٹس کا ہے تو اخیر کا 9 حذف ہو جائے گا جس سے قدر میں کوئی خاص فرق نہیں پڑے گا پر یہی گنتی اگر 123456789 ہوتی تو اوور فلو کے باعث بائیں طرف کا 1 حذف ہو جاتا جو کہ قدر میں بھاری گراوٹ کا سبب بنتا۔

    امید ہیکہ یہ مضمون مفید ثابت ہوگا۔ انشاء اللہ اگلی نشست میں انورس ڈاکیومینٹ فریکوئینسی کی بات کریں گے۔ پھر ایک ایک کرکے ویکٹر اسپیس ماڈل وغیرہ پر بحث کریں گے۔ یہاں تک کوئی مسئلہ ہو تو ضرور پوچھئے۔

    --
    سعود ابن سعید
     
    • پسندیدہ پسندیدہ × 2
  12. shine

    shine محفلین

    مراسلے:
    10
    سعود صا حب

    سعود آپ نے بہت اچھے طریقے سے مثالیں دیکر سمجھایا ہے۔مجھے آپ کا سمجھانے کا انداز اچھا لگتا ہے-اصل میں میرے تھیسیز کی آخری تا ریخ 6 جون یے-اس لیے میں چا ہتی ھوں کے میں‌ زیادہ سیکھ سکھوں۔مجھے اردو لکھنے میں بہت دیر لگتی ھے-میں سی شارپ میں پروگرام بنا رہی ہوں وہ بھی آپ کو دیکھانا چا ہتی ہوں جس میں‌ ایرے میں‌ ڈاکومینٹ ریڈ کروایا ہے۔اور اب زیارہ ڈوکومینٹ کیسے ریڈ کرواتے ہیں؟
    اور پلیز میں زیادہ سے زیادہ سیکھنا چاہتی ہوں‌ کیونکہ وقت بہت کم ھے-پلیز آپ میری مدد کریں کیونکہ اردو لکھتے ہوے اتنا وقت لگتا ہے کہ سوال بھول جاتا ھے۔
    شکریہ-
     
    • پسندیدہ پسندیدہ × 1
  13. ابن سعید

    ابن سعید خادم

    مراسلے:
    60,165
    پسندیدگی کا بہت شکریہ اپیا!

    کسی موضوع پر کچھ لکھتے ہوئے عموماً مجھے جن باتوں کا خیال رکھنا پڑتا ہے وہ ہیں عام فہم زبان، مثالیں، اور مخاطب کی ضرورت۔ ان چیزوں میں ایسی ہم آہنگی رکھنا کہ وہ احباب جو تکنیکی علوم سے ناواقف ہوں انہیں بھی استفادہ ہو جائے یا کم از کم چیزیں اجنبی نا لگیں، بہت وقت طلب امر ہے۔
    دوسرا مسئلہ یہ ہے کہ میری بھی ٹائپنگ خاصی سست رفتار ہے۔
    ایک اور مسئلہ یہ ہے کہ 6 مئی سے میرے فائنل امتحانات ہیں۔

    خیر یہ باتیں ایک طرف۔ آپ مجھے جب چاہیں کوڈ میل کر دیں (اپنا ای میل رابطہ میں آپ کو پی ایم کر دیتا ہوں یہاں لکھنا محفل کے اصولوں کے منافی ہے۔) ویسے ایک بات کی وضاحت کر دوں کہ میں نے سی شارپ پر کبھی کام نہیں کیا ہے (غالباً شاکر بھائی'“دوست” آپ کی اس سلسلے میں زیادہ مدد کر سکیں گے۔) ہاں سنٹیکس چھوڑ کے لاجک اور پروگرام فلو کی حد تک تھوڑا سا وقت دینے پر انشاء اللہ میری بھی سمجھ میں آ ہی جائے گا۔

    میں نے ٹرم فریکوئینسی پر بحث کے بعد خاموشی اس لئے اختیار کر لی تھی کہ قارئین کو کتنا سمجھ میں آ رہا ہے اس کا اندازہ ہو سکے۔ نیز انورس ڈاکیومینٹ فریکوئینسی کا کانسیپٹ کچھ ایسا ہے کہ ٹرم فریکوئینسی کا ضد لگتا ہے لہٰذا کنفیوژن کا شکار ہونے کا خطرہ تھا۔

    کسی کو سامنے بٹھا لکے سمجھانا اور لکھ کر سمجھانے میں بہت فرق ہوتا ہے۔ :)
     
  14. دوست

    دوست محفلین

    مراسلے:
    13,076
    جھنڈا:
    Germany
    موڈ:
    Fine
    ارے یہ تو ہمارے کارپس لسانیات جیسی چیز ہی نکل آئی۔ یہاں بھی ہم الفاظ کے تعدد ڈھونڈ ڈھونڈ کر ہلکان ہوئے جاتے ہیں۔ لیکن یہ تعدد ذرا مختلف مقاصد کے لیے استعمال کیا جاتا ہے۔ سافٹویر کم و بیش ایک جیسے ہوتے ہیں لیکن نتائج کا تجزیہ اپنی اپنی فیلڈ کے لحاظ سے ہوتا ہے۔ خیر یہ تو ایک معروضی بات تھی۔
    جب میں نے یہ دیکھا کہ محترمہ "شائن" سی شارپ میں کام کررہی ہیں اور کام بھی ایسے پراجیکٹ پر جس کا کوڈ میرے جیسے مبتدی کو بہت کچھ سکھا سکتا ہے تو ہم نے سوچا فورًا ان سے سورس کوڈ کی درخواست کردی جائے۔ لیکن ابھی آپ نے انھیں ہم نے مدد لینے کا مشورہ دے ڈالا۔ ارے بھیا ہم تو ان سے بھی زیادہ مبتدی ہیں۔ ہمیں تو پروگرامنگ کی الف ب کا بھی نہیں پتا۔ زندگی میں پہلی بار جس زبان کو ہاتھ لگایا وہ سی شارپ ہے۔ اسی سے پروگرامنگ کے تصورات بھی سیکھے جارہے ہیں اور اس کے سنٹیکس کی پریکٹس بھی کی جارہی ہے تاکہ مستقبل میں اس میں پروگرام لکھا جاسکے۔
    ہاں الف نظامی آپ کی اس سلسلے میں مدد کرسکتے ہیں۔ آپ کو کہیں پہ مسئلہ آرہا ہے، یا سی شارپ میں کوڈ لکھنا نہیں آرہا تو الف نظامی آپ کو اس سلسلے میں گائیڈ کرسکتے ہیں۔ میں بھی انھی کی شاگردی میں سی شارپ سیکھنے کی کوشش فرما رہا ہوں۔ اردو ٹیک فورمز پر ایک عدد سی شارپ سیکھیں زمرہ موجود ہے۔ جہاں اس سلسلے میں سوال پوچھے جاسکتے ہیں۔
    وسلام
     
    • پسندیدہ پسندیدہ × 1
  15. ابن سعید

    ابن سعید خادم

    مراسلے:
    60,165
    سلام مسنون!

    شاکر بھائی ڈاٹا مائننگ ایک فریم ورک ہے اس کے حاصل شدہ کو کیسے استعمال کرنا ہے یہ ایپلیکیشن پر منحصر ہے۔ لسانیات، صوتیات، سیمینٹیک ویب، سرچ انجن، میٹا سرچنگ، مارکیٹنگ، کلسٹرنگ وغیرہ جیسے بیشمار ایپلیکیشن ہیں جو ڈاٹا مائننگ کا استعمال کرتے ہیں۔

    موصوفہ کی اعانت ہو جائے خواہ ہم جیسے مبتدیوں سے خواہ الف نظامی بھائی یا کسی اور صاحب علم سے۔ رہی بات سی شارپ کی تو سیکھنے کو تو بمشکل 2-3 دن کافی ہونگے (کیوں کہ دسیوں پروگرامنگ لینگویجز میں ہاتھ پاؤں مار چکا ہوں) پر وہ 2-3 دن لاؤں کہاں سے۔ :)

    خیر اب موضوع کو آگے بڑھاتے ہیں اور انورس ڈاکیومینٹ فریکوئینسی کی بات کرتے ہیں۔
     
    • پسندیدہ پسندیدہ × 1
  16. ابن سعید

    ابن سعید خادم

    مراسلے:
    60,165
    انورس ڈاکیومینٹ فریکوئینسی (آئی ڈی ایف)

    پہلے بات کرتے ہیں ڈاکیومینٹ فریکوئینسی کی۔ ڈاکیومینٹ فریکوئینسی کا مطلف ہے کہ کوئی لفظ یا ٹرم ڈھیر سارے ڈاکیومینٹس کے ذخیرے میں سے کتنے ڈاکیومینٹس میں وارد ہوا ہے۔ مثلاً

    ایک لائبریری جس میں 100000 کتابیں ہیں۔ کمپیوٹر لفظ ان میں سے 500 کتابوں میں وارد ہوا ہو تو کمپیوٹر ٹرم کی ڈاکیومینٹ فریکوئینسی 500 کہی جائے گی۔

    اب ٹرم فریکوئینسی کی مانند اسے بھی نارملائز کر لیں تاکہ موسٹ سگنیفیکینٹ بٹس کے نقصان سے بچا جا سکے۔ نارملائزیشن سے میری مراد نسبت لیکر قدر کو 0 اور 1 کے درمیان کر لینا ہے۔ اس کے لئے ایسے ڈاکیومینٹس کی تعداد جن میں مطلوبہ لفظ موجود ہو اور کل ڈاکیومینٹس کی تعداد کی نسبت لیکر ڈاکیومینٹ فریکوئینسی کی قدر حاصل کر لی جاتی ہے۔

    اس طرح مذکورہ مثال کی ڈاکیومینٹ فریکوئینسی 500:100000 ہوگی۔

    اب ایک بہت ہی اہم بات کہ ٹرم فریکوئینسی جتنی زیادہ ہو (1 کے قریب) اتنا ہی اس ٹرم کے لئے ڈاکیومینٹ اہم ہے۔ پر ڈاکیومینٹ فریکوئینسی کا معاملہ الٹا ہے۔ یہ جتنا کم ہو (0 کے قریب) اتنا ہی وہ لفظ کیٹیگورائزیشن کے لئے موزوں ہے۔

    واضح ہوا کہ ٹرم فریکوئینسی ڈاکیومینٹ کا خاصہ (پراپرٹی) ہے جبکہ ڈاکیومینٹ فریکوئینسی لفظ (ٹرم) کا خاصہ ہے۔

    ایسا اس لئے کیوں کہ ڈاکیومینٹ فریکوئینسی زیادہ ہونے کی صورت میں سرچنگ ڈومین پھیل جاتا ہے۔ مثلاً

    اگر لائبریرین کو آپ یہ کہیں کہ کمپیوٹر موضوع پر کوئی کتاب دیجئے تو اس کے سامنے سب سے بڑا مسئلہ یہ ہوگا کہ کمپیوٹر سے متعلق 500 کتابیں بھری پڑی ہیں۔ ان میں سے آپ کو کون سی کتاب دے۔ وہیں اگر 2-4 کتابیں ہوتیں تو یہ مسئلہ آسان تھا۔ اس پر لائبریرین کا جواب یہ ہو سکتا ہے کہ جناب کمپیوٹر تو بہت وسیع علاقہ رکھتا ہے آپ کچھ مزید اختصاص کریں موضوع کی۔ پھر مان لیجئے آپ کہتے ہیں کہ کمپیوٹر آرکیٹیکچر پر کوئی کتاب دیجئے اب لائبریرین کے لئے آسانی ہو جاتی ہے کہ اس کے پاس اس موضوع پر صرف 15 کتابیں ہیں۔ اس طرح کیٹیگورائزیشن کے لئے کمپیوٹر آرکیٹیکچر ایک اچھی کیٹیگری ثابت ہو سکتی ہے۔

    اسی الٹی صفت کے ناطے ہم انورس ڈاکیومینٹ فریکوئنسی نکالتے ہیں۔ اب اگر ہم انورس کرنے کے لئے نسبت کو الٹ دیتے ہیں یعنی تو نسبت کی قدر 1 سے زیادہ ہو جائے گی جو ہم ناملائزڈ چاہتے ہیں۔ لہٰذا اس ماحصل کا log لے لیتے ہیں۔

    مثلاً اوپر کی مثال میں
    IDF = log 100000/500


    حاصل شدہ قدر کو انورس ڈاکیومینٹ فریکوئینسی کہتے ہیں۔

    امید ہے کہ یہ مراسلہ مفید ہوگا۔ کوئی دقت پیش آئے تو ضرور پوچھئے گا۔

    --
    سعود ابن سعید
     
    • پسندیدہ پسندیدہ × 2
  17. ابن سعید

    ابن سعید خادم

    مراسلے:
    60,165
    ٹرم فریکوئینسی-انورس ڈاکیومینٹ فریکوئینسی (ٹی ایف - آئی ڈی ایف)

    اوپر کی مثالوں سے واضح ہے کہ لفظ ار ڈاکیومینٹ کے باہمی تعلق کی اہمیت کے لئے ٹرم فریکوئینسی اور انورس ڈاکیومینٹ فریکوئینسی دونوں ہی ضروری اجزا ہیں۔ لہٰذا ٹی ایف - آئی ڈی ایف قدر نکالنے کے لئے دونوں کے حاصل شدہ کو ضرب کر دیتے ہیں۔ اس طرح ٹی ایف - آئی ڈی ایف کی قدر بھی ہمیشہ 0 اور 1 کے درمیان ہی رہتی ہے۔

    ٹی ایف - آئی ڈی ایف کا استعمال ویکٹر اسپیس ماڈل میں کیسے کریں گے اس پر بحث انشاء اللہ اگلی نشست میں کرتے ہیں۔

    والسلام

    --
    سعود ابن سعید
     
    • پسندیدہ پسندیدہ × 1
  18. دوست

    دوست محفلین

    مراسلے:
    13,076
    جھنڈا:
    Germany
    موڈ:
    Fine
    ابن سعید اس کے لیے کوئی کتاب ریکمنڈ کیجیے۔ ڈیٹا مائننگ پڑھنے والی چیز لگتی ہے۔
    وسلام
     
  19. ابن سعید

    ابن سعید خادم

    مراسلے:
    60,165
    جی بہتر شاکر بھائی!

    ڈاٹا مائننگ زمرے کی کئی کتابیں اس (غیر قانونی) ربط پر دستیاب ہیں۔ یہاں سے عنوان اور مختصر بیان دیکھ کر اپنے لئے کتابوں کا انتخاب کر سکتے ہیں۔ ویسے آج ہی اس ربط پر جانا ہوا اور وہاں موجو دا ٹیکسٹ مائننگ ہینڈ بک کافی پسند آئی۔

    ڈاٹا مائننگ چونکہ ان دنوں ریسرچ کا بہترین ایریا شمار ہوتا ہے اس لئے اس کی بے شمار تکنیکوں سے متعلق ریسرچ پیپرس خاصی مقدار میں دستیاب ہیں۔ کسی بھی اسکالر پیپر انڈیکسنگ کی سائٹ ملاحظہ فرما لیں۔
     
    • پسندیدہ پسندیدہ × 2
  20. shine

    shine محفلین

    مراسلے:
    10
    سعود

    ٹیکسٹ ما ننگ والے تبصرے میں سے کچھ سوال ہیں-
    ٹیکسٹ ٹیگز کیا ہوتے ہیں اور ان کو ختم کیسے کرتے ہیں ٹیکسٹ ما ننگ میں؟
    ڈاکومینٹ کی رینکنگ سے کیا مراد ہے اور ٹرم فریکوئینسی اور انورس ڈاکیومینٹ فریکوئینسی سے کیسےرینکنگ کرتے ہیں؟
    کیا رینکنگ ڈاکومینٹ کو لیبل دینا ایک ہی با ت ہے؟
    ویکٹر سپیس ما ڈل ھوتا کیا ہے؟
    ویکٹر سپیس ما ڈل میں ٹرم فریکوئینسی اور انورس ڈاکیومینٹ فریکوئینسی کو کیسے یوز کرتے ہیں؟
     
    • پسندیدہ پسندیدہ × 1

اس صفحے کی تشہیر