چکیده :

با توجه به گسترش روزافزون اطلاعات و وجود حجم انبوه متون غيرساخت¬يافته، استفاده از کلمات کليدي نقش مهمی در بازيابي اطلاعات دارد. این درحالی است که استخراج کلمات کلیدی به¬صورت دستی مشکلات زیادی دارد. بنابرین استخراج کلمات کلیدی به¬صورت خودکار از نیازهای ضروری تکنولوژی امروزه می¬باشد. در این پژوهش سعي شده با استفاده از اصطلاح¬نامه که از نظامي ساختارمند برخوردار است، کلمات کليدي بامعناتري از متون استخراج نمود و توسط آن¬ها طبقه¬بندی متون فارسی را بهبود بخشید. مراحلی که برای افزایش جامعیت جستجو باید سپری شود به این صورت است که در مرحله اول کلمات زائد حذف و باقی کلمات ریشه¬یابی می¬شود. سپس با کمک اصطلاح¬نامه کلمات هم¬معنی، اعم¬ها و اخص¬ها و همچنین وابسته¬ها پیدا می¬شوند و در ادامه برای مشخص شدن اهميت نسبي کلمات يک وزن عددي به هر کلمه منسوب مي‌گردد که بيان¬گر ميزان تاثير کلمه در ارتباط با موضوع متن و درمقايسه با ساير کلمات به¬کار رفته در متن است‌. با توجه به مراحل فوق و با کمک اصطلاح¬نامه طبقه¬بندی متون دقيق¬تر انجام می¬گيرد. در این روش از الگوریتم نزدیکترین همسایه (KNN) برای طبقه¬بندی استفاده می¬شود. الگوریتم KNN به¬خاطر سادگي و مؤثر بودن آن در طبقه¬بندي متون بسيار به¬كار برده مي¬شود. مبناي كار اين الگوريتم، مقايسه متن تست داده شده با متون آموزشي داده شده و به¬دست آوردن ميزان شباهت بين آن¬ها مي¬باشد. نتايج آزمايش‌ها برروي چندين متن در موضوع¬های مختلف نشان¬دهنده دقت و توانايي روش پيشنهادي در استخراج کلمات کليدي منطبق با خواست کاربر است و در نتيجه طبقه¬بندی دقيق¬تر متون مي¬باشد.

کلید واژگان :

اصطلاح¬نامه، بازیابی اطلاعات، استخراج کلمات کليدي، وزن¬دهی.



ارزش ریالی : 600000 ریال
دریافت مقاله
با پرداخت الکترونیک