ریشه یابی متون فارسی در بازیابی اطلاعات

به عمل استخراج ریشه‌های اصلی یک کلمه ریشه‌یابی می‌گویند. الگوریتم‌‌های ریشه‌یابی به منظور کاهش فرم‌های مختلف کلمات و به دست آوردن ریخت یکسانی به نام ریشه استفاده می شود. همچنین عمليات ریشه‌یابی برای دسته‌بندی كلمات درگروه‌های یکسان ازنظرساختاری صورت می‌گيرد. ریشه‌یابی باعث افزایش کارایی سیستم بازیابی اطلاعات است. زیرا اشتقاقات مختلف یک کلمه به ریشه‌ی آن کلمه تبديل شده و درنتیجه جستجو بر اساس ریشه‌ی کلمه انجام خواهد شد، سرعت سیستم بازیابی افزایش یافته و اندازه‌ی فایل نمایه کاهش می‌یابد.

پیچیدگی قواعد ریخت‌شناسی زبان فارسی از یک سو و استثناهای موجود در این زبان از سوی دیگر، ریشه‌یابی زبان فارسی را امری دشوار نموده است. بررسی فنی ایده‌های مورد استفاده در ریشه‌یاب‌های موجود، نشانگر آن است که می‌توان رویکردهای موجود رابه سه گروه طبقه‌بندی نمود: ریشه‌یاب‌های ساختارگرا، ریشه‌یاب‌های مبتنی بر لغت‌نامه و ریشه‌یاب‌های آماری. ریشه‌یاب‌های ساختارگرا، عمل ریشه‌یابی را با استفاده از تعدادی قوانین از پیش تعیین شده انجام می‌دهند. این نوع ریشه‌یاب‌ها وابسته به زبان و خبرگی شخصی است که آن را ایجاد کرده است. پیچیدگی زمانی این ریشه‌یاب‌ها بالاست. اکثر ریشه‌یاب‌های فارسی موجود از این دسته هستند. دسته دوم ، الگوریتم‌های ریشه‌یابی مبتنی بر لغت نامه هستند . این الگوریتم‌ها از درصد موفقیت بالایی برخوردارند. اما توانایی دسته بندی کلمات در گروه‌های معنایی یکسان را ندارند. همچنین این نوع ریشه‌یاب‌ها ایستا هستند، در حالی که زبان ساختاری کاملا پویا دارد. ریشه‌یاب‌های مبتنی بر لغت‌نامه نیاز به به‌روزرسانی دارد که دارای هزینه زمانی بالایی است. دسته سوم، ریشه‌یابی به کمک روش‌های آماری است. ریشه‌یاب‌های آماری با استفاده از اطلاعات محدودی از یک زبان (آموزش)، به ریشه‌یابی لغات می پردازد.این روش نیاز به دانش تخصصی ندارد و به ساختار ریخت‌شناسی زبان وابسته نیست

در این تحقیق، کاربرد ریشه‌یاب‌ها‌ در سیستم بازیابی اطلاعات، خلاصه‌سازی متن و پردازش زبان طبیعی مورد بررسی قرار گرفت. همچنین ریشه‌یاب‌های فارسی موجود، مورد مطالعه و بررسی دقیق قرار گرفت. اکثر ریشه‌یاب های موجود در زبان فارسی ساختارگرا هستند که نیاز به تسلط فراوان بر قوانین ریخت‌شناسی دارند. تعداد معدودی از ریشه‌یاب‌ها مبتنی بر لغت‌نامه و دو مورد از آن‌ها، ریشه‌یاب آماری هستند. همچنین در این پژوهش چالش‌های موجود در ریشه‌یاب‌های فارسی، مورد مطالعه قرار گرفته است.

محتویات تحقیق

  • تعریف ریشه یابی
  • معماری سیستم ریشه یابی متون فارسی
  • چالش‌های ریشه‌یابی متون فارسی
  • کاربردهای ریشه‌یابی
  • دسته‌بندی روش‌های رایج در ریشه‌یابی متون فارسی

مشخصات تحقیق

تعداد صفحه: 19
فرمت: PDF