ریشه یابی متون فارسی در حوزه بازیابی اطلاعات
به عمل استخراج ریشههای اصلی یک کلمه ریشهیابی میگویند. الگوریتمهای ریشهیابی به منظور کاهش فرمهای مختلف کلمات و به دست آوردن ریخت یکسانی به نام ریشه استفاده می شود. همچنین عمليات ریشهیابی برای دستهبندی كلمات درگروههای یکسان ازنظرساختاری صورت میگيرد. ریشهیابی باعث افزایش کارایی سیستم بازیابی اطلاعات است. زیرا اشتقاقات مختلف یک کلمه به ریشهی آن کلمه تبديل شده و درنتیجه جستجو بر اساس ریشهی کلمه انجام خواهد شد، سرعت سیستم بازیابی افزایش یافته و اندازهی فایل نمایه کاهش مییابد.
پیچیدگی قواعد ریختشناسی زبان فارسی از یک سو و استثناهای موجود در این زبان از سوی دیگر، ریشهیابی زبان فارسی را امری دشوار نموده است. بررسی فنی ایدههای مورد استفاده در ریشهیابهای موجود، نشانگر آن است که میتوان رویکردهای موجود رابه سه گروه طبقهبندی نمود: ریشهیابهای ساختارگرا، ریشهیابهای مبتنی بر لغتنامه و ریشهیابهای آماری. ریشهیابهای ساختارگرا، عمل ریشهیابی را با استفاده از تعدادی قوانین از پیش تعیین شده انجام میدهند. این نوع ریشهیابها وابسته به زبان و خبرگی شخصی است که آن را ایجاد کرده است. پیچیدگی زمانی این ریشهیابها بالاست. اکثر ریشهیابهای فارسی موجود از این دسته هستند. دسته دوم ، الگوریتمهای ریشهیابی مبتنی بر لغت نامه هستند . این الگوریتمها از درصد موفقیت بالایی برخوردارند. اما توانایی دسته بندی کلمات در گروههای معنایی یکسان را ندارند. همچنین این نوع ریشهیابها ایستا هستند، در حالی که زبان ساختاری کاملا پویا دارد. ریشهیابهای مبتنی بر لغتنامه نیاز به بهروزرسانی دارد که دارای هزینه زمانی بالایی است. دسته سوم، ریشهیابی به کمک روشهای آماری است. ریشهیابهای آماری با استفاده از اطلاعات محدودی از یک زبان (آموزش)، به ریشهیابی لغات می پردازد.این روش نیاز به دانش تخصصی ندارد و به ساختار ریختشناسی زبان وابسته نیست
در این تحقیق، کاربرد ریشهیابها در سیستم بازیابی اطلاعات، خلاصهسازی متن و پردازش زبان طبیعی مورد بررسی قرار گرفت. همچنین ریشهیابهای فارسی موجود، مورد مطالعه و بررسی دقیق قرار گرفت. اکثر ریشهیاب های موجود در زبان فارسی ساختارگرا هستند که نیاز به تسلط فراوان بر قوانین ریختشناسی دارند. تعداد معدودی از ریشهیابها مبتنی بر لغتنامه و دو مورد از آنها، ریشهیاب آماری هستند. همچنین در این پژوهش چالشهای موجود در ریشهیابهای فارسی، مورد مطالعه قرار گرفته است.
