ریشه‌یابی در متون فارسی با بهره‌گیری از یک ریشه‌یاب آماری مبتنی بر مدل مخفی مارکوف

با گسترش کاربرد زبان در سیستم‌های رایانه‌ای، نیاز به پردازش متون در این سیستم‌ها احساس می‌شود، از جمله این نرم افزارها می‌توان به موتورهای جستجو، برنامه خلاصه متن و استخراج کلمات کلیدی متن اشاره کرد. الگوریتم‌های ریشه‌یابی یکی از پیش‌پردازش‌های ضروری ایجاد این نرم‌‌افزارها می‌باشد . در دهه اخیر تلاش هایی برای رسمی کردن قواعد فارسی صورت گرفته است. از آنجایی که رسمی کردن قواعد زبان فارسی از قدمت چندانی برخوردار نیست، در نتیجه توسعه سیستم‌های ریشه‌یاب نیز کاری نوپاست.
اغلب ریشه‌یابهای موجود نیز مبتنی بر ساختار زبان هستند . نامشخص بودن قواعد زبان فارسی از یک سو و وجود استثناهای بسیار زیاد موجود از سوی دیگر منجر شده است ریشه‌یاب‌های ساختارگرا از دقت بالایی برخوردار نباشند ، به علاوه در این روش‌ها، ریشه‌یابی کلمات فارسی نیاز به دانش تخصصی قواعد ریخت‌شناسی فارسی دارد که عملی دشوار و تخصصی است.
از سوی دیگر ، ریشه‌یابهای مبتنی بر لغت‌نامه نیاز به به‌روزرسانی دارد که دارای هزینه بالایی است. در مقابل، ریشه‌یاب‌های آماری با استفاده از اطلاعات محدودی از یک زبان (آموزش)، به ریشه‌یابی لغات می پردازد. این روش نیاز به دانش تخصصی زبان فارسی ندارد و به ساختار ریخت‌شناسی زبان وابسته نیست
با استفاده از روش‌ها و اصول آماری می‌توان شکل و ساختار کلمات و قوانین حاکم بر آن‌ها را از یک مجموعه کلمات استنتاج کرد. مدل پنهان مارکوف، مدلی آماریست که به دلیل دارا بودن ساختار ریاضی بسیار قوی بعنوان يك روش مرسوم و معتبر براي بازشناسي الگو و مدلسازي در گستره وسيعي از كاربردها قابل بهره گيری می باشد. در این پژوهش سعی شده است با به‌کارگیری مدل مخفی مارکوف، ریشه‌یابی طراحی شود که نیاز به دانش تخصصی و تسلط بر قوانین ریخت‌شناسی زبان فارسی نداشته باشد، از طرفی برای غلبه بر مشکلات استثناهای زیان فارسی نیز، لغت‌نامه‌ای ایجاد شده است که اکثر موارد استثنایی زبان فارسی را شامل می‌شود و منجر به افزایش دقت سیستم بازیابی اطلاعات می‌گردد. از ویژگی‌های دیگر روش پیشنهادی کاهش حجم فایل نمایه به مقدار قابل قبول و دارا بودن سرعت مناسب است.

محتویات تحقیق
نحوه عملکرد کلی سیستم ریشه‌یاب فارسی بر اساس مدل مخفی مارکوف
فرایند ایجاد ساختار ریشه‌یاب فارسی پیشنهادی با بهره‌گیری از مدل مخفی مارکوف
مرحله آموزش
مرحله آزمون
معیارهای ارزیابی
مجموعه داده مورد استفاده
نتایج حاصل از ارزیابی ریشه‌یاب بر مجموعه کلمات فارسی بیجن‌خان
نتایج ارزیابی ریشه‌یاب مبتنی بر مدل مخفی مارکوف در مجموعه همشهری
مراجع

مشخصات تحقیق
تعداد صفحات:35
فرمت: PDF
قیمت : 200000 ریال