ریشهیابی در متون فارسی با بهرهگیری از یک ریشهیاب آماری مبتنی بر مدل مخفی مارکوف
با گسترش کاربرد زبان در سیستمهای رایانهای، نیاز به پردازش متون در این سیستمها احساس میشود، از جمله این نرم افزارها میتوان به موتورهای جستجو، برنامه خلاصه متن و استخراج کلمات کلیدی متن اشاره کرد. الگوریتمهای ریشهیابی یکی از پیشپردازشهای ضروری ایجاد این نرمافزارها میباشد . در دهه اخیر تلاش هایی برای رسمی کردن قواعد فارسی صورت گرفته است. از آنجایی که رسمی کردن قواعد زبان فارسی از قدمت چندانی برخوردار نیست، در نتیجه توسعه سیستمهای ریشهیاب نیز کاری نوپاست.
اغلب ریشهیابهای موجود نیز مبتنی بر ساختار زبان هستند . نامشخص بودن قواعد زبان فارسی از یک سو و وجود استثناهای بسیار زیاد موجود از سوی دیگر منجر شده است ریشهیابهای ساختارگرا از دقت بالایی برخوردار نباشند ، به علاوه در این روشها، ریشهیابی کلمات فارسی نیاز به دانش تخصصی قواعد ریختشناسی فارسی دارد که عملی دشوار و تخصصی است.
از سوی دیگر ، ریشهیابهای مبتنی بر لغتنامه نیاز به بهروزرسانی دارد که دارای هزینه بالایی است. در مقابل، ریشهیابهای آماری با استفاده از اطلاعات محدودی از یک زبان (آموزش)، به ریشهیابی لغات می پردازد. این روش نیاز به دانش تخصصی زبان فارسی ندارد و به ساختار ریختشناسی زبان وابسته نیست
با استفاده از روشها و اصول آماری میتوان شکل و ساختار کلمات و قوانین حاکم بر آنها را از یک مجموعه کلمات استنتاج کرد. مدل پنهان مارکوف، مدلی آماریست که به دلیل دارا بودن ساختار ریاضی بسیار قوی بعنوان يك روش مرسوم و معتبر براي بازشناسي الگو و مدلسازي در گستره وسيعي از كاربردها قابل بهره گيری می باشد. در این پژوهش سعی شده است با بهکارگیری مدل مخفی مارکوف، ریشهیابی طراحی شود که نیاز به دانش تخصصی و تسلط بر قوانین ریختشناسی زبان فارسی نداشته باشد، از طرفی برای غلبه بر مشکلات استثناهای زیان فارسی نیز، لغتنامهای ایجاد شده است که اکثر موارد استثنایی زبان فارسی را شامل میشود و منجر به افزایش دقت سیستم بازیابی اطلاعات میگردد. از ویژگیهای دیگر روش پیشنهادی کاهش حجم فایل نمایه به مقدار قابل قبول و دارا بودن سرعت مناسب است.
محتویات تحقیق
نحوه عملکرد کلی سیستم ریشهیاب فارسی بر اساس مدل مخفی مارکوف
فرایند ایجاد ساختار ریشهیاب فارسی پیشنهادی با بهرهگیری از مدل مخفی مارکوف
مرحله آموزش
مرحله آزمون
معیارهای ارزیابی
مجموعه داده مورد استفاده
نتایج حاصل از ارزیابی ریشهیاب بر مجموعه کلمات فارسی بیجنخان
نتایج ارزیابی ریشهیاب مبتنی بر مدل مخفی مارکوف در مجموعه همشهری
مراجع
مشخصات تحقیق
تعداد صفحات:35
فرمت: PDF
قیمت : 200000 ریال
