ریشه‌یابی در متون فارسی با بهره‌گیری از یک ریشه‌یاب آماری مبتنی بر مدل مخفی مارکوف

با گسترش کاربرد زبان در سیستم‌های رایانه‌ای، نیاز به پردازش متون در این سیستم‌ها احساس می‌شود، از جمله این نرم افزارها می‌توان به موتورهای جستجو، برنامه خلاصه متن و استخراج کلمات کلیدی متن اشاره کرد. الگوریتم‌های ریشه‌یابی یکی از پیش‌پردازش‌های ضروری ایجاد این نرم‌‌افزارها می‌باشد . در دهه اخیر تلاش هایی برای رسمی کردن قواعد فارسی صورت گرفته است. از آنجایی که رسمی کردن قواعد زبان فارسی از قدمت چندانی برخوردار نیست، در نتیجه توسعه سیستم‌های ریشه‌یاب نیز کاری نوپاست.
اغلب ریشه‌یابهای موجود نیز مبتنی بر ساختار زبان هستند . نامشخص بودن قواعد زبان فارسی از یک سو و وجود استثناهای بسیار زیاد موجود از سوی دیگر منجر شده است ریشه‌یاب‌های ساختارگرا از دقت بالایی برخوردار نباشند ، به علاوه در این روش‌ها، ریشه‌یابی کلمات فارسی نیاز به دانش تخصصی قواعد ریخت‌شناسی فارسی دارد که عملی دشوار و تخصصی است.
از سوی دیگر ، ریشه‌یابهای مبتنی بر لغت‌نامه نیاز به به‌روزرسانی دارد که دارای هزینه بالایی است. در مقابل، ریشه‌یاب‌های آماری با استفاده از اطلاعات محدودی از یک زبان (آموزش)، به ریشه‌یابی لغات می پردازد. این روش نیاز به دانش تخصصی زبان فارسی ندارد و به ساختار ریخت‌شناسی زبان وابسته نیست
با استفاده از روش‌ها و اصول آماری می‌توان شکل و ساختار کلمات و قوانین حاکم بر آن‌ها را از یک مجموعه کلمات استنتاج کرد. مدل پنهان مارکوف، مدلی آماریست که به دلیل دارا بودن ساختار ریاضی بسیار قوی بعنوان يك روش مرسوم و معتبر براي بازشناسي الگو و مدلسازي در گستره وسيعي از كاربردها قابل بهره گيری می باشد. در این پژوهش سعی شده است با به‌کارگیری مدل مخفی مارکوف، ریشه‌یابی طراحی شود که نیاز به دانش تخصصی و تسلط بر قوانین ریخت‌شناسی زبان فارسی نداشته باشد، از طرفی برای غلبه بر مشکلات استثناهای زیان فارسی نیز، لغت‌نامه‌ای ایجاد شده است که اکثر موارد استثنایی زبان فارسی را شامل می‌شود و منجر به افزایش دقت سیستم بازیابی اطلاعات می‌گردد. از ویژگی‌های دیگر روش پیشنهادی کاهش حجم فایل نمایه به مقدار قابل قبول و دارا بودن سرعت مناسب است.

محتویات تحقیق
نحوه عملکرد کلی سیستم ریشه‌یاب فارسی بر اساس مدل مخفی مارکوف
فرایند ایجاد ساختار ریشه‌یاب فارسی پیشنهادی با بهره‌گیری از مدل مخفی مارکوف
مرحله آموزش
مرحله آزمون
معیارهای ارزیابی
مجموعه داده مورد استفاده
نتایج حاصل از ارزیابی ریشه‌یاب بر مجموعه کلمات فارسی بیجن‌خان
نتایج ارزیابی ریشه‌یاب مبتنی بر مدل مخفی مارکوف در مجموعه همشهری
مراجع

مشخصات تحقیق
تعداد صفحات:35
فرمت: PDF
قیمت : 200000 ریال

 

ریشه یابی متون فارسی در حوزه بازیابی اطلاعات

به عمل استخراج ریشه‌های اصلی یک کلمه ریشه‌یابی می‌گویند. الگوریتم‌‌های ریشه‌یابی به منظور کاهش فرم‌های مختلف کلمات و به دست آوردن ریخت یکسانی به نام ریشه استفاده می شود. همچنین عمليات ریشه‌یابی برای دسته‌بندی كلمات درگروه‌های یکسان ازنظرساختاری صورت می‌گيرد. ریشه‌یابی باعث افزایش کارایی سیستم بازیابی اطلاعات است. زیرا اشتقاقات مختلف یک کلمه به ریشه‌ی آن کلمه تبديل شده و درنتیجه جستجو بر اساس ریشه‌ی کلمه انجام خواهد شد، سرعت سیستم بازیابی افزایش یافته و اندازه‌ی فایل نمایه کاهش می‌یابد.

پیچیدگی قواعد ریخت‌شناسی زبان فارسی از یک سو و استثناهای موجود در این زبان از سوی دیگر، ریشه‌یابی زبان فارسی را امری دشوار نموده است. بررسی فنی ایده‌های مورد استفاده در ریشه‌یاب‌های موجود، نشانگر آن است که می‌توان رویکردهای موجود رابه سه گروه طبقه‌بندی نمود: ریشه‌یاب‌های ساختارگرا، ریشه‌یاب‌های مبتنی بر لغت‌نامه و ریشه‌یاب‌های آماری. ریشه‌یاب‌های ساختارگرا، عمل ریشه‌یابی را با استفاده از تعدادی قوانین از پیش تعیین شده انجام می‌دهند. این نوع ریشه‌یاب‌ها وابسته به زبان و خبرگی شخصی است که آن را ایجاد کرده است. پیچیدگی زمانی این ریشه‌یاب‌ها بالاست. اکثر ریشه‌یاب‌های فارسی موجود از این دسته هستند. دسته دوم ، الگوریتم‌های ریشه‌یابی مبتنی بر لغت نامه هستند . این الگوریتم‌ها از درصد موفقیت بالایی برخوردارند. اما توانایی دسته بندی کلمات در گروه‌های معنایی یکسان را ندارند. همچنین این نوع ریشه‌یاب‌ها ایستا هستند، در حالی که زبان ساختاری کاملا پویا دارد. ریشه‌یاب‌های مبتنی بر لغت‌نامه نیاز به به‌روزرسانی دارد که دارای هزینه زمانی بالایی است. دسته سوم، ریشه‌یابی به کمک روش‌های آماری است. ریشه‌یاب‌های آماری با استفاده از اطلاعات محدودی از یک زبان (آموزش)، به ریشه‌یابی لغات می پردازد.این روش نیاز به دانش تخصصی ندارد و به ساختار ریخت‌شناسی زبان وابسته نیست

در این تحقیق، کاربرد ریشه‌یاب‌ها‌ در سیستم بازیابی اطلاعات، خلاصه‌سازی متن و پردازش زبان طبیعی مورد بررسی قرار گرفت. همچنین ریشه‌یاب‌های فارسی موجود، مورد مطالعه و بررسی دقیق قرار گرفت. اکثر ریشه‌یاب های موجود در زبان فارسی ساختارگرا هستند که نیاز به تسلط فراوان بر قوانین ریخت‌شناسی دارند. تعداد معدودی از ریشه‌یاب‌ها مبتنی بر لغت‌نامه و دو مورد از آن‌ها، ریشه‌یاب آماری هستند. همچنین در این پژوهش چالش‌های موجود در ریشه‌یاب‌های فارسی، مورد مطالعه قرار گرفته است.

محتویات تحقیق

تعریف ریشه یابی

معماری سیستم ریشه یابی متون فارسی

چالش‌های ریشه‌یابی متون فارسی

کاربردهای ریشه‌یابی

دسته‌بندی روش‌های رایج در ریشه‌یابی متون فارسی