مشخصات فایل
زبان : انگلیسی

تعداد صفحه : 9

فرمت : PDF

رشته: مهندسی نرم افزار

تاریخ انتشار: 2017
Document Language Models, Query Models, and Risk Minimization for Information Retrieval

Abstract

ABSTRACT We present a framework for information retrieval that combines document models and query models using a probabilistic ranking function based on Bayesian decision theory. The framework suggests an operational retrieval model that extends recent developments in the language modeling approach to information retrieval. A language model for each document is estimated, as well as a language model for each query, and the retrieval problem is cast in terms of risk minimization. The query language model can be exploited to model user preferences, the context of a query, synonomy and word senses. While recent work has incorporated word translation models for this purpose, we introduce a new method using Markov chains defined on a set of documents to estimate the query models. The Markov chain method has connections to algorithms from link analysis and social networks. The new approach is evaluated on TREC collections and compared to the basic language modeling approach and vector space models together with query expansion using Rocchio. Significant improvements are obtained over standard query expansion methods for strong baseline TF-IDF systems, with the greatest improvements attained for short queries on Web data.

ترجمه متن

مدل های زبانی اسناد، مدل های پرس جو وکمینه سازی ریسک در بازیابی اطلاعات

چکیده

ما چارچوبی برای بازیابی اطلاعات ارائه می کنیم که مدل های سند و پرس و جو را با استفاده از تابع رتبه بندی احتمال، در تئوری تصمیم بیزین ترکیب می کند. این چارچوب یک مدل بازیابی عملیاتی را پیشنهاد می کند که پیشرفت های جدیدی را در رویکرد مدلسازی زبانی بازیابی اطلاعات، توسعه می دهد. برای هر سند و پرس و جو، یک مدل زبانی تخمین زده می شود و مساله بازیابی به کمینه سازی ریسک تبدیل می شود. مدل زبانی پرس و جو می تواند در مدل ترجیحی کاربر، محتوای یک پرس و جو، مضمون و مترادف یک کلمه به کار برده شود.
در حالی که کارهای اخیر از مدل های ترجمه کلمه برای این هدف استفاده می کنند، ما از روش زنجیره مارکوف که بر مجموعه ای از اسناد تعریف شده، برای تخمین مدل های پرس و جو استفاده کردیم. روش زنجیره مارکوف، به الگوریتم هایی از آنالیز لینک و شبکه های اجتماعی مرتبط است. این رویکرد جدید در مجموعه TREC ارزیابی شد و با رویکرد مدل های زبانی پایه و مدل های فضای برداری با توسعه پرس و جو که از Rocchio استفاده می کند، مقایسه شد. بهبودهای مهمی در روش های توسعه پرس و جوی استاندارد برای سیستم های TF-IDF قوی، به دست آمد، همچنین بیشترین بهبودها در پرس و جوهای کوتاه در داده های وب به دست آمد.