正負(fù)相關(guān)反饋與查詢擴(kuò)展技術(shù)的研究
本文選題:信息檢索 + 相關(guān)反饋 ; 參考:《內(nèi)蒙古大學(xué)》2012年博士論文
【摘要】:信息獲取在人們的工作、生活等各種活動(dòng)中占有重要的地位,獲取信息的渠道和方法是多種多樣的。隨著計(jì)算機(jī)網(wǎng)絡(luò)、移動(dòng)通信和全球信息化的快速發(fā)展,通過(guò)Web網(wǎng)絡(luò)和搜索引擎獲得信息已成為人們的生活和工作習(xí)慣,是獲取信息的重要方法之一。信息分布廣泛、形態(tài)多樣、組織開放、管理松散、更新快、變化快、傳輸快等多種因素致使信息檢索難度加大。人們對(duì)信息檢索從結(jié)果、效率和方式都提出了更高、更多樣化的要求,這些特性和需求對(duì)信息檢索提出了更大的挑戰(zhàn)。搜索引擎必須有強(qiáng)大的、先進(jìn)的信息檢索技術(shù)支撐,才能更好的滿足用戶的要求。 通常用戶對(duì)信息需求的表達(dá)不夠準(zhǔn)確和清晰,往往只是幾個(gè)單詞,經(jīng)常得不到滿意的檢索結(jié)果。通過(guò)反饋擴(kuò)展查詢模型是一種常用的和有效的提高檢索性能的策略,因此擴(kuò)展查詢和反饋技術(shù)一直是信息檢索領(lǐng)域中研究的重點(diǎn)之一。大量的有關(guān)這方面的研究工作主要集中在相關(guān)反饋和偽相關(guān)反饋方面,近幾年開始關(guān)注負(fù)反饋的研究。但在語(yǔ)言模型框架下的正反饋與負(fù)反饋相結(jié)合的模型的研究在SIGIR中還不曾見到。本文以正負(fù)反饋模型為研究核心,圍繞該核心對(duì)其模型框架、正負(fù)反饋的自動(dòng)識(shí)別、模型參數(shù)動(dòng)態(tài)調(diào)整、多主題反饋等展開研究工作,并取得了以下主要成果。 (1)正負(fù)反饋模型框架:基于已有的相關(guān)反饋、偽相關(guān)反饋和負(fù)反饋的研究基礎(chǔ),提出了一種基于語(yǔ)言模型的正負(fù)反饋相結(jié)合的檢索模型框架,相關(guān)反饋、偽相關(guān)反饋和負(fù)反饋等模型均是該模型的特例。正反饋增強(qiáng)放大查詢信息,負(fù)反饋有效地抑制查詢?cè)胍襞c正反饋內(nèi)含噪音,有效地提高了檢索性能。在平均查準(zhǔn)率和前10個(gè)文檔的查準(zhǔn)率方面都超過(guò)了偽相關(guān)反饋模型和相關(guān)反饋模型,和偽相關(guān)反饋模型相比大幅地減少了受損的查詢數(shù)量,提高了魯棒性。 正負(fù)反饋模型參數(shù)的動(dòng)態(tài)調(diào)整:正負(fù)反饋模型是由查詢、正反饋和負(fù)反饋三種成分通過(guò)線性插入法混合而成,任何一種混合成分的檢索模型其檢索結(jié)果對(duì)各成分比例系數(shù)是比較敏感的。針對(duì)正負(fù)反饋模型提出了兩種簡(jiǎn)單、可行而有效的動(dòng)態(tài)調(diào)整參數(shù)的算法,一種是依據(jù)不相關(guān)文檔的比例計(jì)算法,一種通過(guò)訓(xùn)練集學(xué)習(xí)參數(shù)值發(fā),從而進(jìn)一步提高了正負(fù)反饋模型的檢索性能。 (2)聚類區(qū)分相關(guān)和不相關(guān)文檔:在分析top k文檔中相關(guān)與不相關(guān)文檔的分布特點(diǎn)的基礎(chǔ)上,通過(guò)理論分析和實(shí)驗(yàn)發(fā)現(xiàn)密度聚類算法能夠很好地識(shí)別孤立的不相關(guān)文檔,對(duì)密度聚類算法DBSCAN進(jìn)行改進(jìn),以72%以上的準(zhǔn)確率和32%的查全率發(fā)現(xiàn)top k中的不相關(guān)文檔,以54%以上的準(zhǔn)確率和87%以上的查全率發(fā)現(xiàn)top k中的相關(guān)文檔。將top k分為兩個(gè)集合,連通集合和孤立點(diǎn)集合,把它們分別做為正負(fù)反饋模型中的正、負(fù)反饋,檢索性能遠(yuǎn)超于偽相關(guān)反饋。 (3)用多主題域改進(jìn)偽相關(guān)反饋模型:提出了一種新的應(yīng)用多主題域信息改進(jìn)偽相關(guān)反饋的模型,重構(gòu)查詢是由原查詢、top k和多主題域中的top s組成,能夠有效地改進(jìn)偽相關(guān)反饋的檢索性能。該方法能夠應(yīng)用于個(gè)性化檢索中。
[Abstract]:Information acquisition plays an important role in people's work, life and other activities. The channels and methods of obtaining information are varied. With the rapid development of computer network, mobile communication and global information, obtaining information through Web network and search engine has become a habit of people's life and work, and it is a heavy information acquisition. One of the methods is that information is widely distributed, the form is diverse, the organization is open, the management is loose, the update is fast, the change is fast, the transmission is fast and so on, which makes the information retrieval more difficult. People have put forward higher and more samples from the results, efficiency and ways of information retrieval, and these characteristics and requirements put forward more challenges to information retrieval. Search engine must have strong and advanced information retrieval technology to support users in order to better meet the requirements.
Generally, the expression of the user's information requirement is not accurate and clear, often only a few words, often without satisfactory retrieval results. Through feedback extending the query model is a common and effective strategy to improve the retrieval performance. Therefore, the extended query and feedback technology has always been one of the key points in the field of information retrieval. The research work on this aspect is mainly focused on the related feedback and pseudo correlation feedback. In recent years, the research on negative feedback has been concerned. However, the research on the combination of positive feedback and negative feedback in the framework of language model has not been seen in SIGIR. The research has been carried out in the framework of automatic recognition of positive and negative feedback, dynamic adjustment of model parameters, and multi topic feedback, and the following main achievements have been achieved.
(1) the framework of positive and negative feedback model: Based on the related feedback, pseudo correlation feedback and negative feedback, a retrieval model framework based on positive and negative feedback based on language model is proposed. Correlation feedback, pseudo correlation feedback and negative feedback are all special examples of the model. Positive feedback enhancement amplification query information, negative feedback The query noise and positive feedback noise are effectively suppressed, and the retrieval performance is effectively improved. The average precision and the precision of the first 10 documents are more than the pseudo correlation feedback model and the correlation feedback model. Compared with the pseudo correlation feedback model, the number of damaged inquiries is greatly reduced and the robustness is improved.
The dynamic adjustment of the parameters of the positive and negative feedback model: the positive and negative feedback model is composed of three components: query, positive feedback and negative feedback. The retrieval results of any kind of mixed component are sensitive to the proportion coefficient of each component. Two simple, feasible and effective methods are proposed for the positive and negative feedback model. The algorithm for dynamic adjustment of parameters is based on the proportional calculation method of unrelated documents, and a training set is used to learn the value of parameters, thus further improving the retrieval performance of the positive and negative feedback model.
(2) clustering correlation and unrelated documents: on the basis of analyzing the distribution characteristics of related and unrelated documents in top k documents, the density clustering algorithm can identify isolated unrelated documents well through theoretical analysis and experiment, and improve the density clustering algorithm DBSCAN with more than 72% accuracy and 32% recall. The unrelated documents in the present top k are found in the relevant documents in top k with more than 54% accuracy and more than 87% recall. The top k is divided into two sets, connected sets and outlier sets, and they are respectively used as positive and negative feedback in the positive and negative feedback model, and the retrieval performance is far more than pseudo correlation feedback.
(3) using multi topic domain to improve pseudo correlation feedback model: a new model for applying multi topic domain information to improve pseudo correlation feedback is proposed. The reconfigurable query is composed of the original query, top k and the top s in the multi topic domain. It can effectively improve the retrieval performance of pseudo correlation feedback. This method can be applied to personalized retrieval.
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李波;邱錫鵬;曹均闊;;查詢擴(kuò)展在開放領(lǐng)域問答系統(tǒng)中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用與軟件;2009年07期
2 嚴(yán)華云;劉其平;肖良軍;;信息檢索中的相關(guān)反饋技術(shù)綜述[J];計(jì)算機(jī)應(yīng)用研究;2009年01期
3 王瑞琴;孔繁勝;;基于查詢擴(kuò)展和詞義消歧的語(yǔ)義檢索[J];情報(bào)學(xué)報(bào);2010年01期
4 徐建民;崔琰;劉清江;;基于同義詞關(guān)系改進(jìn)的局部共現(xiàn)查詢擴(kuò)展[J];情報(bào)雜志;2010年09期
5 李衛(wèi)疆;趙鐵軍;王憲剛;;基于統(tǒng)計(jì)機(jī)器翻譯模型的查詢擴(kuò)展[J];電子與信息學(xué)報(bào);2008年03期
6 黃名選;張師超;嚴(yán)小衛(wèi);;基于查詢行為和關(guān)聯(lián)規(guī)則的相關(guān)反饋查詢擴(kuò)展[J];計(jì)算機(jī)工程;2009年10期
7 萬(wàn)常選;魯遠(yuǎn);;基于用戶相關(guān)反饋的帶結(jié)構(gòu)語(yǔ)義的XML查詢?cè)~擴(kuò)展[J];情報(bào)學(xué)報(bào);2009年03期
8 劉建榮;翟雪榮;趙曉鵬;;基于同義詞和關(guān)聯(lián)規(guī)則的查詢擴(kuò)展模型[J];福建電腦;2010年05期
9 孟祥娜;秦玉平;;一種基于分類和語(yǔ)義查詢擴(kuò)展的信息檢索方法[J];信息技術(shù);2010年09期
10 黃名選;張師超;;一種有效的信息檢索模型[J];計(jì)算機(jī)應(yīng)用研究;2008年08期
相關(guān)會(huì)議論文 前10條
1 鐘敏娟;萬(wàn)常選;;基于偽反饋的XML查詢擴(kuò)展[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
2 馬云龍;林鴻飛;;基于權(quán)重標(biāo)準(zhǔn)化SimRank方法的查詢擴(kuò)展技術(shù)研究[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
3 黃明初;鐘威;何擁軍;蒙斌;;基于查詢擴(kuò)展的數(shù)字檔案檢索策略[A];廣西計(jì)算機(jī)學(xué)會(huì)2010年學(xué)術(shù)年會(huì)論文集[C];2010年
4 張志強(qiáng);孟慶海;謝曉芹;;個(gè)性化的社會(huì)標(biāo)簽查詢擴(kuò)展技術(shù)研究[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集A輯二[C];2010年
5 呂碧波;趙軍;;基于相關(guān)文檔池建模的查詢擴(kuò)展[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
6 李東園;白宇;蔡?hào)|風(fēng);;基于用戶日志分析的查詢擴(kuò)展研究[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年
7 陳憶群;曹瑾音;印鑒;;查詢擴(kuò)展樹:關(guān)系數(shù)據(jù)庫(kù)中的文本檢索[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
8 周斌;劉茂福;陳建勛;;IR4QA系統(tǒng)中基于維基百科的查詢擴(kuò)展[A];第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2010年
9 吳京慧;余珊珊;王明文;;基于用戶日志聚類的查詢擴(kuò)展模型[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
10 黃名選;;基于正負(fù)關(guān)聯(lián)規(guī)則挖掘的局部反饋查詢擴(kuò)展[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
相關(guān)重要報(bào)紙文章 前10條
1 遼寧 鳴澗;網(wǎng)絡(luò)常見文件格式[N];電腦報(bào);2001年
2 本報(bào)記者 賈婧;書生SEP:全面e化傳統(tǒng)紙張[N];科技日?qǐng)?bào);2006年
3 北京大學(xué) 王萬(wàn)平;支持質(zhì)量保證的協(xié)同開發(fā)環(huán)境[N];中國(guó)計(jì)算機(jī)報(bào);2007年
4 曉蕙;PLM實(shí)現(xiàn)精益化管理[N];科技日?qǐng)?bào);2008年
5 壽棟邋芯語(yǔ);揭開企業(yè)搜索的技術(shù)面紗[N];計(jì)算機(jī)世界;2008年
6 ;打印機(jī):創(chuàng)新不斷[N];中國(guó)計(jì)算機(jī)報(bào);2003年
7 記者林秋培;摩托羅拉要做“軟件新巨人”[N];中國(guó)企業(yè)報(bào);2002年
8 孫t;Google股價(jià)直奔600美元/股大關(guān)[N];第一財(cái)經(jīng)日?qǐng)?bào);2007年
9 駱衛(wèi)華 劉群 張俊林;搜索引擎:性能提高遇到瓶頸[N];計(jì)算機(jī)世界;2006年
10 ;看紐約地鐵建設(shè)的信息化管理[N];建筑時(shí)報(bào);2008年
相關(guān)博士學(xué)位論文 前10條
1 仲兆滿;事件本體及其在查詢擴(kuò)展中的應(yīng)用[D];上海大學(xué);2011年
2 王俊義;正負(fù)相關(guān)反饋與查詢擴(kuò)展技術(shù)的研究[D];內(nèi)蒙古大學(xué);2012年
3 鐘敏娟;基于檢索結(jié)果聚類的XML偽反饋技術(shù)研究[D];江西財(cái)經(jīng)大學(xué);2012年
4 王秉卿;基于機(jī)器學(xué)習(xí)的查詢優(yōu)化研究[D];復(fù)旦大學(xué);2012年
5 王樹梅;信息檢索相關(guān)技術(shù)研究[D];南京理工大學(xué);2007年
6 朱鯤鵬;基于Web日志挖掘的智能信息檢索研究[D];哈爾濱工業(yè)大學(xué);2009年
7 王秀娟;文本檢索中若干問題研究[D];北京郵電大學(xué);2006年
8 王瑞琴;基于語(yǔ)義處理技術(shù)的信息檢索模型研究[D];浙江大學(xué);2009年
9 張毅波;史文結(jié)構(gòu)化信息檢索系統(tǒng)的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)院研究生院(軟件研究所);2001年
10 蒲強(qiáng);基于獨(dú)立分量分析的語(yǔ)義聚類技術(shù)在信息檢索中的應(yīng)用研究[D];電子科技大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 王水利;基于互信息的語(yǔ)義查詢擴(kuò)展技術(shù)研究[D];河南科技大學(xué);2011年
2 賈淑芳;基于用戶日志聚類的查詢擴(kuò)展[D];北京郵電大學(xué);2010年
3 崔琰;基于用戶興趣及術(shù)語(yǔ)關(guān)系的查詢擴(kuò)展方法[D];河北大學(xué);2011年
4 方勇;基于語(yǔ)義的信息檢索方法研究與應(yīng)用[D];浙江大學(xué);2010年
5 劉清江;同義詞在文本特征提取與查詢擴(kuò)展中的應(yīng)用[D];河北大學(xué);2010年
6 于水;專利術(shù)語(yǔ)知識(shí)庫(kù)的建立與應(yīng)用[D];沈陽(yáng)航空工業(yè)學(xué)院;2010年
7 方芳;中文信息檢索系統(tǒng)與文檔重排技術(shù)研究[D];武漢科技大學(xué);2010年
8 范丹;Web檢索中的查詢擴(kuò)展及結(jié)果聚類技術(shù)研究[D];遼寧師范大學(xué);2010年
9 周劍烽;基于語(yǔ)義本體的信息檢索方法的研究[D];杭州電子科技大學(xué);2010年
10 趙春輝;基于關(guān)聯(lián)規(guī)則挖掘的查詢擴(kuò)展[D];河南大學(xué);2011年
,本文編號(hào):1987267
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1987267.html