基于數(shù)據(jù)集特征的偽相關反饋中平衡參數(shù)自調(diào)節(jié)方法研究
本文選題:信息檢索 切入點:偽相關反饋 出處:《天津大學》2016年碩士論文 論文類型:學位論文
【摘要】:隨著互聯(lián)網(wǎng)技術的迅速發(fā)展,網(wǎng)上文本數(shù)量呈指數(shù)級增長,如何有效檢索這些海量信息成為當前重要的研究課題。文本信息檢索是處理海量文本的重要手段。文本信息檢索是指從大量文檔集合中找到與給定的查詢請求相關的、恰當數(shù)目的文檔子集。面對龐大的文本信息,各種檢索模型被相繼提出,而其中最有效的一種就是偽相關反饋(PRF)模型。偽相關反饋已經(jīng)被證明是一種有效提高文本檢索性能的方法,并且被廣泛使用。對于偽相關反饋來講,如何選擇原始查詢與擴展查詢詞之間的平衡參數(shù)是一項重要但卻困難的工作。傳統(tǒng)方法中,平衡參數(shù)在不同的數(shù)據(jù)集和不同的查詢詞中通常被設置成相同的經(jīng)驗值。然而由于數(shù)據(jù)集之間、查詢詞之間都各不相同,為了提升檢索效果,該平衡參數(shù)應該有所不同。近期有研究提出了基于機器學習的方法,通過分析基于查詢詞和反饋文檔的特征來預測該平衡參數(shù)。本文中,考慮到數(shù)據(jù)集的差異同樣會影響到平衡參數(shù)的選擇,我們提出了基于數(shù)據(jù)集的三類特征,包括查詢詞的信息含量,反饋文檔和擴展詞的可靠性。本文基于上述三大類特征,通過邏輯回歸和交叉驗證的方法,自適應的預測偽相關反饋中的平衡參數(shù)。首先分析了研究背景意義、國內(nèi)外研究現(xiàn)狀以及主要探究內(nèi)容;接著介紹了文本信息檢索、檢索模型等信息檢索的相關知識;之后詳細介紹了偽相關反饋的相關技術;在詳細描述了三大類特征之后,介紹了整個實驗的流程以及實驗結果。實驗結果表明我們提出的方法與之前的研究相比,在提高檢索性能方面有著一定的優(yōu)勢。
[Abstract]:With the rapid development of Internet technology, the number of online texts has increased exponentially. How to effectively retrieve these massive information has become an important research topic at present. Text information retrieval is an important means to deal with massive text. Text information retrieval refers to finding out from a large number of document sets related to a given query request. Appropriate number of document subsets. In the face of large text information, various retrieval models have been proposed one after another. One of the most effective is the pseudo-correlation feedback (PRF) model, which has been proved to be an effective method to improve the performance of text retrieval and is widely used. How to select the balance parameters between the original query and the extended query is an important but difficult task. The balance parameter is usually set to the same empirical value in different data sets and different query terms. However, because the query terms differ from one data set to another, in order to improve the retrieval effect, This balance parameter should be different. Recently, a machine learning based approach has been proposed to predict the balance parameter by analyzing the features of query words and feedback documents. Considering that differences in data sets also affect the selection of equilibrium parameters, we propose three types of features based on data sets, including the information content of query words, the reliability of feedback documents and extension words. Through the methods of logical regression and cross validation, the equilibrium parameters in pseudo-correlation feedback are predicted adaptively. Firstly, the significance of the research background, the current research situation at home and abroad and the main contents of the research are analyzed, and then the text information retrieval is introduced. The related knowledge of information retrieval, such as retrieval model, and the related technology of pseudo-correlation feedback are introduced in detail. After describing the three kinds of features in detail, The experimental results show that the proposed method has some advantages in improving retrieval performance compared with previous research.
【學位授予單位】:天津大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.3
【相似文獻】
相關期刊論文 前10條
1 嚴鳳斌;邰海軍;李會剛;;標準數(shù)據(jù)集合的分析與設計[J];科技廣場;2010年01期
2 董璇;蔡立軍;;基于不平衡類數(shù)據(jù)集分類的空間插值方法[J];計算機仿真;2012年12期
3 張諍;王惠文;;大規(guī)模復雜數(shù)據(jù)集的約簡方法[J];計算機工程;2010年23期
4 ;拒絕數(shù)字化[J];每周電腦報;1999年03期
5 呂海燕;李華偉;呂紅;方霞;;元數(shù)據(jù)注冊系統(tǒng)中數(shù)據(jù)集分類在衛(wèi)生信息系統(tǒng)中的應用[J];計算技術與自動化;2011年03期
6 顧靜秋;吳華瑞;朱華吉;;數(shù)據(jù)集濃縮研究綜述[J];計算機應用與軟件;2012年10期
7 趙成龍;陳樂義;張冉;李紅;;一種快速有效處理數(shù)據(jù)集分類問題的新算法[J];山東科技大學學報(自然科學版);2006年04期
8 張宏基;李文中;陸桑璐;;基于異步信息的匿名移動數(shù)據(jù)集的用戶身份識別[J];計算機科學;2013年11期
9 李芳芳;田志軍;;數(shù)據(jù)庫快速查詢方法研究與應用[J];微電子學與計算機;2012年03期
10 趙國強;王會進;;一種用于大規(guī)模數(shù)據(jù)集的決策樹采樣策略[J];微型機與應用;2010年21期
相關會議論文 前10條
1 許曉峰;金澈清;高明;周傲英;;面向大型數(shù)據(jù)集合的關鍵分類查找算法[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年
2 馬垣;崔麗;劉鴻雁;梁材;;關系中的概念與命題[A];第十七屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2000年
3 郭景峰;杜京;馬倩;鄒曉紅;;一種基于數(shù)據(jù)集性質(zhì)的快速等差模式聚類算法[A];第二十五屆中國數(shù)據(jù)庫學術會議論文集(二)[C];2008年
4 向堅;俞堅;葉綠;;一種高效的大規(guī)模RFID數(shù)據(jù)集合清理方法[A];第六屆全國信息獲取與處理學術會議論文集(3)[C];2008年
5 盧建松;曹慶華;傅翠嬌;;探究Delphi平臺下處理.NET Web Service返回數(shù)據(jù)集的方法[A];2007北京地區(qū)高校研究生學術交流會通信與信息技術會議論文集(上冊)[C];2008年
6 張路;袁曉潔;劉芳;竇志成;;大規(guī)模數(shù)據(jù)集的分布式索引機制研究[A];2008年全國開放式分布與并行計算機學術會議論文集(下冊)[C];2008年
7 于愛榮;劉曉明;曹雷;王俊;;NET Web Services數(shù)據(jù)集在Delphi中的處理與研究[A];中國航空學會信號與信息處理專業(yè)全國第八屆學術會議論文集[C];2004年
8 王加陽;;動態(tài)約簡抽樣分析[A];2006年全國理論計算機科學學術年會論文集[C];2006年
9 ;前言[A];第五屆全國信息檢索學術會議論文集[C];2009年
10 閆昱;何守才;;Web信息檢索中的超連接分析[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2001年
相關重要報紙文章 前5條
1 李開鵬 溫德成;SPSS:質(zhì)量信息管理的助手[N];中國質(zhì)量報;2005年
2 記者 王慧 實習生 阿柔娜;首府專利信息檢索對外開放日活動首次開啟[N];呼和浩特日報(漢);2010年
3 朱華順 東莞理工學院圖書館館員;高!靶畔z索”課:培養(yǎng)讀者以最少時間和精力獲取信息[N];中國圖書商報;2013年
4 梅竹;清華摘取國際信息檢索比賽兩項桂冠[N];計算機世界;2002年
5 清華大學計算機系智能技術與系統(tǒng)國家重點實驗室 張敏 金奕江;“海”中撈“珍”[N];計算機世界;2003年
相關博士學位論文 前10條
1 王海濤;基于大規(guī)模文本數(shù)據(jù)集的相似檢測關鍵技術研究[D];吉林大學;2016年
2 申彥;大規(guī)模數(shù)據(jù)集高效數(shù)據(jù)挖掘算法研究[D];江蘇大學;2013年
3 唐勤;非均衡數(shù)據(jù)分類算法及其在助學貸款風險管理中的應用研究[D];華中科技大學;2012年
4 谷瓊;面向非均衡數(shù)據(jù)集的機器學習及在地學數(shù)據(jù)處理中的應用[D];中國地質(zhì)大學;2009年
5 于澝;基于一維SOM神經(jīng)網(wǎng)絡的聚類及數(shù)據(jù)分析方法研究[D];天津大學;2009年
6 彭濤;基于特征和實例的海量數(shù)據(jù)約簡方法研究[D];華中科技大學;2011年
7 花妍;具有語義一致性的跨模態(tài)關聯(lián)學習與信息檢索[D];北京郵電大學;2015年
8 黎志升;地理信息檢索若干技術研究[D];中國科學技術大學;2009年
9 王修力;基于描述復雜性的信息檢索理論與若干模型研究[D];北京語言大學;2006年
10 林古立;互聯(lián)網(wǎng)信息檢索中的多樣化排序研究及應用[D];華南理工大學;2011年
相關碩士學位論文 前10條
1 孟燁;基于數(shù)據(jù)集特征的偽相關反饋中平衡參數(shù)自調(diào)節(jié)方法研究[D];天津大學;2016年
2 李建勛;基于模糊聚類分析的數(shù)據(jù)異常知識發(fā)現(xiàn)方法[D];哈爾濱工業(yè)大學;2015年
3 俞闖;半監(jiān)督學習中不平衡數(shù)據(jù)集分類研究[D];大連理工大學;2015年
4 周維潔;基于智能手機的車輛彎道識別與相對定位的研究[D];黑龍江大學;2015年
5 楊寶栓;基于顯露模式的早期網(wǎng)癮行為檢測模型的研究與實現(xiàn)[D];東北大學;2013年
6 鄒珈璇;一種RDF數(shù)據(jù)集的摘要工具的設計與實現(xiàn)[D];南京大學;2013年
7 李悅;大規(guī)模數(shù)據(jù)集關聯(lián)關系并行發(fā)現(xiàn)與優(yōu)化方法研究[D];北方工業(yè)大學;2016年
8 王躍;基于遷移學習的半監(jiān)督聚類及其并行化實現(xiàn)[D];西南交通大學;2016年
9 孫子川;微博垃圾博主的行為分析與檢測[D];西南交通大學;2016年
10 肖雪平;面向大規(guī)模數(shù)據(jù)集的自適應聚類算法并行化研究[D];曲阜師范大學;2016年
,本文編號:1604416
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1604416.html