基于圖知識(shí)庫(kù)的分布式信息檢索集合選擇方法
本文關(guān)鍵詞:基于圖知識(shí)庫(kù)的分布式信息檢索集合選擇方法 出處:《浙江大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 分布式信息檢索 集合選擇 知識(shí)庫(kù) 查詢擴(kuò)展 排序?qū)W習(xí)
【摘要】:集合選擇旨在選擇少數(shù)的信息集合,其對(duì)于提高信息檢索引擎的效率至關(guān)重要。目前,大多數(shù)集合選擇方法使用中心樣本集作為集合的描述信息。然而,這些方法僅使用樣本文檔的"形態(tài)句法"信息對(duì)集合進(jìn)行建模,無(wú)法準(zhǔn)確表示集合語(yǔ)義信息。因此,本文提出一種基于圖知識(shí)庫(kù)的集合選擇方法(KBCS),使用加權(quán)的實(shí)體詞表示集合的語(yǔ)義信息。首先,基于DBpedia圖知識(shí)庫(kù),采用上下文相關(guān)度和結(jié)構(gòu)相關(guān)度計(jì)算集合樣本文檔中任意一對(duì)實(shí)體詞之間的語(yǔ)義距離,再度量實(shí)體詞在集合中的權(quán)重。然后,綜合考慮集合大小、集合實(shí)體詞權(quán)重、查詢實(shí)體詞權(quán)重和實(shí)體詞詞頻等因素,計(jì)算查詢與集合的相關(guān)度。最后,基于相關(guān)度評(píng)分對(duì)集合進(jìn)行排序,選擇排名靠前的若干集合。此外,針對(duì)原始查詢中實(shí)體詞較少的問題,集成一種基于DBpedia的查詢擴(kuò)展方法。針對(duì)傳統(tǒng)查詢與集合相關(guān)度度量方法的局限性,采用LambdaMART排序?qū)W習(xí)算法,綜合考慮多種相關(guān)度度量方法的度量結(jié)果,通過學(xué)習(xí)建立合理的集合排序模型。為了評(píng)估KBCS的有效性,本文選擇ReDDE、CRCS和DLCS方法作為基準(zhǔn)方法,并在海量網(wǎng)頁(yè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)對(duì)比。實(shí)驗(yàn)結(jié)果表明本文提出的方法具有顯著的性能優(yōu)勢(shì)。
[Abstract]:Set selection is designed to select a small number of information sets, which is essential to improve the efficiency of the information retrieval engine. At present, most set selection methods use the center sample set as the description information of the set. However, these methods only use the "morphological syntactic" information of the sample document to model the set, and can not accurately represent the semantic information of the collection. Therefore, this paper proposes a set selection method based on graph knowledge base (KBCS), which uses weighted entity words to represent the semantic information of the set. First, based on the DBpedia graph knowledge base, we use context correlation and structural correlation to calculate the semantic distance between any pair of entity words in a set of sample documents, and re measure the weight of entity words in the set. Then, the correlation between the query and the set is calculated by considering the set size, the weight of the aggregate entity word, the weight of the query entity word and the word frequency of the entity word. Finally, the set is sorted based on the correlation score, and a number of sets are selected before the ranking. In addition, a query extension method based on DBpedia is integrated to solve the problem of less entity words in the original query. Aiming at the limitation of traditional query and set correlation metric, we use LambdaMART ranking learning algorithm to consider the measurement results of various correlation measures, and establish a reasonable set sort model through learning. In order to evaluate the effectiveness of KBCS, this paper selects the ReDDE, CRCS and DLCS methods as the benchmark method, and compares the experiment with the massive web data set. The experimental results show that the proposed method has significant performance advantages.
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 林智勇;帶約束集合劃分優(yōu)化問題及其求解[J];計(jì)算機(jī)工程與科學(xué);2005年07期
2 高尚;侯志遠(yuǎn);;集合劃分問題的蟻群算法[J];航空計(jì)算技術(shù);2006年02期
3 陳艷華;伊波;崔艷玲;李紅宇;;集合劃分的深層結(jié)構(gòu)的計(jì)算機(jī)輔助研究[J];電腦開發(fā)與應(yīng)用;2008年07期
4 牟廉明;;有限集合劃分的快速生成算法[J];內(nèi)江師范學(xué)院學(xué)報(bào);2009年10期
5 高尚;候志遠(yuǎn);;集合劃分問題的粒子群優(yōu)化算法[J];江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年06期
6 吳兆福;;基于沖突關(guān)系的集合劃分分類[J];電腦學(xué)習(xí);2007年01期
7 吳貞東;向生建;曾德勝;;一種多維集合劃分負(fù)載均衡資源優(yōu)化分配算法[J];計(jì)算機(jī)應(yīng)用;2007年05期
8 劉蕾;魯華祥;;集合劃分問題的分布估計(jì)求解[J];計(jì)算機(jī)工程與應(yīng)用;2009年10期
9 季鴻;王志剛;夏慧明;;差異演化算法求解集合劃分問題[J];價(jià)值工程;2012年06期
10 付尚樸;集合劃分的特征函數(shù)及其應(yīng)用[J];重慶師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2002年03期
相關(guān)碩士學(xué)位論文 前4條
1 韓保禮;基于圖知識(shí)庫(kù)的分布式信息檢索集合選擇方法[D];浙江大學(xué);2017年
2 吳凡;有關(guān)交叉與覆蓋的研究[D];大連理工大學(xué);2014年
3 張素芳;基于集合劃分的非線性積分及其在決策樹算法中的應(yīng)用[D];河北大學(xué);2006年
4 魏q,
本文編號(hào):1347596
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1347596.html