基于圖結(jié)構(gòu)的多關(guān)鍵字查詢技術(shù)研究
本文關(guān)鍵詞:基于圖結(jié)構(gòu)的多關(guān)鍵字查詢技術(shù)研究
更多相關(guān)文章: 圖 關(guān)鍵字查詢 哈希 索引 LDA模型
【摘要】:近十幾年來(lái),由于互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)上的信息呈爆炸式的增長(zhǎng),如何在如此巨大的數(shù)據(jù)中找出我們所感興趣的信息便成了迫不及待需要解決的問(wèn)題。在這種情況下,搜索引擎應(yīng)運(yùn)而生。而關(guān)鍵字查詢是搜索引擎中最常用的一種機(jī)制。本文首先討論了圖數(shù)據(jù)的存儲(chǔ)及處理,包括運(yùn)用開(kāi)源框架Neo4j圖數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)的存儲(chǔ),運(yùn)用K2樹(shù)來(lái)存儲(chǔ)圖的鄰接矩陣,以及基于r半徑對(duì)大數(shù)據(jù)圖進(jìn)行劃分,之后基于K-means對(duì)子圖進(jìn)行聚類等操作。其次,對(duì)處理好的子圖的文本信息進(jìn)行分詞、去停用詞,提取特征,根據(jù)排序函數(shù)對(duì)其進(jìn)行打分后,構(gòu)建倒排索引。本文使用simhash對(duì)倒排索引表進(jìn)行hash處理,映射成多個(gè)索引表,并且運(yùn)用LDA(Latent Dirichlet Allocation)主題模型對(duì)查詢所得結(jié)果進(jìn)行關(guān)于主題的過(guò)濾,使得結(jié)果更貼合用戶的查詢需求。本論文的主要貢獻(xiàn)在于:第一,提出了一種文本與結(jié)構(gòu)相結(jié)合的圖相似性計(jì)算方法,充分考慮了不同節(jié)點(diǎn)的文本之間的相似性,使得圖相似性計(jì)算更加的合理準(zhǔn)確;第二,運(yùn)用simhash對(duì)倒排表進(jìn)行哈希操作,以減少用戶查詢時(shí)比對(duì)的次數(shù)和時(shí)間,提高效率;第三,提出使用LDA模型對(duì)初步查詢結(jié)果進(jìn)行過(guò)濾,獲得更符合用戶查詢意圖的結(jié)果。實(shí)驗(yàn)表明本系統(tǒng)可以使用戶快速地通過(guò)關(guān)鍵字查詢到想要的信息,并且得到的結(jié)果更符合用戶的查詢本意。
【關(guān)鍵詞】:圖 關(guān)鍵字查詢 哈希 索引 LDA模型
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【目錄】:
- 摘要4-5
- abstract5-8
- 第一章 緒論8-11
- 1.1 研究背景和意義8-9
- 1.2 論文的主要研究?jī)?nèi)容9
- 1.3 論文的結(jié)構(gòu)安排9-11
- 第二章 相關(guān)背景知識(shí)介紹11-21
- 2.1 關(guān)系數(shù)據(jù)庫(kù)上關(guān)鍵字查詢11-12
- 2.2 圖上關(guān)鍵字查詢12-18
- 2.2.1 基于動(dòng)態(tài)規(guī)劃的圖上關(guān)鍵字查詢12-13
- 2.2.2 基于r半徑Steiner圖的圖上關(guān)鍵字查詢13-15
- 2.2.3 基于反向搜索的圖上關(guān)鍵字查詢15-17
- 2.2.4 基于雙向搜索的圖上關(guān)鍵字查詢17-18
- 2.3 LDA模型簡(jiǎn)介18-20
- 2.4 本章小結(jié)20-21
- 第三章 圖數(shù)據(jù)的存儲(chǔ)及處理21-33
- 3.1 圖數(shù)據(jù)的存儲(chǔ)21-26
- 3.1.1 圖數(shù)據(jù)庫(kù)Neo4j21-23
- 3.1.2 基于K2樹(shù)的圖鄰接矩陣存儲(chǔ)23-26
- 3.2 圖劃分26-28
- 3.2.1 基于r半徑的數(shù)據(jù)圖劃分26-28
- 3.3 圖聚類28-32
- 3.3.1 基于文本和結(jié)構(gòu)相結(jié)合的圖相似性計(jì)算29-30
- 3.3.2 基于K-means算法聚類子圖30-32
- 3.4 本章小結(jié)32-33
- 第四章 索引及查詢33-44
- 4.1 特征提取33-34
- 4.1.1 文本分詞及去停用詞33
- 4.1.2 特征選取33-34
- 4.2 倒排索引34-38
- 4.2.1 傳統(tǒng)的倒排索引34-36
- 4.2.2 基于simhash的倒排索引36-38
- 4.3 排序函數(shù)38-41
- 4.3.1 TF-IDF39-40
- 4.3.2 基于內(nèi)容和結(jié)構(gòu)混合的排序40-41
- 4.4 基于LDA模型的查詢結(jié)果過(guò)濾41-43
- 4.5 本章小結(jié)43-44
- 第五章 實(shí)驗(yàn)與分析44-55
- 5.1 原型系統(tǒng)的設(shè)計(jì)44-45
- 5.1.1 系統(tǒng)設(shè)計(jì)目標(biāo)44
- 5.1.2 系統(tǒng)框架設(shè)計(jì)44-45
- 5.2 系統(tǒng)實(shí)現(xiàn)45-50
- 5.2.1 系統(tǒng)開(kāi)發(fā)工具45
- 5.2.2 主要模塊設(shè)計(jì)45-50
- 5.3 實(shí)驗(yàn)分析50-54
- 5.3.1 實(shí)驗(yàn)數(shù)據(jù)50
- 5.3.2 實(shí)驗(yàn)評(píng)估標(biāo)準(zhǔn)50
- 5.3.3 效率對(duì)比50-52
- 5.3.4 準(zhǔn)確率52-54
- 5.4 本章小結(jié)54-55
- 第六章 總結(jié)與展望55-57
- 6.1 工作總結(jié)55
- 6.2 展望55-57
- 參考文獻(xiàn)57-60
- 附錄1 攻讀碩士學(xué)位期間撰寫的論文60-61
- 附錄2 攻讀碩士學(xué)位期間參加的科研項(xiàng)目61-62
- 致謝62
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王煥景;李明;;“關(guān)鍵字查詢”教學(xué)設(shè)計(jì)[J];中國(guó)教育技術(shù)裝備;2007年12期
2 宋玉玲;王寧;;利用實(shí)體語(yǔ)義信息的關(guān)鍵字查詢結(jié)果多樣化[J];計(jì)算機(jī)科學(xué)與探索;2014年03期
3 陳子軍;周同;劉文遠(yuǎn);;面向集合和方向的空間關(guān)鍵字查詢[J];小型微型計(jì)算機(jī)系統(tǒng);2014年05期
4 任建華;周建;孟祥福;魏珂;;基于關(guān)鍵字之間結(jié)構(gòu)關(guān)系的XML查詢結(jié)果排序方法[J];計(jì)算機(jī)科學(xué);2013年06期
5 黃靜;陸嘉恒;孟小峰;;高效的XML關(guān)鍵字查詢改寫和結(jié)果生成技術(shù)[J];計(jì)算機(jī)研究與發(fā)展;2010年05期
6 王金寶;高宏;李建中;楊東華;;RB樹(shù):一種支持空間近似關(guān)鍵字查詢的外存索引[J];計(jì)算機(jī)研究與發(fā)展;2012年10期
7 周軍鋒;孟小峰;;XML關(guān)鍵字查詢處理研究[J];計(jì)算機(jī)學(xué)報(bào);2012年12期
8 吳海濤;;一種改進(jìn)的XML關(guān)鍵字查詢算法[J];南京工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年02期
9 李艷紅;李國(guó)徽;張聰;;路網(wǎng)中空間關(guān)鍵字連續(xù)k近鄰查詢算法研究[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年12期
10 劉琰;周理;;基于VLCA的關(guān)鍵字查詢匹配算法[J];科學(xué)技術(shù)與工程;2008年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前5條
1 謝濤;王曉玲;歐陽(yáng)樹(shù)生;周傲英;;XML關(guān)鍵字檢索的最低公共祖先快速查找方法[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年
2 黃靜;陸嘉恒;孟小峰;;高效的XML關(guān)鍵字查詢改寫和結(jié)果生成技術(shù)[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年
3 方非;朱皓;楊衛(wèi)東;;基于結(jié)構(gòu)摘要的XML關(guān)鍵字檢索[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
4 黃靜;徐俊勁;周軍鋒;孟小峰;;MLCEA:一種基于實(shí)體的XML關(guān)鍵字查詢語(yǔ)義[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年
5 王小鋒;張新;謝敏;孟小峰;周軍鋒;;XML數(shù)據(jù)流上的關(guān)鍵字查詢[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 張晨靜;XML關(guān)鍵字過(guò)濾技術(shù)[D];復(fù)旦大學(xué);2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 張丹婷;基于事前約束的XML關(guān)鍵字查詢處理研究[D];燕山大學(xué);2015年
2 林健;云環(huán)境下支持隱私保護(hù)的動(dòng)態(tài)模糊多關(guān)鍵字排列查詢方法研究[D];東北大學(xué);2014年
3 張舒;基于r-clique的不確定RDF關(guān)鍵字查詢研究[D];東北大學(xué);2014年
4 崔清娟;已知社交的Top-k空間關(guān)鍵字查詢[D];燕山大學(xué);2016年
5 方海林;面向LBS的近鄰及反近鄰空間關(guān)鍵字查詢研究[D];蘇州大學(xué);2016年
6 楊韻碩;模糊關(guān)鍵字可搜索加密算法的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2016年
7 張宇晨;基于圖結(jié)構(gòu)的多關(guān)鍵字查詢技術(shù)研究[D];南京郵電大學(xué);2016年
8 李赫;個(gè)人數(shù)據(jù)空間管理系統(tǒng)關(guān)鍵字查詢的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2012年
9 周月;關(guān)鍵字查詢性能優(yōu)化研究[D];天津大學(xué);2012年
10 付顏勝;面向集合的空間關(guān)鍵字查詢方法研究[D];燕山大學(xué);2012年
,本文編號(hào):531603
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/531603.html