天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于圖結(jié)構(gòu)的多關(guān)鍵字查詢技術(shù)研究

發(fā)布時(shí)間:2017-07-07 20:05

  本文關(guān)鍵詞:基于圖結(jié)構(gòu)的多關(guān)鍵字查詢技術(shù)研究


  更多相關(guān)文章: 關(guān)鍵字查詢 哈希 索引 LDA模型


【摘要】:近十幾年來(lái),由于互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)上的信息呈爆炸式的增長(zhǎng),如何在如此巨大的數(shù)據(jù)中找出我們所感興趣的信息便成了迫不及待需要解決的問(wèn)題。在這種情況下,搜索引擎應(yīng)運(yùn)而生。而關(guān)鍵字查詢是搜索引擎中最常用的一種機(jī)制。本文首先討論了圖數(shù)據(jù)的存儲(chǔ)及處理,包括運(yùn)用開(kāi)源框架Neo4j圖數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)的存儲(chǔ),運(yùn)用K2樹(shù)來(lái)存儲(chǔ)圖的鄰接矩陣,以及基于r半徑對(duì)大數(shù)據(jù)圖進(jìn)行劃分,之后基于K-means對(duì)子圖進(jìn)行聚類等操作。其次,對(duì)處理好的子圖的文本信息進(jìn)行分詞、去停用詞,提取特征,根據(jù)排序函數(shù)對(duì)其進(jìn)行打分后,構(gòu)建倒排索引。本文使用simhash對(duì)倒排索引表進(jìn)行hash處理,映射成多個(gè)索引表,并且運(yùn)用LDA(Latent Dirichlet Allocation)主題模型對(duì)查詢所得結(jié)果進(jìn)行關(guān)于主題的過(guò)濾,使得結(jié)果更貼合用戶的查詢需求。本論文的主要貢獻(xiàn)在于:第一,提出了一種文本與結(jié)構(gòu)相結(jié)合的圖相似性計(jì)算方法,充分考慮了不同節(jié)點(diǎn)的文本之間的相似性,使得圖相似性計(jì)算更加的合理準(zhǔn)確;第二,運(yùn)用simhash對(duì)倒排表進(jìn)行哈希操作,以減少用戶查詢時(shí)比對(duì)的次數(shù)和時(shí)間,提高效率;第三,提出使用LDA模型對(duì)初步查詢結(jié)果進(jìn)行過(guò)濾,獲得更符合用戶查詢意圖的結(jié)果。實(shí)驗(yàn)表明本系統(tǒng)可以使用戶快速地通過(guò)關(guān)鍵字查詢到想要的信息,并且得到的結(jié)果更符合用戶的查詢本意。
【關(guān)鍵詞】: 關(guān)鍵字查詢 哈希 索引 LDA模型
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【目錄】:
  • 摘要4-5
  • abstract5-8
  • 第一章 緒論8-11
  • 1.1 研究背景和意義8-9
  • 1.2 論文的主要研究?jī)?nèi)容9
  • 1.3 論文的結(jié)構(gòu)安排9-11
  • 第二章 相關(guān)背景知識(shí)介紹11-21
  • 2.1 關(guān)系數(shù)據(jù)庫(kù)上關(guān)鍵字查詢11-12
  • 2.2 圖上關(guān)鍵字查詢12-18
  • 2.2.1 基于動(dòng)態(tài)規(guī)劃的圖上關(guān)鍵字查詢12-13
  • 2.2.2 基于r半徑Steiner圖的圖上關(guān)鍵字查詢13-15
  • 2.2.3 基于反向搜索的圖上關(guān)鍵字查詢15-17
  • 2.2.4 基于雙向搜索的圖上關(guān)鍵字查詢17-18
  • 2.3 LDA模型簡(jiǎn)介18-20
  • 2.4 本章小結(jié)20-21
  • 第三章 圖數(shù)據(jù)的存儲(chǔ)及處理21-33
  • 3.1 圖數(shù)據(jù)的存儲(chǔ)21-26
  • 3.1.1 圖數(shù)據(jù)庫(kù)Neo4j21-23
  • 3.1.2 基于K2樹(shù)的圖鄰接矩陣存儲(chǔ)23-26
  • 3.2 圖劃分26-28
  • 3.2.1 基于r半徑的數(shù)據(jù)圖劃分26-28
  • 3.3 圖聚類28-32
  • 3.3.1 基于文本和結(jié)構(gòu)相結(jié)合的圖相似性計(jì)算29-30
  • 3.3.2 基于K-means算法聚類子圖30-32
  • 3.4 本章小結(jié)32-33
  • 第四章 索引及查詢33-44
  • 4.1 特征提取33-34
  • 4.1.1 文本分詞及去停用詞33
  • 4.1.2 特征選取33-34
  • 4.2 倒排索引34-38
  • 4.2.1 傳統(tǒng)的倒排索引34-36
  • 4.2.2 基于simhash的倒排索引36-38
  • 4.3 排序函數(shù)38-41
  • 4.3.1 TF-IDF39-40
  • 4.3.2 基于內(nèi)容和結(jié)構(gòu)混合的排序40-41
  • 4.4 基于LDA模型的查詢結(jié)果過(guò)濾41-43
  • 4.5 本章小結(jié)43-44
  • 第五章 實(shí)驗(yàn)與分析44-55
  • 5.1 原型系統(tǒng)的設(shè)計(jì)44-45
  • 5.1.1 系統(tǒng)設(shè)計(jì)目標(biāo)44
  • 5.1.2 系統(tǒng)框架設(shè)計(jì)44-45
  • 5.2 系統(tǒng)實(shí)現(xiàn)45-50
  • 5.2.1 系統(tǒng)開(kāi)發(fā)工具45
  • 5.2.2 主要模塊設(shè)計(jì)45-50
  • 5.3 實(shí)驗(yàn)分析50-54
  • 5.3.1 實(shí)驗(yàn)數(shù)據(jù)50
  • 5.3.2 實(shí)驗(yàn)評(píng)估標(biāo)準(zhǔn)50
  • 5.3.3 效率對(duì)比50-52
  • 5.3.4 準(zhǔn)確率52-54
  • 5.4 本章小結(jié)54-55
  • 第六章 總結(jié)與展望55-57
  • 6.1 工作總結(jié)55
  • 6.2 展望55-57
  • 參考文獻(xiàn)57-60
  • 附錄1 攻讀碩士學(xué)位期間撰寫的論文60-61
  • 附錄2 攻讀碩士學(xué)位期間參加的科研項(xiàng)目61-62
  • 致謝62

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 王煥景;李明;;“關(guān)鍵字查詢”教學(xué)設(shè)計(jì)[J];中國(guó)教育技術(shù)裝備;2007年12期

2 宋玉玲;王寧;;利用實(shí)體語(yǔ)義信息的關(guān)鍵字查詢結(jié)果多樣化[J];計(jì)算機(jī)科學(xué)與探索;2014年03期

3 陳子軍;周同;劉文遠(yuǎn);;面向集合和方向的空間關(guān)鍵字查詢[J];小型微型計(jì)算機(jī)系統(tǒng);2014年05期

4 任建華;周建;孟祥福;魏珂;;基于關(guān)鍵字之間結(jié)構(gòu)關(guān)系的XML查詢結(jié)果排序方法[J];計(jì)算機(jī)科學(xué);2013年06期

5 黃靜;陸嘉恒;孟小峰;;高效的XML關(guān)鍵字查詢改寫和結(jié)果生成技術(shù)[J];計(jì)算機(jī)研究與發(fā)展;2010年05期

6 王金寶;高宏;李建中;楊東華;;RB樹(shù):一種支持空間近似關(guān)鍵字查詢的外存索引[J];計(jì)算機(jī)研究與發(fā)展;2012年10期

7 周軍鋒;孟小峰;;XML關(guān)鍵字查詢處理研究[J];計(jì)算機(jī)學(xué)報(bào);2012年12期

8 吳海濤;;一種改進(jìn)的XML關(guān)鍵字查詢算法[J];南京工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年02期

9 李艷紅;李國(guó)徽;張聰;;路網(wǎng)中空間關(guān)鍵字連續(xù)k近鄰查詢算法研究[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年12期

10 劉琰;周理;;基于VLCA的關(guān)鍵字查詢匹配算法[J];科學(xué)技術(shù)與工程;2008年02期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前5條

1 謝濤;王曉玲;歐陽(yáng)樹(shù)生;周傲英;;XML關(guān)鍵字檢索的最低公共祖先快速查找方法[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年

2 黃靜;陸嘉恒;孟小峰;;高效的XML關(guān)鍵字查詢改寫和結(jié)果生成技術(shù)[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年

3 方非;朱皓;楊衛(wèi)東;;基于結(jié)構(gòu)摘要的XML關(guān)鍵字檢索[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年

4 黃靜;徐俊勁;周軍鋒;孟小峰;;MLCEA:一種基于實(shí)體的XML關(guān)鍵字查詢語(yǔ)義[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年

5 王小鋒;張新;謝敏;孟小峰;周軍鋒;;XML數(shù)據(jù)流上的關(guān)鍵字查詢[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 張晨靜;XML關(guān)鍵字過(guò)濾技術(shù)[D];復(fù)旦大學(xué);2011年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 張丹婷;基于事前約束的XML關(guān)鍵字查詢處理研究[D];燕山大學(xué);2015年

2 林健;云環(huán)境下支持隱私保護(hù)的動(dòng)態(tài)模糊多關(guān)鍵字排列查詢方法研究[D];東北大學(xué);2014年

3 張舒;基于r-clique的不確定RDF關(guān)鍵字查詢研究[D];東北大學(xué);2014年

4 崔清娟;已知社交的Top-k空間關(guān)鍵字查詢[D];燕山大學(xué);2016年

5 方海林;面向LBS的近鄰及反近鄰空間關(guān)鍵字查詢研究[D];蘇州大學(xué);2016年

6 楊韻碩;模糊關(guān)鍵字可搜索加密算法的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2016年

7 張宇晨;基于圖結(jié)構(gòu)的多關(guān)鍵字查詢技術(shù)研究[D];南京郵電大學(xué);2016年

8 李赫;個(gè)人數(shù)據(jù)空間管理系統(tǒng)關(guān)鍵字查詢的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2012年

9 周月;關(guān)鍵字查詢性能優(yōu)化研究[D];天津大學(xué);2012年

10 付顏勝;面向集合的空間關(guān)鍵字查詢方法研究[D];燕山大學(xué);2012年

,

本文編號(hào):531603

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/531603.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶eb83b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com