垂直搜索引擎關(guān)鍵技術(shù)研究及分布式實(shí)現(xiàn)
本文關(guān)鍵詞:垂直搜索引擎關(guān)鍵技術(shù)研究及分布式實(shí)現(xiàn)
更多相關(guān)文章: 垂直搜索 主題分詞 LDA模型 垂直資源挖掘 PageRank 分布式
【摘要】:垂直搜索引擎的出現(xiàn)是互聯(lián)網(wǎng)服務(wù)向多樣化和專業(yè)化發(fā)展的必然趨勢。垂直搜索引擎的發(fā)展建立在通用搜索引擎的基礎(chǔ)上,提供精細(xì)化的垂直領(lǐng)域信息挖掘與搜索服務(wù)。本文進(jìn)行垂直搜索引擎關(guān)鍵技術(shù)及分布式研究,從文檔主題分類技術(shù)、垂直資源挖掘、主題Ranking模型研究以及分布式設(shè)計(jì)四個(gè)方面展開研究工作。文檔主題分類技術(shù)研究著重于借助LDA模型挖掘文檔的主題信息、識別文本的語義,強(qiáng)化搜索引擎的理解能力。而垂直資源挖掘研究則重點(diǎn)關(guān)注網(wǎng)絡(luò)的結(jié)構(gòu)信息和近鄰信息,并進(jìn)行主題網(wǎng)絡(luò)爬蟲設(shè)計(jì)。主題Ranking模型研究旨在強(qiáng)化垂直搜索引擎的主題偏向性,保證搜索結(jié)果更具有專業(yè)性。研究分布式垂直搜索引擎設(shè)計(jì)則是為了使系統(tǒng)能夠適應(yīng)實(shí)際的大數(shù)據(jù)應(yīng)用場景而提出分布式解決方案。本文首先闡述了垂直搜索引擎的研究背景、意義以及發(fā)展現(xiàn)狀,并結(jié)合通用搜索引擎的技術(shù)背景對垂直搜索引擎的關(guān)鍵技術(shù)和技術(shù)特性進(jìn)行了描述。本文將LDA模型應(yīng)用于垂直搜索引擎中的主題資源挖掘和用戶語義解讀,研究了不同文檔主題分布的訓(xùn)練語料庫對LDA模型主題分類性能的影響。然后在LDA主題模型的基礎(chǔ)上進(jìn)行了拓展應(yīng)用研究,基于貝葉斯公式提取主題種子詞庫,并研究得到了基于T-PMI的主題詞擴(kuò)展方法。垂直搜索引擎區(qū)別于通用搜索引擎的一大特點(diǎn)是搜索主題的確定性,主題先驗(yàn)信息可以幫助我們更好地理解用戶查詢,本文為此給出了一種主題分詞算法,一定程度上解決了分詞多義性的情況。其次,本文在Shark-Search算法和HITS算法的基礎(chǔ)上改進(jìn)得到了一種基于結(jié)構(gòu)信息和近鄰信息的鏈接分析算法,以此確立主題爬蟲的方向和范圍,并提出了自適應(yīng)主題爬蟲策略,可以在實(shí)際的爬取過程中,根據(jù)反饋調(diào)整爬蟲的方向。本文在PageRank算法基礎(chǔ)上引入了主題相關(guān)度,給出了主題敏感PageRank算法,該算法摒棄了隨機(jī)游走模型,認(rèn)為用戶瀏覽行為應(yīng)該具有主題導(dǎo)向,來自同一主題頁面的鏈接更容易被用戶點(diǎn)擊到,因此該算法修正了PageRank算法的鏈接模型,增強(qiáng)了主題相關(guān)網(wǎng)頁的優(yōu)先級。最后本文設(shè)計(jì)了一種分布式垂直搜索引擎原型,對關(guān)鍵技術(shù)進(jìn)行了分布式研究,提出了一種分布式主題爬蟲框架,對分布式LDA算法的性能進(jìn)行了驗(yàn)證,并在此基礎(chǔ)上設(shè)計(jì)了分布式垂直搜索引擎的系統(tǒng)整體框架,同時(shí)實(shí)現(xiàn)了一個(gè)圖書搜索實(shí)例。
【關(guān)鍵詞】:垂直搜索 主題分詞 LDA模型 垂直資源挖掘 PageRank 分布式
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【目錄】:
- 摘要5-6
- Abstract6-9
- 第一章 緒論9-15
- 1.1 研究背景9
- 1.2 垂直搜索引擎的研究現(xiàn)狀9-12
- 1.2.1 主題信息采集技術(shù)概述10
- 1.2.2 主題分類算法研究10-11
- 1.2.3 鏈接分析與頁面排序算法研究11-12
- 1.3 本文的研究目標(biāo)和方向12
- 1.4 論文組織結(jié)構(gòu)12-15
- 第二章 基于內(nèi)容的文本主題模型研究15-35
- 2.1 主題文檔模型研究15-24
- 2.1.1 常見主題文檔模型15-16
- 2.1.2 Latent Dirichlet Allocator模型16-19
- 2.1.3 垂直引擎中LDA模型應(yīng)用分析19-24
- 2.2 主題詞庫的建立24-30
- 2.2.1 基于語料的詞庫建立24-27
- 2.2.2 基于T-PMI的詞庫擴(kuò)展27-30
- 2.2.3 小結(jié)30
- 2.3 基于主題的文本分詞算法30-34
- 2.3.1 通用文本分詞算法30-33
- 2.3.2 基于主題的文本分詞算法33-34
- 2.4 本章小結(jié)34-35
- 第三章 垂直資源挖掘與主題Ranking模型研究35-51
- 3.1 Web鏈接結(jié)構(gòu)中的主題相關(guān)度研究35-39
- 3.1.1 PageRank算法35-37
- 3.1.2 HITS算法37-39
- 3.1.3 小結(jié)39
- 3.2 面向垂直搜索的主題爬蟲研究39-46
- 3.2.1 基本爬蟲策略39-40
- 3.2.2 Fish-Search算法與Shark-Search算法40-43
- 3.2.3 基于鏈接的主題爬蟲研究43-46
- 3.3 面向垂直搜索的主題Ranking模型研究46-49
- 3.3.1 主題敏感PageRank算法46-48
- 3.3.2 算法討論48-49
- 3.3.3 模型評價(jià)49
- 3.4 本章小結(jié)49-51
- 第四章 分布式垂直搜索引擎原型設(shè)計(jì)51-61
- 4.1 分布式爬蟲研究51-53
- 4.1.1 通信模型51-52
- 4.1.2 爬蟲整體框架52-53
- 4.1.3 性能優(yōu)化53
- 4.2 LDA算法分布式研究53-57
- 4.2.1 AD-LDA算法54
- 4.2.2 基于Map-Reduce的分布式Gibbs Sampling54-55
- 4.2.3 AD-LDA性能分析55-57
- 4.3 系統(tǒng)整體框架57-58
- 4.4 一個(gè)圖書搜索實(shí)例58-60
- 4.4.1 數(shù)據(jù)采集與處理58-59
- 4.4.2 搜索權(quán)重研究59
- 4.4.3 搜索結(jié)果展示59-60
- 4.5 本章小結(jié)60-61
- 第五章 總結(jié)與展望61-63
- 5.1 總結(jié)61-62
- 5.2 展望62-63
- 致謝63-65
- 參考文獻(xiàn)65-66
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 楊堅(jiān)爭;李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期
2 羅麗姍;;垂直搜索引擎發(fā)展概述[J];圖書館學(xué)研究;2006年12期
3 嚴(yán)宏偉;何俊;;基于房源分析系統(tǒng)的垂直搜索引擎關(guān)鍵技術(shù)的探討[J];中國科技信息;2007年05期
4 胡華梁;何進(jìn);鐘元生;;圖書垂直搜索引擎的設(shè)計(jì)[J];計(jì)算機(jī)與現(xiàn)代化;2007年08期
5 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價(jià)值[J];信息技術(shù);2008年04期
6 畢建濤;霍云福;;垂直搜索引擎贏利模式探討[J];大連大學(xué)學(xué)報(bào);2008年03期
7 許鑫;黃仲清;;垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報(bào)技術(shù);2009年02期
8 孔祥春;李義杰;鄭凱明;;垂直搜索引擎應(yīng)用研究[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年07期
9 楊皖蘇;閆冬;;垂直搜索引擎發(fā)展策略探討[J];商業(yè)時(shí)代;2009年23期
10 肖婷;;垂直搜索引擎與旅游行業(yè)探討[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2009年11期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前4條
1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會(huì)、河北省計(jì)算機(jī)學(xué)會(huì)、河北省自動(dòng)化學(xué)會(huì)、河北省人工智能學(xué)會(huì)、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會(huì)、河北省軟件行業(yè)協(xié)會(huì)聯(lián)合學(xué)術(shù)年會(huì)論文集[C];2007年
2 林歡歡;王文杰;史忠植;;移動(dòng)環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
4 毛華揚(yáng);劉衛(wèi);;會(huì)計(jì)信息搜索方法研究[A];第十屆全國會(huì)計(jì)信息化年會(huì)論文集[C];2011年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 北大縱橫管理顧問公司高級顧問戴曉東;“商搜”變法 垂直搜索引擎的春天還遠(yuǎn)嗎?[N];中國經(jīng)營報(bào);2006年
2 王艷;垂直搜索引擎市場看好[N];中國旅游報(bào);2000年
3 王靖;賽迪網(wǎng)推出垂直搜索引擎[N];人民日報(bào)海外版;2000年
4 楊國民;國內(nèi)生物醫(yī)藥行業(yè) 垂直搜索引擎誕生[N];經(jīng)濟(jì)日報(bào);2007年
5 本報(bào)記者 王曉雁;垂直搜索引擎著作權(quán)之爭未破題[N];法制日報(bào);2009年
6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;用開源軟件建垂直搜索引擎[N];計(jì)算機(jī)世界;2010年
7 中新;生意寶推“生意搜”攪局電子商務(wù)搜索市場[N];經(jīng)理日報(bào);2008年
8 源訊 編譯;搜索巨頭的下一步[N];計(jì)算機(jī)世界;2006年
9 賽迪網(wǎng) 方剛;不只是網(wǎng)站才垂直[N];中國計(jì)算機(jī)報(bào);2000年
10 ;沱沱網(wǎng)“亮劍”國際消費(fèi)電子博覽會(huì) 專業(yè)服務(wù)帶來B2B差異化變革[N];中國貿(mào)易報(bào);2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年
2 吳羽;面向時(shí)間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年
4 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
5 王桂紅;農(nóng)產(chǎn)品市場價(jià)格web信息分析方法研究[D];沈陽農(nóng)業(yè)大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 韓冰;垂直搜索引擎?zhèn)性化推薦研究與應(yīng)用[D];大連理工大學(xué);2009年
2 關(guān)小敏;垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年
3 吳燕瑋;基于行業(yè)知識垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年
4 柳力麗;旅游垂直搜索引擎的品牌傳播研究[D];西南大學(xué);2015年
5 錢永杰;面向網(wǎng)絡(luò)文學(xué)的垂直搜索引擎的研究與實(shí)現(xiàn)[D];曲阜師范大學(xué);2015年
6 袁鳳云;垂直搜索引擎關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
7 任睿麗;面向旅游業(yè)的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
8 張高偉;基于ElasticSearch的分布式視頻垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2014年
9 朱鵬;英文語料庫垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年
10 楊小丹;面向教育資源c\索引擎的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
,本文編號:1044182
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1044182.html