天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

垂直搜索引擎關(guān)鍵技術(shù)研究及分布式實(shí)現(xiàn)

發(fā)布時(shí)間:2017-10-16 18:17

  本文關(guān)鍵詞:垂直搜索引擎關(guān)鍵技術(shù)研究及分布式實(shí)現(xiàn)


  更多相關(guān)文章: 垂直搜索 主題分詞 LDA模型 垂直資源挖掘 PageRank 分布式


【摘要】:垂直搜索引擎的出現(xiàn)是互聯(lián)網(wǎng)服務(wù)向多樣化和專業(yè)化發(fā)展的必然趨勢。垂直搜索引擎的發(fā)展建立在通用搜索引擎的基礎(chǔ)上,提供精細(xì)化的垂直領(lǐng)域信息挖掘與搜索服務(wù)。本文進(jìn)行垂直搜索引擎關(guān)鍵技術(shù)及分布式研究,從文檔主題分類技術(shù)、垂直資源挖掘、主題Ranking模型研究以及分布式設(shè)計(jì)四個(gè)方面展開研究工作。文檔主題分類技術(shù)研究著重于借助LDA模型挖掘文檔的主題信息、識別文本的語義,強(qiáng)化搜索引擎的理解能力。而垂直資源挖掘研究則重點(diǎn)關(guān)注網(wǎng)絡(luò)的結(jié)構(gòu)信息和近鄰信息,并進(jìn)行主題網(wǎng)絡(luò)爬蟲設(shè)計(jì)。主題Ranking模型研究旨在強(qiáng)化垂直搜索引擎的主題偏向性,保證搜索結(jié)果更具有專業(yè)性。研究分布式垂直搜索引擎設(shè)計(jì)則是為了使系統(tǒng)能夠適應(yīng)實(shí)際的大數(shù)據(jù)應(yīng)用場景而提出分布式解決方案。本文首先闡述了垂直搜索引擎的研究背景、意義以及發(fā)展現(xiàn)狀,并結(jié)合通用搜索引擎的技術(shù)背景對垂直搜索引擎的關(guān)鍵技術(shù)和技術(shù)特性進(jìn)行了描述。本文將LDA模型應(yīng)用于垂直搜索引擎中的主題資源挖掘和用戶語義解讀,研究了不同文檔主題分布的訓(xùn)練語料庫對LDA模型主題分類性能的影響。然后在LDA主題模型的基礎(chǔ)上進(jìn)行了拓展應(yīng)用研究,基于貝葉斯公式提取主題種子詞庫,并研究得到了基于T-PMI的主題詞擴(kuò)展方法。垂直搜索引擎區(qū)別于通用搜索引擎的一大特點(diǎn)是搜索主題的確定性,主題先驗(yàn)信息可以幫助我們更好地理解用戶查詢,本文為此給出了一種主題分詞算法,一定程度上解決了分詞多義性的情況。其次,本文在Shark-Search算法和HITS算法的基礎(chǔ)上改進(jìn)得到了一種基于結(jié)構(gòu)信息和近鄰信息的鏈接分析算法,以此確立主題爬蟲的方向和范圍,并提出了自適應(yīng)主題爬蟲策略,可以在實(shí)際的爬取過程中,根據(jù)反饋調(diào)整爬蟲的方向。本文在PageRank算法基礎(chǔ)上引入了主題相關(guān)度,給出了主題敏感PageRank算法,該算法摒棄了隨機(jī)游走模型,認(rèn)為用戶瀏覽行為應(yīng)該具有主題導(dǎo)向,來自同一主題頁面的鏈接更容易被用戶點(diǎn)擊到,因此該算法修正了PageRank算法的鏈接模型,增強(qiáng)了主題相關(guān)網(wǎng)頁的優(yōu)先級。最后本文設(shè)計(jì)了一種分布式垂直搜索引擎原型,對關(guān)鍵技術(shù)進(jìn)行了分布式研究,提出了一種分布式主題爬蟲框架,對分布式LDA算法的性能進(jìn)行了驗(yàn)證,并在此基礎(chǔ)上設(shè)計(jì)了分布式垂直搜索引擎的系統(tǒng)整體框架,同時(shí)實(shí)現(xiàn)了一個(gè)圖書搜索實(shí)例。
【關(guān)鍵詞】:垂直搜索 主題分詞 LDA模型 垂直資源挖掘 PageRank 分布式
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【目錄】:
  • 摘要5-6
  • Abstract6-9
  • 第一章 緒論9-15
  • 1.1 研究背景9
  • 1.2 垂直搜索引擎的研究現(xiàn)狀9-12
  • 1.2.1 主題信息采集技術(shù)概述10
  • 1.2.2 主題分類算法研究10-11
  • 1.2.3 鏈接分析與頁面排序算法研究11-12
  • 1.3 本文的研究目標(biāo)和方向12
  • 1.4 論文組織結(jié)構(gòu)12-15
  • 第二章 基于內(nèi)容的文本主題模型研究15-35
  • 2.1 主題文檔模型研究15-24
  • 2.1.1 常見主題文檔模型15-16
  • 2.1.2 Latent Dirichlet Allocator模型16-19
  • 2.1.3 垂直引擎中LDA模型應(yīng)用分析19-24
  • 2.2 主題詞庫的建立24-30
  • 2.2.1 基于語料的詞庫建立24-27
  • 2.2.2 基于T-PMI的詞庫擴(kuò)展27-30
  • 2.2.3 小結(jié)30
  • 2.3 基于主題的文本分詞算法30-34
  • 2.3.1 通用文本分詞算法30-33
  • 2.3.2 基于主題的文本分詞算法33-34
  • 2.4 本章小結(jié)34-35
  • 第三章 垂直資源挖掘與主題Ranking模型研究35-51
  • 3.1 Web鏈接結(jié)構(gòu)中的主題相關(guān)度研究35-39
  • 3.1.1 PageRank算法35-37
  • 3.1.2 HITS算法37-39
  • 3.1.3 小結(jié)39
  • 3.2 面向垂直搜索的主題爬蟲研究39-46
  • 3.2.1 基本爬蟲策略39-40
  • 3.2.2 Fish-Search算法與Shark-Search算法40-43
  • 3.2.3 基于鏈接的主題爬蟲研究43-46
  • 3.3 面向垂直搜索的主題Ranking模型研究46-49
  • 3.3.1 主題敏感PageRank算法46-48
  • 3.3.2 算法討論48-49
  • 3.3.3 模型評價(jià)49
  • 3.4 本章小結(jié)49-51
  • 第四章 分布式垂直搜索引擎原型設(shè)計(jì)51-61
  • 4.1 分布式爬蟲研究51-53
  • 4.1.1 通信模型51-52
  • 4.1.2 爬蟲整體框架52-53
  • 4.1.3 性能優(yōu)化53
  • 4.2 LDA算法分布式研究53-57
  • 4.2.1 AD-LDA算法54
  • 4.2.2 基于Map-Reduce的分布式Gibbs Sampling54-55
  • 4.2.3 AD-LDA性能分析55-57
  • 4.3 系統(tǒng)整體框架57-58
  • 4.4 一個(gè)圖書搜索實(shí)例58-60
  • 4.4.1 數(shù)據(jù)采集與處理58-59
  • 4.4.2 搜索權(quán)重研究59
  • 4.4.3 搜索結(jié)果展示59-60
  • 4.5 本章小結(jié)60-61
  • 第五章 總結(jié)與展望61-63
  • 5.1 總結(jié)61-62
  • 5.2 展望62-63
  • 致謝63-65
  • 參考文獻(xiàn)65-66

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 楊堅(jiān)爭;李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期

2 羅麗姍;;垂直搜索引擎發(fā)展概述[J];圖書館學(xué)研究;2006年12期

3 嚴(yán)宏偉;何俊;;基于房源分析系統(tǒng)的垂直搜索引擎關(guān)鍵技術(shù)的探討[J];中國科技信息;2007年05期

4 胡華梁;何進(jìn);鐘元生;;圖書垂直搜索引擎的設(shè)計(jì)[J];計(jì)算機(jī)與現(xiàn)代化;2007年08期

5 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價(jià)值[J];信息技術(shù);2008年04期

6 畢建濤;霍云福;;垂直搜索引擎贏利模式探討[J];大連大學(xué)學(xué)報(bào);2008年03期

7 許鑫;黃仲清;;垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報(bào)技術(shù);2009年02期

8 孔祥春;李義杰;鄭凱明;;垂直搜索引擎應(yīng)用研究[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年07期

9 楊皖蘇;閆冬;;垂直搜索引擎發(fā)展策略探討[J];商業(yè)時(shí)代;2009年23期

10 肖婷;;垂直搜索引擎與旅游行業(yè)探討[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2009年11期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前4條

1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會(huì)、河北省計(jì)算機(jī)學(xué)會(huì)、河北省自動(dòng)化學(xué)會(huì)、河北省人工智能學(xué)會(huì)、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會(huì)、河北省軟件行業(yè)協(xié)會(huì)聯(lián)合學(xué)術(shù)年會(huì)論文集[C];2007年

2 林歡歡;王文杰;史忠植;;移動(dòng)環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年

4 毛華揚(yáng);劉衛(wèi);;會(huì)計(jì)信息搜索方法研究[A];第十屆全國會(huì)計(jì)信息化年會(huì)論文集[C];2011年

中國重要報(bào)紙全文數(shù)據(jù)庫 前10條

1 北大縱橫管理顧問公司高級顧問戴曉東;“商搜”變法 垂直搜索引擎的春天還遠(yuǎn)嗎?[N];中國經(jīng)營報(bào);2006年

2 王艷;垂直搜索引擎市場看好[N];中國旅游報(bào);2000年

3 王靖;賽迪網(wǎng)推出垂直搜索引擎[N];人民日報(bào)海外版;2000年

4 楊國民;國內(nèi)生物醫(yī)藥行業(yè) 垂直搜索引擎誕生[N];經(jīng)濟(jì)日報(bào);2007年

5 本報(bào)記者 王曉雁;垂直搜索引擎著作權(quán)之爭未破題[N];法制日報(bào);2009年

6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;用開源軟件建垂直搜索引擎[N];計(jì)算機(jī)世界;2010年

7 中新;生意寶推“生意搜”攪局電子商務(wù)搜索市場[N];經(jīng)理日報(bào);2008年

8 源訊 編譯;搜索巨頭的下一步[N];計(jì)算機(jī)世界;2006年

9 賽迪網(wǎng) 方剛;不只是網(wǎng)站才垂直[N];中國計(jì)算機(jī)報(bào);2000年

10 ;沱沱網(wǎng)“亮劍”國際消費(fèi)電子博覽會(huì) 專業(yè)服務(wù)帶來B2B差異化變革[N];中國貿(mào)易報(bào);2007年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條

1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年

2 吳羽;面向時(shí)間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年

3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年

4 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年

5 王桂紅;農(nóng)產(chǎn)品市場價(jià)格web信息分析方法研究[D];沈陽農(nóng)業(yè)大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 韓冰;垂直搜索引擎?zhèn)性化推薦研究與應(yīng)用[D];大連理工大學(xué);2009年

2 關(guān)小敏;垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年

3 吳燕瑋;基于行業(yè)知識垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年

4 柳力麗;旅游垂直搜索引擎的品牌傳播研究[D];西南大學(xué);2015年

5 錢永杰;面向網(wǎng)絡(luò)文學(xué)的垂直搜索引擎的研究與實(shí)現(xiàn)[D];曲阜師范大學(xué);2015年

6 袁鳳云;垂直搜索引擎關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2014年

7 任睿麗;面向旅游業(yè)的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年

8 張高偉;基于ElasticSearch的分布式視頻垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2014年

9 朱鵬;英文語料庫垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年

10 楊小丹;面向教育資源c\索引擎的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2015年



本文編號:1044182

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1044182.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d85bc***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
欧美午夜伦理在线观看| 91欧美亚洲精品在线观看| 俄罗斯胖女人性生活视频| 人妻熟女欲求不满一区二区| 国产精品白丝一区二区| 色偷偷亚洲女人天堂观看| 午夜福利黄片免费观看| 99视频精品免费视频播放| 久久午夜福利精品日韩| 偷拍偷窥女厕一区二区视频| 欧美日韩国产福利在线观看| 亚洲丁香婷婷久久一区| 久久精品国产一区久久久| 欧美日韩无卡一区二区| 欧美日韩国产免费看黄片| 国产成人亚洲欧美二区综| 91后入中出内射在线| 国产精品一区二区丝袜| 好吊色欧美一区二区三区顽频| 欧美国产在线观看精品| 国产精品一区欧美二区| 中文字幕一二区在线观看| 99热九九热这里只有精品| 熟女少妇一区二区三区蜜桃| 国产精品日韩精品一区| 国产精品免费视频视频| 亚洲一区二区三区三州| 色哟哟在线免费一区二区三区 | 91精品国产品国语在线不卡 | 日本欧美视频在线观看免费| 丰满人妻熟妇乱又伦精另类视频| 黄片在线免费观看全集| 日韩中文字幕有码午夜美女| 日韩偷拍精品一区二区三区 | 久久热在线免费视频精品| 这里只有九九热精品视频| 亚洲a级一区二区不卡| 国产又色又爽又黄又免费| 在线九月婷婷丁香伊人| 国产av熟女一区二区三区四区| 观看日韩精品在线视频|