基于ElasticSearch的分布式搜索引擎的設(shè)計與實現(xiàn)
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.3
【圖文】:
用命中相關(guān)的數(shù)據(jù),就通過后臺建立的索引庫查詢出與搜索相關(guān)的信息,對檢索詞逡逑與搜索結(jié)果進行匹配度計算,再對搜索結(jié)果進行排序,最后在搜索結(jié)果中顯示搜索逡逑結(jié)果的部分信息返回給用戶。搜索引擎基本工作原理的結(jié)構(gòu)如圖2-1所示。逡逑緩存服務(wù)器數(shù)據(jù)索引服網(wǎng)絡(luò)爬蟲服務(wù)器逡逑s邋//邐』邐<逡逑//mm邐S邐flS逡逑V邋/邐V逡逑p]邋LJjJ邋wjj逡逑搜索服務(wù)器邐i____J邐索弓丨存儲服務(wù)器網(wǎng)頁存儲服務(wù)器逡逑B志存儲服務(wù)逡逑圖2-1搜索引擎工作原理簡單結(jié)構(gòu)圖逡逑Figure邋2-1邋Simple邋Structure邋of邋the邋Search邋Engine邋Working邋Principle逡逑5逡逑
通大學(xué)碩士專業(yè)學(xué)位論文邐搜索引擎相關(guān)理論與關(guān)鍵技術(shù)搜索引擎系統(tǒng)結(jié)構(gòu)體系主要包括索引服務(wù)、搜索服務(wù)、緩存服務(wù)、日志列服務(wù)模塊,各個服務(wù)模塊相輔相成,支撐著搜索引擎的整個工作流搜索引擎框架逡逑隨著搜索技術(shù)的快速發(fā)展,為了使搜索技術(shù)能夠更好的服務(wù)于開發(fā)人員出現(xiàn)了很多與搜索引擎有關(guān)的優(yōu)秀產(chǎn)品,包括Apache邋Nutch,Apache邋SasticSearch。逡逑(1)邋Apache邋Nutch:是一個開源的基于Java開發(fā)的以Lucene為核心爬蟲項目,主要包括爬蟲服務(wù)、索引服務(wù)、搜索服務(wù)等。在實際的搜索,如果數(shù)據(jù)源需要通過其他渠道抓取,則可以使用Nutch提供檢索服務(wù)。單工程流程示意圖如圖2-2所示。逡逑Crawler邋邐邐邐?邋Sementement……'emen
系統(tǒng)需求分析逡逑索結(jié)果中用戶可以根據(jù)教學(xué)視頻、講師以及標簽的分類對結(jié)果做進一步的篩選。本逡逑系統(tǒng)的用例圖如圖3-1所不。逡逑搖黎引)逡逑Cmcludes)逡逑《》nchi£l#s>Cincludes)邐?''N逡逑邐邐^邋Cindudes>邋,邐、逡逑邐邐^逡逑NB邐逡逑<inciud^s>邋邐邐邐邋.^>V邋KB^邋y逡逑邐邐邐邋邐邐邐逡逑-jhr ̄^^逡逑二思\邐—e ̄逡逑\邋*-%邐逡逑\邋、邐逡逑\邐??,八、NB邋h邋健標)逡逑\邋^邐<.ndudesl邋邐^邋Cmdude*s>邋X邐邐^逡逑、邐'(^clud?)邐JT—^邋{.ndudeO^邐、逡逑圖3-1系統(tǒng)用例圖逡逑Figure邋3-1邋System邋Use邋Case邋Diagram逡逑根據(jù)上述的業(yè)務(wù)場景分析,本搜索引擎的設(shè)計目標是:改善傳統(tǒng)搜索引擎,提逡逑高用戶的滿意程度。主要分為以下幾點:逡逑(1)
【參考文獻】
相關(guān)期刊論文 前9條
1 李佳;陳亞軍;;中文智能搜索引擎技術(shù)研究[J];軟件導(dǎo)刊;2015年07期
2 張艷輝;劉培玉;;基于互信息的微博新詞發(fā)現(xiàn)算法[J];科技視界;2015年15期
3 王琳琳;;規(guī)則與統(tǒng)計相結(jié)合的中文新詞識別研究[J];嘉興學(xué)院學(xué)報;2014年06期
4 竇曉峰;陳勝;王熠航;麥聯(lián)叨;由建宏;;應(yīng)用分布式索引提高海量數(shù)據(jù)查詢性能[J];計算機系統(tǒng)應(yīng)用;2014年06期
5 霍帥;張敏;劉奕群;馬少平;;基于微博內(nèi)容的新詞發(fā)現(xiàn)方法[J];模式識別與人工智能;2014年02期
6 陳智鵬;呂玉琴;劉華生;劉剛;屠輝;;基于N-gram統(tǒng)計模型的搜索引擎中文糾錯[J];中國電子科學(xué)研究院學(xué)報;2009年03期
7 管建和;甘劍峰;;基于Lucene全文檢索引擎的應(yīng)用研究與實現(xiàn)[J];計算機工程與設(shè)計;2007年02期
8 蘇菲,王丹力,戴國忠;基于標記的規(guī)則統(tǒng)計模型與未登錄詞識別算法[J];計算機工程與應(yīng)用;2004年15期
9 歐振猛,余順爭;中文分詞算法在搜索引擎應(yīng)用中的研究[J];計算機工程與應(yīng)用;2000年08期
相關(guān)碩士學(xué)位論文 前7條
1 王欣;微博新詞發(fā)現(xiàn)及新詞情感極性判斷方法[D];重慶師范大學(xué);2018年
2 齊爽;基于新詞發(fā)現(xiàn)的微博文本情感傾向性分析研究[D];杭州電子科技大學(xué);2018年
3 沈健;基于統(tǒng)計模型的搜索引擎查詢糾錯系統(tǒng)[D];大連理工大學(xué);2017年
4 曾亞飛;基于Elasticsearch的分布式智能搜索引擎的研究與實現(xiàn)[D];重慶大學(xué);2016年
5 張高偉;基于ElasticSearch的分布式視頻垂直搜索引擎的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2014年
6 孫善祿;搜索引擎糾錯算法研究與糾錯Bad Case挖掘[D];大連理工大學(xué);2013年
7 韓冰;垂直搜索引擎?zhèn)性化推薦研究與應(yīng)用[D];大連理工大學(xué);2009年
本文編號:2747890
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2747890.html