天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于ElasticSearch的分布式搜索引擎的設(shè)計與實現(xiàn)

發(fā)布時間:2020-07-09 19:34
【摘要】:在當今大數(shù)據(jù)時代的背景下,隨著各行各業(yè)信息化的快速發(fā)展,各個垂直領(lǐng)域的信息數(shù)據(jù)呈爆炸式增長。無論是在工作還是生活中,人們已經(jīng)習(xí)慣依賴互聯(lián)網(wǎng)來獲取有效信息,然而海量的數(shù)據(jù)容易造成信息過載的情況,如何快速并且高效的獲取對用戶有用的信息已經(jīng)成為搜索引擎面臨的主要問題。針對傳統(tǒng)搜索引擎的業(yè)務(wù)擴展性差以及搜索效率與性能差等問題,本文提出了一種基于ElasticSearch的分布式搜索引擎,在提高檢索效率和檢索精度的基礎(chǔ)上,對用戶歷史搜索記錄進行分析與利用,讓搜索引擎能更加智能、更加友好的與用戶進行交互。在深入分析系統(tǒng)需求的基礎(chǔ)上,主要把系統(tǒng)分為離線數(shù)據(jù)處理過程和實時搜索顯示過程。離線數(shù)據(jù)處理過程主要包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、索引更新、擴充詞庫等問題;實時搜索顯示過程主要包括搜索詞糾錯、搜索詞提示、搜索結(jié)果排序并顯示等問題。本文搜索引擎的設(shè)計與實現(xiàn)過程中主要使用到的相關(guān)技術(shù)包括ElasticSearch框架、文本分詞技術(shù)、消息隊列、新詞發(fā)現(xiàn)算法、排序算法、N-Gram語言模型以及最短編輯距離算法等。其中,本文采用N-Gram語言統(tǒng)計模型與最短編輯距離算法實現(xiàn)搜索詞糾錯功能;采用BM25算法對搜索結(jié)果進行排序,使得搜索結(jié)果更加符合用戶的實際需求;采用的是基于統(tǒng)計的新詞發(fā)現(xiàn)算法來實現(xiàn)詞庫的擴充,定期通過分析用戶的行為日志來進行新詞發(fā)現(xiàn),從而可以提高分詞的準確度。通過多方面的測試與分析,驗證了本系統(tǒng)的實用性、有效性以及實時性。通過對詞庫的擴充提高了分詞的準確度,通過對搜索結(jié)果的重排序,返回給用戶更滿意的結(jié)果,改善了用戶的體驗,提高了付費視頻點擊率及成交額。目前,本系統(tǒng)已經(jīng)通過了測試并交付用戶使用,得到了用戶的積極反饋,搜索引擎系統(tǒng)并未出現(xiàn)重大異,F(xiàn)象。本文在視頻領(lǐng)域設(shè)計并實現(xiàn)了一個基于ElasticSearch的分布式搜索引擎。首先,本文闡述了項目的研究背景及意義,并分析了搜索引擎的國內(nèi)外研究現(xiàn)狀,然后,本文介紹了系統(tǒng)的實現(xiàn)過程中涉及到的技術(shù),其次,本文闡述了系統(tǒng)的功能性與非功能性需求、概要設(shè)計、詳細設(shè)計與實現(xiàn),最后對系統(tǒng)進行了測試與性能分析。
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.3
【圖文】:

簡單結(jié)構(gòu),存儲服務(wù)器,網(wǎng)絡(luò)爬蟲


用命中相關(guān)的數(shù)據(jù),就通過后臺建立的索引庫查詢出與搜索相關(guān)的信息,對檢索詞逡逑與搜索結(jié)果進行匹配度計算,再對搜索結(jié)果進行排序,最后在搜索結(jié)果中顯示搜索逡逑結(jié)果的部分信息返回給用戶。搜索引擎基本工作原理的結(jié)構(gòu)如圖2-1所示。逡逑緩存服務(wù)器數(shù)據(jù)索引服網(wǎng)絡(luò)爬蟲服務(wù)器逡逑s邋//邐』邐<逡逑//mm邐S邐flS逡逑V邋/邐V逡逑p]邋LJjJ邋wjj逡逑搜索服務(wù)器邐i____J邐索弓丨存儲服務(wù)器網(wǎng)頁存儲服務(wù)器逡逑B志存儲服務(wù)逡逑圖2-1搜索引擎工作原理簡單結(jié)構(gòu)圖逡逑Figure邋2-1邋Simple邋Structure邋of邋the邋Search邋Engine邋Working邋Principle逡逑5逡逑

示意圖,流程,示意圖,搜索引擎


通大學(xué)碩士專業(yè)學(xué)位論文邐搜索引擎相關(guān)理論與關(guān)鍵技術(shù)搜索引擎系統(tǒng)結(jié)構(gòu)體系主要包括索引服務(wù)、搜索服務(wù)、緩存服務(wù)、日志列服務(wù)模塊,各個服務(wù)模塊相輔相成,支撐著搜索引擎的整個工作流搜索引擎框架逡逑隨著搜索技術(shù)的快速發(fā)展,為了使搜索技術(shù)能夠更好的服務(wù)于開發(fā)人員出現(xiàn)了很多與搜索引擎有關(guān)的優(yōu)秀產(chǎn)品,包括Apache邋Nutch,Apache邋SasticSearch。逡逑(1)邋Apache邋Nutch:是一個開源的基于Java開發(fā)的以Lucene為核心爬蟲項目,主要包括爬蟲服務(wù)、索引服務(wù)、搜索服務(wù)等。在實際的搜索,如果數(shù)據(jù)源需要通過其他渠道抓取,則可以使用Nutch提供檢索服務(wù)。單工程流程示意圖如圖2-2所示。逡逑Crawler邋邐邐邐?邋Sementement……'emen

用例圖,搜索引擎,場景分析,用例圖


系統(tǒng)需求分析逡逑索結(jié)果中用戶可以根據(jù)教學(xué)視頻、講師以及標簽的分類對結(jié)果做進一步的篩選。本逡逑系統(tǒng)的用例圖如圖3-1所不。逡逑搖黎引)逡逑Cmcludes)逡逑《》nchi£l#s>Cincludes)邐?''N逡逑邐邐^邋Cindudes>邋,邐、逡逑邐邐^逡逑NB邐逡逑<inciud^s>邋邐邐邐邋.^>V邋KB^邋y逡逑邐邐邐邋邐邐邐逡逑-jhr ̄^^逡逑二思\邐—e ̄逡逑\邋*-%邐逡逑\邋、邐逡逑\邐??,八、NB邋h邋健標)逡逑\邋^邐<.ndudesl邋邐^邋Cmdude*s>邋X邐邐^逡逑、邐'(^clud?)邐JT—^邋{.ndudeO^邐、逡逑圖3-1系統(tǒng)用例圖逡逑Figure邋3-1邋System邋Use邋Case邋Diagram逡逑根據(jù)上述的業(yè)務(wù)場景分析,本搜索引擎的設(shè)計目標是:改善傳統(tǒng)搜索引擎,提逡逑高用戶的滿意程度。主要分為以下幾點:逡逑(1)

【參考文獻】

相關(guān)期刊論文 前9條

1 李佳;陳亞軍;;中文智能搜索引擎技術(shù)研究[J];軟件導(dǎo)刊;2015年07期

2 張艷輝;劉培玉;;基于互信息的微博新詞發(fā)現(xiàn)算法[J];科技視界;2015年15期

3 王琳琳;;規(guī)則與統(tǒng)計相結(jié)合的中文新詞識別研究[J];嘉興學(xué)院學(xué)報;2014年06期

4 竇曉峰;陳勝;王熠航;麥聯(lián)叨;由建宏;;應(yīng)用分布式索引提高海量數(shù)據(jù)查詢性能[J];計算機系統(tǒng)應(yīng)用;2014年06期

5 霍帥;張敏;劉奕群;馬少平;;基于微博內(nèi)容的新詞發(fā)現(xiàn)方法[J];模式識別與人工智能;2014年02期

6 陳智鵬;呂玉琴;劉華生;劉剛;屠輝;;基于N-gram統(tǒng)計模型的搜索引擎中文糾錯[J];中國電子科學(xué)研究院學(xué)報;2009年03期

7 管建和;甘劍峰;;基于Lucene全文檢索引擎的應(yīng)用研究與實現(xiàn)[J];計算機工程與設(shè)計;2007年02期

8 蘇菲,王丹力,戴國忠;基于標記的規(guī)則統(tǒng)計模型與未登錄詞識別算法[J];計算機工程與應(yīng)用;2004年15期

9 歐振猛,余順爭;中文分詞算法在搜索引擎應(yīng)用中的研究[J];計算機工程與應(yīng)用;2000年08期

相關(guān)碩士學(xué)位論文 前7條

1 王欣;微博新詞發(fā)現(xiàn)及新詞情感極性判斷方法[D];重慶師范大學(xué);2018年

2 齊爽;基于新詞發(fā)現(xiàn)的微博文本情感傾向性分析研究[D];杭州電子科技大學(xué);2018年

3 沈健;基于統(tǒng)計模型的搜索引擎查詢糾錯系統(tǒng)[D];大連理工大學(xué);2017年

4 曾亞飛;基于Elasticsearch的分布式智能搜索引擎的研究與實現(xiàn)[D];重慶大學(xué);2016年

5 張高偉;基于ElasticSearch的分布式視頻垂直搜索引擎的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2014年

6 孫善祿;搜索引擎糾錯算法研究與糾錯Bad Case挖掘[D];大連理工大學(xué);2013年

7 韓冰;垂直搜索引擎?zhèn)性化推薦研究與應(yīng)用[D];大連理工大學(xué);2009年



本文編號:2747890

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2747890.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶79ff8***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com