天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 管理論文 > 物流管理論文 >

基于ElasticSearch的分布式物流垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-04-24 04:36
【摘要】:隨著互聯(lián)網(wǎng)的迅猛發(fā)展,人們已經(jīng)習(xí)慣于依賴網(wǎng)絡(luò)來獲取信息,搜索引擎的出現(xiàn)在人與海量網(wǎng)絡(luò)信息之間架起了一座橋梁。然而,傳統(tǒng)的集中式搜索引擎無法解決物流行業(yè)呈指數(shù)級(jí)增長(zhǎng)的信息量。分布式計(jì)算技術(shù)出現(xiàn)可以在一定程度上緩解了這個(gè)矛盾。除此之外,針對(duì)通用搜索引擎的查詢結(jié)果不夠全面、不夠?qū)I(yè)等問題,本文提出的垂直搜索引擎能夠很好地解決上述問題,特別是針對(duì)物流領(lǐng)域提供更加具體、更加有效、更加深入的搜索服務(wù)。在此背景下,本文在分布式技術(shù)和垂直搜索的基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)一個(gè)分布式物流垂直搜索引擎系統(tǒng)。本文的主要內(nèi)容和成果如下:(1)設(shè)計(jì)集成了 Nutch和ElasticSearch的分布式物流垂直搜索引擎系統(tǒng)。其中,Nutch主要負(fù)責(zé)主題數(shù)據(jù)采集和數(shù)據(jù)清洗;ElasticSearch則作為全文檢索服務(wù)器,索引并對(duì)外提供物流信息檢索服務(wù)。整個(gè)系統(tǒng)設(shè)計(jì)分為3個(gè)主要模塊:物流主題采集模塊、分布式索引模塊和物流信息搜索模塊。(2)在物流主題采集模塊中采用初始種子和主題過濾等策略,大幅壓縮采集后的數(shù)據(jù)量,過濾物流無關(guān)的信息,提高物流主題相關(guān)性。在分布式索引模塊中采用哈希分片策略解決分布式索引問題,提高分布式索引效率,同時(shí),引入IKanalyzer增強(qiáng)搜索引擎系統(tǒng)的中文搜索能力。在物流信息搜索模塊中采用用戶自主選擇排序的方式呈現(xiàn)最終搜索結(jié)果,并通過高亮顯示技術(shù)提高用戶體驗(yàn)。(3)對(duì)于傳統(tǒng)搜索引擎中不同用戶的相同查詢返回相同結(jié)果的問題,本文提出了基于用戶興趣的結(jié)果重排序方案。對(duì)搜索引擎返回的相關(guān)性結(jié)果進(jìn)行重排序,并沒有改變搜索結(jié)果,只是將用戶更感興趣的重排在前面,以此來滿足不同用戶的個(gè)性化搜索需求。(4)最后,通過實(shí)驗(yàn)測(cè)試證明,本系統(tǒng)可以較快速的完成主題網(wǎng)頁(yè)抓取,實(shí)現(xiàn)高質(zhì)量的搜索,并對(duì)中文搜索具有較好的支持。
【圖文】:

中國(guó)網(wǎng),使用率,普及率,引擎


圖1-1中國(guó)網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率逡逑其中搜素引擎用戶達(dá)到6.02億,使用率82.7%,較2015年底增加3615萬(wàn)人,增長(zhǎng)逡逑率6.4%,近年來搜索引擎用戶規(guī)模及使用率呈現(xiàn)上升增長(zhǎng)的趨勢(shì)如圖1-2所示。逡逑

使用率,搜索引擎,通用搜索引擎,普及率


2006邐2007邐2008邐2009邐2010邐2011邐2012邐2013邐2014邐2015邐2016逡逑M網(wǎng)民數(shù)邋H■—互聯(lián)網(wǎng)普及率逡逑圖1-1中國(guó)網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率逡逑其中搜素引擎用戶達(dá)到6.02億,使用率82.7%,較2015年底增加3615萬(wàn)人,增長(zhǎng)逡逑率6.4%,近年來搜索引擎用戶規(guī)模及使用率呈現(xiàn)上升增長(zhǎng)的趨勢(shì)如圖1-2所示。逡逑
【學(xué)位授予單位】:揚(yáng)州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 唐娜;肖鸝;;信息檢索技術(shù)的研究[J];湖北科技學(xué)院學(xué)報(bào);2015年05期

2 柴潔;;基于IKAnalyzer和Lucene的地理編碼中文搜索引擎的研究與實(shí)現(xiàn)[J];城市勘測(cè);2014年06期

3 吳茜;劉嘉勇;卿粼波;;基于VIPS算法和模糊字典匹配的網(wǎng)頁(yè)提取技術(shù)研究[J];信息網(wǎng)絡(luò)安全;2014年10期

4 路永和;李焰鋒;;改進(jìn)TF-IDF算法的文本特征項(xiàng)權(quán)值計(jì)算方法[J];圖書情報(bào)工作;2013年03期

5 劉雋;;中外搜索引擎性能評(píng)測(cè)分析[J];情報(bào)探索;2012年10期

6 李華昱;劉亞南;歐陽(yáng)純萍;;一種χ2統(tǒng)計(jì)-遺傳算法的特征提取技術(shù)研究[J];微型電腦應(yīng)用;2012年02期

7 蘇君華;;搜索引擎評(píng)價(jià)研究綜述[J];情報(bào)雜志;2011年04期

8 吳曉暉;廖家艷;陳延壽;;中外搜索引擎對(duì)比與研究熱點(diǎn)分析[J];情報(bào)雜志;2010年12期

9 王文鈞;李巍;;垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J];情報(bào)科學(xué);2010年03期

10 王靜疆;;搜索引擎評(píng)價(jià)指標(biāo)體系比較研究[J];圖書情報(bào)工作;2008年10期

相關(guān)碩士學(xué)位論文 前8條

1 肖運(yùn)文;基于ElasticSearch的教育資源推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2016年

2 陳歡;面向垂直搜索引擎的聚焦網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];華中師范大學(xué);2014年

3 王樺;基于廣度優(yōu)先的主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2011年

4 陳飛宏;基于向量空間模型的中文文本相似度算法研究[D];電子科技大學(xué);2011年

5 時(shí)延軍;基于Nutch的分布式搜索引擎的設(shè)計(jì)與研究[D];長(zhǎng)春理工大學(xué);2010年

6 侯航;基于URL分析的主題網(wǎng)絡(luò)機(jī)器人研究[D];電子科技大學(xué);2009年

7 尹輝;基于Nutch的搜索系統(tǒng)的研究[D];電子科技大學(xué);2008年

8 張校乾;基于Lucene的全文檢索系統(tǒng)的研究與應(yīng)用[D];大連理工大學(xué);2005年

,

本文編號(hào):2638535

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/wuliuguanlilunwen/2638535.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0be91***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com