基于Nutch的分布式搜索引擎的研究與實現(xiàn)
發(fā)布時間:2019-09-25 02:56
【摘要】:隨著互聯(lián)網(wǎng)的迅猛發(fā)展,人們已經(jīng)越來越依賴網(wǎng)絡(luò)來獲取信息,搜搜引擎的出現(xiàn)在人們與海量網(wǎng)絡(luò)信息之間架起了一座橋梁。然而,隨著互聯(lián)網(wǎng)用戶的激增和網(wǎng)絡(luò)信息呈指數(shù)級的增長,網(wǎng)絡(luò)流量也激增,傳統(tǒng)的集中式搜索引擎遇到了瓶頸。目前,分布式計算技術(shù)由于其更強大的數(shù)據(jù)處理能力,在一定程度上緩解了這個矛盾。本文基于優(yōu)秀的開源分布式網(wǎng)絡(luò)爬蟲Nutch,以及優(yōu)秀的分布式全文搜索服務(wù)器Elasticsearch,實現(xiàn)了一個簡單的分布式搜索引擎系統(tǒng)。本文首先介紹了搜索引擎的原理及其一般體系結(jié)構(gòu),然后介紹了實現(xiàn)分布式搜索引擎的相關(guān)開源技術(shù):Nutch技術(shù),Lucene技術(shù),Elasticsearch技術(shù),以及Apache Hadoop。在基于這些技術(shù)的基礎(chǔ)之上,提出了集成Nutch和Elasticsearch的分布式搜索引擎的總體架構(gòu)。在本系統(tǒng)中,Nutch主要負責(zé)網(wǎng)頁數(shù)據(jù)的抓取,Elasticsearch則作為全文檢索服務(wù)器,索引由Nutch抓取的網(wǎng)頁數(shù)據(jù),并對外提供搜索服務(wù)。在系統(tǒng)的實現(xiàn)過程中,引入了IKanalyzer來增強搜索引擎系統(tǒng)對中文搜索的支持,并實現(xiàn)了搜索引擎的前端Web程序。最后通過實驗測試,證明本系統(tǒng)可以較快速的實現(xiàn)網(wǎng)頁抓取,實現(xiàn)高質(zhì)量的搜索,并對中文搜索具有較好的支持。
【學(xué)位授予單位】:湖北工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3
【學(xué)位授予單位】:湖北工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3
【相似文獻】
相關(guān)期刊論文 前10條
1 嚴春來;;基于Nutch的個性化搜索引擎的研究與探討[J];電腦編程技巧與維護;2014年04期
2 夏天;;Nutch的插件機制分析[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2010年01期
3 李村合;呂克強;;Nutch搜索引擎的頁面排序修改方法研究[J];計算機工程與設(shè)計;2009年06期
4 顧s,
本文編號:2541196
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2541196.html
最近更新
教材專著