基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)探討

發(fā)布時(shí)間：2016-10-25 17:34

本文關(guān)鍵詞：基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)，由筆耕文化傳播整理發(fā)布。

閱讀技巧：Ctrl+D 收藏本篇文章

基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)探討

現(xiàn)今，互聯(lián)網(wǎng)的信息已經(jīng)融入了人們的生活與學(xué)習(xí)中，人們?cè)絹碓街匾曅畔@取的能力。傳統(tǒng)的集中式搜索引擎，存在覆蓋范圍窄，更新時(shí)間長(zhǎng)，返回結(jié)果多，存在查詢歧義等問題，已經(jīng)不能適應(yīng)現(xiàn)今網(wǎng)絡(luò)的發(fā)展，開發(fā)出一種可以快速處理信息，準(zhǔn)確獲取資源的搜索引擎，是現(xiàn)今網(wǎng)絡(luò)研究的熱點(diǎn)[1]。因此，分布式搜索引擎應(yīng)運(yùn)而生。該搜索引擎具備分布式處理信息的作用，可以對(duì)系統(tǒng)規(guī)模進(jìn)行擴(kuò)展，進(jìn)而提高系統(tǒng)處理信息的能力。本文從幾方面，對(duì)在Hadoop平臺(tái)下，分布式搜素引擎進(jìn)行一定的探討，期望可以為網(wǎng)絡(luò)系統(tǒng)的長(zhǎng)遠(yuǎn)發(fā)展提供借鑒。
　　一、Hadoop 平臺(tái)概述
　　Hadoop平臺(tái)，是一種具備擴(kuò)展性、可靠性、高效性、低成本的軟件框架，是分布式處理的軟件平臺(tái)，常被用來處理與運(yùn)行海量數(shù)據(jù)。Hadoop的擴(kuò)展性，體現(xiàn)在可以處理PB 級(jí)數(shù)據(jù)；Hadoop的可靠性，體現(xiàn)在可以保護(hù)多個(gè)工作數(shù)據(jù)副本，可以對(duì)失敗的節(jié)點(diǎn)進(jìn)行重新分布操作。Hadoop的高效性，體現(xiàn)在經(jīng)由并行處理的模式，可以顯著提高處理速度。Hadoop的低成本，體現(xiàn)在它的服務(wù)器較為低端，甚至普通的PC機(jī)就能作為集群的一員，實(shí)現(xiàn)的成本可以得到有效控制[2]�，F(xiàn)今，伴隨多個(gè)版本的進(jìn)展，Hadoop已經(jīng)發(fā)展成為搜索引擎中的理想平臺(tái)。分布式文件系統(tǒng)（HDFS）、分布式計(jì)算 MapReduce，是Hadoop平臺(tái)的兩大核心。除了核心內(nèi)容外，還包括Hbase；Hvie；Chukwa；Avro；Common諸多子項(xiàng)目。子項(xiàng)目之間，可以進(jìn)行服務(wù)的互助操作，或者是依據(jù)核心層，為更高級(jí)別提供服務(wù)[3]。
　　二、基于Hadoop 的分布式搜索引擎的原理及優(yōu)勢(shì)
　　1.分布式搜索引擎的原理
　　分布式搜索引擎，其依據(jù)的標(biāo)準(zhǔn)為地域、IP 地址、主題等，將全網(wǎng)分為多個(gè)區(qū)域，進(jìn)而形成網(wǎng)絡(luò)區(qū)域的自行管理。任何自治區(qū)，都是通過檢索服務(wù)器完成相應(yīng)的工作。具體講，一個(gè)基本的分布式搜索引擎包括分布式信息采集器、分布式索引器以及分布式檢索器三部分。分布式信息采集器，可以在運(yùn)行過程中要求多臺(tái)機(jī)器實(shí)行具體的分工合作。為了提高信息的更新速度、信息發(fā)現(xiàn)的效率，多臺(tái)機(jī)器都應(yīng)在各自的區(qū)域內(nèi)，進(jìn)行相應(yīng)信息的搜索，同時(shí)建立索引，并儲(chǔ)存在索引數(shù)據(jù)庫(kù)中[4]。分布式索引器，可以在不同的機(jī)器上同時(shí)進(jìn)行執(zhí)行操作，降低索引對(duì)于機(jī)器的特殊要求，進(jìn)而實(shí)現(xiàn)檢索服務(wù)器之間的信息交流。分布式檢索器，可以為用戶提供查詢接口。分布式檢索器在實(shí)際應(yīng)用中，還具有一個(gè)特殊優(yōu)勢(shì)，具體講就是當(dāng)用戶的查詢要求增多時(shí)，分布式檢索器可以實(shí)現(xiàn)調(diào)配查詢請(qǐng)求，可以將查詢信息在其余檢索服務(wù)器上進(jìn)行查詢。實(shí)現(xiàn)諸多檢索服務(wù)器中，文檔的同時(shí)檢索功能，進(jìn)而提高檢索的性能與速度。
　　2.分布式搜索引擎優(yōu)勢(shì)
　　分布式搜索引擎，與傳統(tǒng)的集中式搜索引擎進(jìn)行比較，具有顯著的優(yōu)勢(shì)。首先，各個(gè)檢索服務(wù)器都是獨(dú)立的，當(dāng)有檢索服務(wù)器出現(xiàn)故障的問題，并不會(huì)影響其它檢索服務(wù)器的工作。其次，在每臺(tái)服務(wù)器存儲(chǔ)中，其索引數(shù)據(jù)庫(kù)數(shù)據(jù)較少，在進(jìn)行查詢時(shí)可以降低查詢反應(yīng)時(shí)間，大大提高了管理的方便性。第三，分布式搜索引擎具備較好的可擴(kuò)展性，同網(wǎng)絡(luò)資源的分布式特點(diǎn)相符合，便于新機(jī)器的添加，同時(shí)也提高了維護(hù)的便捷性。第四，經(jīng)由檢索服務(wù)器之間的合作，各個(gè)服務(wù)器僅在自身區(qū)域中，進(jìn)行信息資源的檢索操作，最終只提供搜索結(jié)果信息的傳遞。因此，分布式搜索引擎可以顯著的降低各個(gè)服務(wù)器的壓力，緩解網(wǎng)絡(luò)擁堵，提高檢索速度[5]。
　　三、搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
　　1.基于Hadoop的搜索引擎系統(tǒng)總體設(shè)計(jì)
　　整個(gè)搜索引擎系統(tǒng)，是基于Hadoop 集群框架之上。分別由三個(gè)子系統(tǒng)進(jìn)行搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[6]。具體的系統(tǒng)功能如圖1所示。
　　基于 Hadoop 的搜索引擎包括分布式爬行子系統(tǒng)、分布式索引子系統(tǒng)以及分布式檢索子系統(tǒng)三個(gè)部分，每個(gè)系統(tǒng)都可采取MapReduce 的并行模式加以實(shí)現(xiàn)，各自可以獨(dú)立工作，經(jīng)由接口實(shí)現(xiàn)分布式搜索的目的。
　　爬行子系統(tǒng)，對(duì)網(wǎng)頁(yè)的采集過程，都是經(jīng)由Http 協(xié)議進(jìn)行的，包括6大模塊，分別為數(shù)據(jù)庫(kù)更新；解析；抓��；抓取列表生成；URL集注入；URL集生成。
　　索引子系統(tǒng)，主要的目的就是對(duì)抓取的網(wǎng)頁(yè)，建立索引同時(shí)進(jìn)行有效解析。主要包括5個(gè)模塊，分別為索引存儲(chǔ)；索引生成；內(nèi)容評(píng)分排序；中文分詞處理；非結(jié)構(gòu)化文檔解析。
　　檢索子系統(tǒng)，主要用于形成前臺(tái)搜索界面，對(duì)于用戶的查詢請(qǐng)求進(jìn)行有效接收，同時(shí)進(jìn)行處理，實(shí)現(xiàn)內(nèi)容查詢功能。最后將查詢的結(jié)果，返回到用戶界面�？傮w包括2 個(gè)模塊，分別為前臺(tái)用戶界面、后臺(tái)數(shù)據(jù)處理。系統(tǒng)總體架構(gòu)圖，具體如圖2所示。
　　2.搜索引擎系統(tǒng)的實(shí)現(xiàn)
　　首先，爬行子系統(tǒng)在因特網(wǎng)上進(jìn)行文件的下載，通過解析、去重抓取的網(wǎng)頁(yè)，并將頁(yè)面數(shù)據(jù)、提取的鏈接，分別保存在URL 信息庫(kù) CrawlDb 與互聯(lián)關(guān)系庫(kù) LinkDb中。同時(shí)，通知索引子系統(tǒng)，進(jìn)行相應(yīng)的索引。其次，索引子系統(tǒng)，可以對(duì)爬行子系統(tǒng)取得的網(wǎng)頁(yè)數(shù)據(jù)，進(jìn)行網(wǎng)頁(yè)評(píng)分；分詞處理；文檔解析；倒排索引處理。同時(shí)運(yùn)用倒排索引庫(kù)，進(jìn)行等待檢索操作。最后，，用戶經(jīng)由前臺(tái)界面，進(jìn)行檢索請(qǐng)求，檢索子系統(tǒng)運(yùn)用分詞處理模塊，進(jìn)行輸入字符串的分析，并運(yùn)用倒排索引庫(kù)中進(jìn)行檢索，把結(jié)果進(jìn)行排序后回饋給客戶[7]。整個(gè)搜索程序，包括4 個(gè)數(shù)據(jù)庫(kù)。分別為Index數(shù)據(jù)庫(kù)；Segments 數(shù)據(jù)庫(kù)；LinkDb 數(shù)據(jù)庫(kù)；CrawlDb 數(shù)據(jù)庫(kù)。
　　四、結(jié)語(yǔ)
　　現(xiàn)今，分布式搜索引擎，其技術(shù)性較強(qiáng)，可以包括查詢結(jié)果優(yōu)化；分布式計(jì)算；中文分詞；全文檢索等功能。面對(duì)這一新興領(lǐng)域，基于Map/Reduce 的編程模型，其在分布式計(jì)算方面的潛力不可估量，我們應(yīng)進(jìn)行積極的研究，進(jìn)而為Hadoop分布式計(jì)算平臺(tái)的發(fā)展，提供更為廣闊的發(fā)展空間。任何技術(shù)與平臺(tái)，在使用的過程中都會(huì)存在一定的缺陷，Hadoop 平臺(tái)中在調(diào)度算法與任務(wù)分割方面，也存在一定程度的問題。諸如會(huì)出現(xiàn)部分Slave 節(jié)點(diǎn)滿載，而部分節(jié)點(diǎn)空閑的狀況。在未來的發(fā)展本文由畢業(yè)論文網(wǎng)收集整理之中，我們應(yīng)引進(jìn)智能的動(dòng)態(tài)均衡機(jī)制，有效利用節(jié)點(diǎn)計(jì)算功能，在網(wǎng)頁(yè)評(píng)分策略、中文分詞方面進(jìn)行有效的改革，進(jìn)而建構(gòu)出搜索準(zhǔn)確率高、性能更好的分布式搜索引擎[8]。轉(zhuǎn)載請(qǐng)注明來源。：　　

本文關(guān)鍵詞：基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：153198

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/153198.html

上一篇：手把手教你使用Nutch搭建迷你搜索引擎
下一篇：基于主題的搜索引擎的研究與實(shí)現(xiàn).pdf 全文

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)探討