天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)探討

發(fā)布時(shí)間:2016-10-25 17:34

  本文關(guān)鍵詞:基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


閱讀技巧:Ctrl+D 收藏本篇文章

基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)探討

現(xiàn)今,互聯(lián)網(wǎng)的信息已經(jīng)融入了人們的生活與學(xué)習(xí)中,人們?cè)絹碓街匾曅畔@取的能力。傳統(tǒng)的集中式搜索引擎,存在覆蓋范圍窄,更新時(shí)間長(zhǎng),返回結(jié)果多,存在查詢歧義等問題,已經(jīng)不能適應(yīng)現(xiàn)今網(wǎng)絡(luò)的發(fā)展,開發(fā)出一種可以快速處理信息,準(zhǔn)確獲取資源的搜索引擎,是現(xiàn)今網(wǎng)絡(luò)研究的熱點(diǎn)[1]。因此,分布式搜索引擎應(yīng)運(yùn)而生。該搜索引擎具備分布式處理信息的作用,可以對(duì)系統(tǒng)規(guī)模進(jìn)行擴(kuò)展,進(jìn)而提高系統(tǒng)處理信息的能力。本文從幾方面,對(duì)在Hadoop平臺(tái)下,分布式搜素引擎進(jìn)行一定的探討,期望可以為網(wǎng)絡(luò)系統(tǒng)的長(zhǎng)遠(yuǎn)發(fā)展提供借鑒。
  一、Hadoop 平臺(tái)概述
  Hadoop平臺(tái),是一種具備擴(kuò)展性、可靠性、高效性、低成本的軟件框架,是分布式處理的軟件平臺(tái),常被用來處理與運(yùn)行海量數(shù)據(jù)。Hadoop的擴(kuò)展性,體現(xiàn)在可以處理PB 級(jí)數(shù)據(jù);Hadoop的可靠性,體現(xiàn)在可以保護(hù)多個(gè)工作數(shù)據(jù)副本,可以對(duì)失敗的節(jié)點(diǎn)進(jìn)行重新分布操作。Hadoop的高效性,體現(xiàn)在經(jīng)由并行處理的模式,可以顯著提高處理速度。Hadoop的低成本,體現(xiàn)在它的服務(wù)器較為低端,甚至普通的PC機(jī)就能作為集群的一員,實(shí)現(xiàn)的成本可以得到有效控制[2],F(xiàn)今,伴隨多個(gè)版本的進(jìn)展,Hadoop已經(jīng)發(fā)展成為搜索引擎中的理想平臺(tái)。分布式文件系統(tǒng)(HDFS)、分布式計(jì)算 MapReduce,是Hadoop平臺(tái)的兩大核心。除了核心內(nèi)容外,還包括Hbase;Hvie;Chukwa;Avro;Common諸多子項(xiàng)目。子項(xiàng)目之間,可以進(jìn)行服務(wù)的互助操作,或者是依據(jù)核心層,為更高級(jí)別提供服務(wù)[3]。
  二、基于Hadoop 的分布式搜索引擎的原理及優(yōu)勢(shì)
  1.分布式搜索引擎的原理
  分布式搜索引擎,其依據(jù)的標(biāo)準(zhǔn)為地域、IP 地址、主題等,將全網(wǎng)分為多個(gè)區(qū)域,進(jìn)而形成網(wǎng)絡(luò)區(qū)域的自行管理。任何自治區(qū),都是通過檢索服務(wù)器完成相應(yīng)的工作。具體講,一個(gè)基本的分布式搜索引擎包括分布式信息采集器、分布式索引器以及分布式檢索器三部分。分布式信息采集器,可以在運(yùn)行過程中要求多臺(tái)機(jī)器實(shí)行具體的分工合作。為了提高信息的更新速度、信息發(fā)現(xiàn)的效率,多臺(tái)機(jī)器都應(yīng)在各自的區(qū)域內(nèi),進(jìn)行相應(yīng)信息的搜索,同時(shí)建立索引,并儲(chǔ)存在索引數(shù)據(jù)庫(kù)中[4]。分布式索引器,可以在不同的機(jī)器上同時(shí)進(jìn)行執(zhí)行操作,降低索引對(duì)于機(jī)器的特殊要求,進(jìn)而實(shí)現(xiàn)檢索服務(wù)器之間的信息交流。分布式檢索器,可以為用戶提供查詢接口。分布式檢索器在實(shí)際應(yīng)用中,還具有一個(gè)特殊優(yōu)勢(shì),具體講就是當(dāng)用戶的查詢要求增多時(shí),分布式檢索器可以實(shí)現(xiàn)調(diào)配查詢請(qǐng)求,可以將查詢信息在其余檢索服務(wù)器上進(jìn)行查詢。實(shí)現(xiàn)諸多檢索服務(wù)器中,文檔的同時(shí)檢索功能,進(jìn)而提高檢索的性能與速度。
  2.分布式搜索引擎優(yōu)勢(shì)
  分布式搜索引擎,與傳統(tǒng)的集中式搜索引擎進(jìn)行比較,具有顯著的優(yōu)勢(shì)。首先,各個(gè)檢索服務(wù)器都是獨(dú)立的,當(dāng)有檢索服務(wù)器出現(xiàn)故障的問題,并不會(huì)影響其它檢索服務(wù)器的工作。其次,在每臺(tái)服務(wù)器存儲(chǔ)中,其索引數(shù)據(jù)庫(kù)數(shù)據(jù)較少,在進(jìn)行查詢時(shí)可以降低查詢反應(yīng)時(shí)間,大大提高了管理的方便性。第三,分布式搜索引擎具備較好的可擴(kuò)展性,同網(wǎng)絡(luò)資源的分布式特點(diǎn)相符合,便于新機(jī)器的添加,同時(shí)也提高了維護(hù)的便捷性。第四,經(jīng)由檢索服務(wù)器之間的合作,各個(gè)服務(wù)器僅在自身區(qū)域中,進(jìn)行信息資源的檢索操作,最終只提供搜索結(jié)果信息的傳遞。因此,分布式搜索引擎可以顯著的降低各個(gè)服務(wù)器的壓力,緩解網(wǎng)絡(luò)擁堵,提高檢索速度[5]。
  三、搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
  1.基于Hadoop的搜索引擎系統(tǒng)總體設(shè)計(jì)
  整個(gè)搜索引擎系統(tǒng),是基于Hadoop 集群框架之上。分別由三個(gè)子系統(tǒng)進(jìn)行搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[6]。具體的系統(tǒng)功能如圖1所示。
  基于 Hadoop 的搜索引擎包括分布式爬行子系統(tǒng)、分布式索引子系統(tǒng)以及分布式檢索子系統(tǒng)三個(gè)部分,每個(gè)系統(tǒng)都可采取MapReduce 的并行模式加以實(shí)現(xiàn),各自可以獨(dú)立工作,經(jīng)由接口實(shí)現(xiàn)分布式搜索的目的。
  爬行子系統(tǒng),對(duì)網(wǎng)頁(yè)的采集過程,都是經(jīng)由Http 協(xié)議進(jìn)行的,包括6大模塊,分別為數(shù)據(jù)庫(kù)更新;解析;抓;抓取列表生成;URL集注入;URL集生成。
  索引子系統(tǒng),主要的目的就是對(duì)抓取的網(wǎng)頁(yè),建立索引同時(shí)進(jìn)行有效解析。主要包括5個(gè)模塊,分別為索引存儲(chǔ);索引生成;內(nèi)容評(píng)分排序;中文分詞處理;非結(jié)構(gòu)化文檔解析。
  檢索子系統(tǒng),主要用于形成前臺(tái)搜索界面,對(duì)于用戶的查詢請(qǐng)求進(jìn)行有效接收,同時(shí)進(jìn)行處理,實(shí)現(xiàn)內(nèi)容查詢功能。最后將查詢的結(jié)果,返回到用戶界面?傮w包括2 個(gè)模塊,分別為前臺(tái)用戶界面、后臺(tái)數(shù)據(jù)處理。系統(tǒng)總體架構(gòu)圖,具體如圖2所示。
  2.搜索引擎系統(tǒng)的實(shí)現(xiàn)
  首先,爬行子系統(tǒng)在因特網(wǎng)上進(jìn)行文件的下載,通過解析、去重抓取的網(wǎng)頁(yè),并將頁(yè)面數(shù)據(jù)、提取的鏈接,分別保存在URL 信息庫(kù) CrawlDb 與互聯(lián)關(guān)系庫(kù) LinkDb中。同時(shí),通知索引子系統(tǒng),進(jìn)行相應(yīng)的索引。其次,索引子系統(tǒng),可以對(duì)爬行子系統(tǒng)取得的網(wǎng)頁(yè)數(shù)據(jù),進(jìn)行網(wǎng)頁(yè)評(píng)分;分詞處理;文檔解析;倒排索引處理。同時(shí)運(yùn)用倒排索引庫(kù),進(jìn)行等待檢索操作。最后,,用戶經(jīng)由前臺(tái)界面,進(jìn)行檢索請(qǐng)求,檢索子系統(tǒng)運(yùn)用分詞處理模塊,進(jìn)行輸入字符串的分析,并運(yùn)用倒排索引庫(kù)中進(jìn)行檢索,把結(jié)果進(jìn)行排序后回饋給客戶[7]。整個(gè)搜索程序,包括4 個(gè)數(shù)據(jù)庫(kù)。分別為Index數(shù)據(jù)庫(kù);Segments 數(shù)據(jù)庫(kù);LinkDb 數(shù)據(jù)庫(kù);CrawlDb 數(shù)據(jù)庫(kù)。
  四、結(jié)語(yǔ)
  現(xiàn)今,分布式搜索引擎,其技術(shù)性較強(qiáng),可以包括查詢結(jié)果優(yōu)化;分布式計(jì)算;中文分詞;全文檢索等功能。面對(duì)這一新興領(lǐng)域,基于Map/Reduce 的編程模型,其在分布式計(jì)算方面的潛力不可估量,我們應(yīng)進(jìn)行積極的研究,進(jìn)而為Hadoop分布式計(jì)算平臺(tái)的發(fā)展,提供更為廣闊的發(fā)展空間。任何技術(shù)與平臺(tái),在使用的過程中都會(huì)存在一定的缺陷,Hadoop 平臺(tái)中在調(diào)度算法與任務(wù)分割方面,也存在一定程度的問題。諸如會(huì)出現(xiàn)部分Slave 節(jié)點(diǎn)滿載,而部分節(jié)點(diǎn)空閑的狀況。在未來的發(fā)展本文由畢業(yè)論文網(wǎng)收集整理之中,我們應(yīng)引進(jìn)智能的動(dòng)態(tài)均衡機(jī)制,有效利用節(jié)點(diǎn)計(jì)算功能,在網(wǎng)頁(yè)評(píng)分策略、中文分詞方面進(jìn)行有效的改革,進(jìn)而建構(gòu)出搜索準(zhǔn)確率高、性能更好的分布式搜索引擎[8]。 轉(zhuǎn)載請(qǐng)注明來源。:   


  本文關(guān)鍵詞:基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號(hào):153198

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/153198.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶58f52***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com