基于分布式的搜索引擎框架與研究和實(shí)現(xiàn)(HDFS+Lucene).pdf下載
本文關(guān)鍵詞:基于分布式的搜索引擎框架研究和實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
西北工業(yè)大學(xué)
碩士學(xué)位論文
基于分布式的搜索引擎框架研究和實(shí)現(xiàn)
姓名:蔣建洪
申請(qǐng)學(xué)位級(jí)別:碩士
專(zhuān)業(yè):軟件工程
指導(dǎo)教師:張捷
座機(jī)電話號(hào)碼
西北工業(yè)大學(xué)碩士學(xué)位論文
摘要
摘要
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)中的信息也是呈幾何級(jí)數(shù)爆炸增長(zhǎng),人們
查閱資料已不是依靠有限范圍內(nèi)的網(wǎng)站來(lái)尋找,而是依靠搜索引擎對(duì)信息海洋中
的海量數(shù)據(jù)進(jìn)行訪問(wèn)了。搜索引擎也越來(lái)越普遍應(yīng)用到各個(gè)層面中,大到整個(gè)互
聯(lián)網(wǎng)絡(luò)的搜索,小到本地文件的搜索,本文正是基于搜索引擎的普遍化,設(shè)計(jì)并
實(shí)現(xiàn)了一個(gè)分布式的搜索引擎框架,能夠應(yīng)用于不同的搜索方案。
本文首先介紹了KM分布式系統(tǒng)所使用到的工具包,并且分析了其中的一些
原理和實(shí)現(xiàn)機(jī)制。隨后重點(diǎn)介紹了Hadoop分布式編程框架的原理。KM分布式搜
技術(shù)能夠高效而穩(wěn)定的運(yùn)行分布式的任務(wù)。本文還詳細(xì)探討了信息抓取模塊中負(fù)
責(zé)訪問(wèn)網(wǎng)絡(luò)部分的效率分析,采用DNS預(yù)轉(zhuǎn)換的方式加速網(wǎng)絡(luò)爬蟲(chóng)的訪問(wèn)速度。
采用運(yùn)行在每一個(gè)節(jié)點(diǎn)上的分布式搜索服務(wù)器,能夠提供每個(gè)分布式節(jié)點(diǎn)中的索
引數(shù)據(jù)的搜索能力。重點(diǎn)闡述了KM分布式搜索系統(tǒng)框架的實(shí)現(xiàn)。不僅給出了系
統(tǒng)各模塊之間的關(guān)系,,而且還分析了各個(gè)模塊的實(shí)現(xiàn)原理和思想。在本文相關(guān)模
塊的開(kāi)發(fā)中,還嘗試了使用測(cè)試驅(qū)動(dòng)的開(kāi)發(fā)方法,先寫(xiě)測(cè)試代碼后實(shí)現(xiàn),能夠快
速的開(kāi)發(fā)出需要的功能而又保證程序的健壯性。對(duì)于分布式的應(yīng)用來(lái)
本文關(guān)鍵詞:基于分布式的搜索引擎框架研究和實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):211984
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/211984.html