基于分布式的搜索引擎框架與研究和實現(xiàn)(HDFS+Lucene).pdf下載
本文關(guān)鍵詞:基于分布式的搜索引擎框架研究和實現(xiàn),由筆耕文化傳播整理發(fā)布。
西北工業(yè)大學(xué)
碩士學(xué)位論文
基于分布式的搜索引擎框架研究和實現(xiàn)
姓名:蔣建洪
申請學(xué)位級別:碩士
專業(yè):軟件工程
指導(dǎo)教師:張捷
座機電話號碼
西北工業(yè)大學(xué)碩士學(xué)位論文
摘要
摘要
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)中的信息也是呈幾何級數(shù)爆炸增長,人們
查閱資料已不是依靠有限范圍內(nèi)的網(wǎng)站來尋找,而是依靠搜索引擎對信息海洋中
的海量數(shù)據(jù)進行訪問了。搜索引擎也越來越普遍應(yīng)用到各個層面中,大到整個互
聯(lián)網(wǎng)絡(luò)的搜索,小到本地文件的搜索,本文正是基于搜索引擎的普遍化,設(shè)計并
實現(xiàn)了一個分布式的搜索引擎框架,能夠應(yīng)用于不同的搜索方案。
本文首先介紹了KM分布式系統(tǒng)所使用到的工具包,并且分析了其中的一些
原理和實現(xiàn)機制。隨后重點介紹了Hadoop分布式編程框架的原理。KM分布式搜
技術(shù)能夠高效而穩(wěn)定的運行分布式的任務(wù)。本文還詳細探討了信息抓取模塊中負
責訪問網(wǎng)絡(luò)部分的效率分析,采用DNS預(yù)轉(zhuǎn)換的方式加速網(wǎng)絡(luò)爬蟲的訪問速度。
采用運行在每一個節(jié)點上的分布式搜索服務(wù)器,能夠提供每個分布式節(jié)點中的索
引數(shù)據(jù)的搜索能力。重點闡述了KM分布式搜索系統(tǒng)框架的實現(xiàn)。不僅給出了系
統(tǒng)各模塊之間的關(guān)系,,而且還分析了各個模塊的實現(xiàn)原理和思想。在本文相關(guān)模
塊的開發(fā)中,還嘗試了使用測試驅(qū)動的開發(fā)方法,先寫測試代碼后實現(xiàn),能夠快
速的開發(fā)出需要的功能而又保證程序的健壯性。對于分布式的應(yīng)用來
本文關(guān)鍵詞:基于分布式的搜索引擎框架研究和實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:211984
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/211984.html