基于Map/Reduce的分布式智能搜索引擎框架研究
發(fā)布時間:2021-04-21 19:19
隨著搜索經(jīng)濟(jì)的崛起,人們開始越加關(guān)注全球各大搜索引擎的性能、技術(shù)和日流量。作為企業(yè),會根據(jù)搜索引擎的知名度以及日流量來選擇是否要投放廣告等;作為普通網(wǎng)民,會根據(jù)搜索引擎的性能和技術(shù)來選擇自己喜歡的引擎查找資料;作為技術(shù)人員,會把有代表性的搜索引擎作為研究對象。搜索引擎經(jīng)濟(jì)的崛起,又一次向人們證明了互聯(lián)網(wǎng)所蘊(yùn)藏的巨大商機(jī);ヂ(lián)網(wǎng)離開了搜索將只剩下空洞雜亂的數(shù)據(jù),以及大量等待去費(fèi)力挖掘的金礦。如今互聯(lián)網(wǎng)中的信息每天以指數(shù)級的數(shù)量增長,面對海量數(shù)據(jù)的處理和存儲,傳統(tǒng)的集中式搜索引擎顯得無能為力。另外傳統(tǒng)搜索引擎系統(tǒng)一般都采用關(guān)鍵詞匹配模式,無法理解用戶搜索意圖,使得用戶在互聯(lián)網(wǎng)上搜索自己真正需要的信息很困難。因此搜索引擎的分布式智能化是未來發(fā)展的趨勢。本文從研究和設(shè)計的角度出發(fā),對分布式智能搜索引擎的相關(guān)理論和技術(shù)進(jìn)行了詳細(xì)的分析和討論,將基于Map/Reduce的分布式智能搜索引擎框架研究分為三個層次,即分布式并行計算理論方法研究、搜索引擎原理的研究以及基于分布式的智能搜索引擎研究。論文主要研究的內(nèi)容如下:論述了目前搜索引擎的國內(nèi)外發(fā)展現(xiàn)狀、存在的問題以及發(fā)展趨勢;分析了搜索引擎的工作原理...
【文章來源】:武漢理工大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:120 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 選題的背景與研究意義
1.2 搜索引擎研究綜述
1.2.1 國內(nèi)外搜索引擎研究的背景和進(jìn)展
1.2.2 傳統(tǒng)搜索引擎存在的問題
1.2.3 搜索引擎的分布式智能化趨勢
1.3 研究的內(nèi)容和方法
1.3.1 研究的內(nèi)容
1.3.2 研究的方法
第2章 搜索引擎的原理和實現(xiàn)技術(shù)
2.1 搜索引擎原理及相關(guān)關(guān)鍵技術(shù)
2.1.1 搜索引擎理論基礎(chǔ)
2.1.2 搜索引擎工作原理
2.1.3 分詞原理
2.1.4 索引組織方法
2.2 面向搜索引擎的分布式計算技術(shù)
2.2.1 分布式計算的工作原理
2.2.2 網(wǎng)格計算
2.2.3 云計算
2.2.4 Map/Reduce計算模型
第3章 面向智能搜索引擎的Lucene、Hadoop的理論與技術(shù)研究
3.1 面向智能搜索引擎Lucene的原理研究
3.1.1 Lucene系統(tǒng)的結(jié)構(gòu)組織
3.1.2 Lucene數(shù)據(jù)流分析
3.1.3 Lucene索引的數(shù)據(jù)結(jié)構(gòu)
3.2 面向智能搜索引擎Hadoop的框架研究
3.2.1 Hadoop基本結(jié)構(gòu)
3.2.2 HDFS
3.2.3 Hadoop中的Map/Reduce實現(xiàn)
第4章 IEBSou分布式智能搜索引擎研究
4.1 分布式智能槽索的需求
4.2 IEBSou結(jié)構(gòu)模型研究
4.3 信息采集原理
4.3.1 Robots Exclusion Protocol
4.3.2 網(wǎng)頁抓取
4.3.3 文檔解析
4.3.4 網(wǎng)頁消重
4.4 語言分析技術(shù)
4.4.1 新詞識別算法
4.4.2 專有名詞識別算法
4.5 IEBSou索引理論
4.5.1 倒排索引
4.5.2 概念庫構(gòu)建
4.6 IEBSou檢索功能設(shè)計
第5章 IEBSou分布式智能搜索引擎的實現(xiàn)
5.1 IEBSou環(huán)境搭建
5.2 IEBSou的Map/Reduce基礎(chǔ)平臺
5.3 信息采集模塊的實現(xiàn)
5.3.1 基于Map/Reduce基礎(chǔ)平臺的設(shè)計
5.3.2 文檔解析框架
5.4 語言分析模塊的實現(xiàn)
5.4.1 分詞詞典的設(shè)計
5.4.2 IEBChinese Analyzer的實現(xiàn)
5.5 索引模塊的構(gòu)建
5.6 檢索模塊與EC語義詞典的集成
5.7 IEBSou運(yùn)行界面
第6章 全文總結(jié)與研究展望
6.1 全文總結(jié)
6.1.1 全文主要內(nèi)容
6.1.2 主要創(chuàng)新點(diǎn)
6.2 研究展望
參考文獻(xiàn)
在讀期間參加的科研項目
在讀期間發(fā)表的論文
致謝
【參考文獻(xiàn)】:
期刊論文
[1]搜索引擎技術(shù)及其發(fā)展趨勢[J]. 胡雙雙,秦杰. 福建電腦. 2008(06)
[2]基于壓縮后綴數(shù)組技術(shù)的搜索引擎[J]. 姚全珠,張楠,楊增輝,田元. 計算機(jī)工程. 2008(10)
[3]自然語言檢索中的中文分詞技術(shù)研究進(jìn)展及應(yīng)用[J]. 何莘,王琬蕪. 情報科學(xué). 2008(05)
[4]搜索引擎的過去時、現(xiàn)在時和將來時[J]. 王軍. 蘭臺世界. 2008(06)
[5]試論搜索引擎的現(xiàn)狀與發(fā)展[J]. 門鳳超,苗軍民. 現(xiàn)代情報. 2008(02)
[6]基于Map/Reduce的分布式搜索引擎研究[J]. 吳寶貴,丁振國. 現(xiàn)代圖書情報技術(shù). 2007(08)
[7]基于Map/Reduce的網(wǎng)頁消重并行算法[J]. 張元豐,董守斌,張凌,陳曉志. 廣西師范大學(xué)學(xué)報(自然科學(xué)版). 2007(02)
[8]主要分布式搜索引擎技術(shù)的研究[J]. 蔣建洪. 科學(xué)技術(shù)與工程. 2007(10)
[9]基于搜索引擎的中文分詞評估方法[J]. 王華棟,饒培倫. 情報科學(xué). 2007(01)
[10]一種新的基于XML的索引機(jī)制[J]. 姚全珠,丁曉劍,任雪利,張志鋒. 計算機(jī)工程. 2006(15)
博士論文
[1]智能搜索引擎理論與應(yīng)用研究[D]. 陳治平.湖南大學(xué) 2003
碩士論文
[1]基于P2P的分布式搜索技術(shù)研究與實現(xiàn)[D]. 張穎卓.成都理工大學(xué) 2008
[2]基于分布式的智能搜索引擎[D]. 姜鑫維.武漢理工大學(xué) 2006
[3]分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究與實現(xiàn)[D]. 蘇旋.哈爾濱工業(yè)大學(xué) 2006
[4]基于分詞的中文文本相似度計算研究[D]. 沈斌.天津財經(jīng)大學(xué) 2006
[5]智能中文搜索引擎若干關(guān)鍵技術(shù)的研究與實現(xiàn)[D]. 潘照明.浙江大學(xué) 2006
[6]基于P2P的分布式中文搜索引擎的應(yīng)用研究[D]. 丁邦旭.南昌大學(xué) 2006
[7]分布式搜索引擎緩存設(shè)計及優(yōu)化[D]. 王明功.北京郵電大學(xué) 2006
[8]分布式系統(tǒng)中的文本信息檢索技術(shù)研究[D]. 劉紅星.清華大學(xué) 2004
[9]基于事件框架的主題相關(guān)文檔智能檢索的初步研究[D]. 吳平博.清華大學(xué) 2004
[10]智能搜索引擎系統(tǒng)的分析設(shè)計與開發(fā)[D]. 陳魁.大連理工大學(xué) 2004
本文編號:3152338
【文章來源】:武漢理工大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:120 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 選題的背景與研究意義
1.2 搜索引擎研究綜述
1.2.1 國內(nèi)外搜索引擎研究的背景和進(jìn)展
1.2.2 傳統(tǒng)搜索引擎存在的問題
1.2.3 搜索引擎的分布式智能化趨勢
1.3 研究的內(nèi)容和方法
1.3.1 研究的內(nèi)容
1.3.2 研究的方法
第2章 搜索引擎的原理和實現(xiàn)技術(shù)
2.1 搜索引擎原理及相關(guān)關(guān)鍵技術(shù)
2.1.1 搜索引擎理論基礎(chǔ)
2.1.2 搜索引擎工作原理
2.1.3 分詞原理
2.1.4 索引組織方法
2.2 面向搜索引擎的分布式計算技術(shù)
2.2.1 分布式計算的工作原理
2.2.2 網(wǎng)格計算
2.2.3 云計算
2.2.4 Map/Reduce計算模型
第3章 面向智能搜索引擎的Lucene、Hadoop的理論與技術(shù)研究
3.1 面向智能搜索引擎Lucene的原理研究
3.1.1 Lucene系統(tǒng)的結(jié)構(gòu)組織
3.1.2 Lucene數(shù)據(jù)流分析
3.1.3 Lucene索引的數(shù)據(jù)結(jié)構(gòu)
3.2 面向智能搜索引擎Hadoop的框架研究
3.2.1 Hadoop基本結(jié)構(gòu)
3.2.2 HDFS
3.2.3 Hadoop中的Map/Reduce實現(xiàn)
第4章 IEBSou分布式智能搜索引擎研究
4.1 分布式智能槽索的需求
4.2 IEBSou結(jié)構(gòu)模型研究
4.3 信息采集原理
4.3.1 Robots Exclusion Protocol
4.3.2 網(wǎng)頁抓取
4.3.3 文檔解析
4.3.4 網(wǎng)頁消重
4.4 語言分析技術(shù)
4.4.1 新詞識別算法
4.4.2 專有名詞識別算法
4.5 IEBSou索引理論
4.5.1 倒排索引
4.5.2 概念庫構(gòu)建
4.6 IEBSou檢索功能設(shè)計
第5章 IEBSou分布式智能搜索引擎的實現(xiàn)
5.1 IEBSou環(huán)境搭建
5.2 IEBSou的Map/Reduce基礎(chǔ)平臺
5.3 信息采集模塊的實現(xiàn)
5.3.1 基于Map/Reduce基礎(chǔ)平臺的設(shè)計
5.3.2 文檔解析框架
5.4 語言分析模塊的實現(xiàn)
5.4.1 分詞詞典的設(shè)計
5.4.2 IEBChinese Analyzer的實現(xiàn)
5.5 索引模塊的構(gòu)建
5.6 檢索模塊與EC語義詞典的集成
5.7 IEBSou運(yùn)行界面
第6章 全文總結(jié)與研究展望
6.1 全文總結(jié)
6.1.1 全文主要內(nèi)容
6.1.2 主要創(chuàng)新點(diǎn)
6.2 研究展望
參考文獻(xiàn)
在讀期間參加的科研項目
在讀期間發(fā)表的論文
致謝
【參考文獻(xiàn)】:
期刊論文
[1]搜索引擎技術(shù)及其發(fā)展趨勢[J]. 胡雙雙,秦杰. 福建電腦. 2008(06)
[2]基于壓縮后綴數(shù)組技術(shù)的搜索引擎[J]. 姚全珠,張楠,楊增輝,田元. 計算機(jī)工程. 2008(10)
[3]自然語言檢索中的中文分詞技術(shù)研究進(jìn)展及應(yīng)用[J]. 何莘,王琬蕪. 情報科學(xué). 2008(05)
[4]搜索引擎的過去時、現(xiàn)在時和將來時[J]. 王軍. 蘭臺世界. 2008(06)
[5]試論搜索引擎的現(xiàn)狀與發(fā)展[J]. 門鳳超,苗軍民. 現(xiàn)代情報. 2008(02)
[6]基于Map/Reduce的分布式搜索引擎研究[J]. 吳寶貴,丁振國. 現(xiàn)代圖書情報技術(shù). 2007(08)
[7]基于Map/Reduce的網(wǎng)頁消重并行算法[J]. 張元豐,董守斌,張凌,陳曉志. 廣西師范大學(xué)學(xué)報(自然科學(xué)版). 2007(02)
[8]主要分布式搜索引擎技術(shù)的研究[J]. 蔣建洪. 科學(xué)技術(shù)與工程. 2007(10)
[9]基于搜索引擎的中文分詞評估方法[J]. 王華棟,饒培倫. 情報科學(xué). 2007(01)
[10]一種新的基于XML的索引機(jī)制[J]. 姚全珠,丁曉劍,任雪利,張志鋒. 計算機(jī)工程. 2006(15)
博士論文
[1]智能搜索引擎理論與應(yīng)用研究[D]. 陳治平.湖南大學(xué) 2003
碩士論文
[1]基于P2P的分布式搜索技術(shù)研究與實現(xiàn)[D]. 張穎卓.成都理工大學(xué) 2008
[2]基于分布式的智能搜索引擎[D]. 姜鑫維.武漢理工大學(xué) 2006
[3]分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究與實現(xiàn)[D]. 蘇旋.哈爾濱工業(yè)大學(xué) 2006
[4]基于分詞的中文文本相似度計算研究[D]. 沈斌.天津財經(jīng)大學(xué) 2006
[5]智能中文搜索引擎若干關(guān)鍵技術(shù)的研究與實現(xiàn)[D]. 潘照明.浙江大學(xué) 2006
[6]基于P2P的分布式中文搜索引擎的應(yīng)用研究[D]. 丁邦旭.南昌大學(xué) 2006
[7]分布式搜索引擎緩存設(shè)計及優(yōu)化[D]. 王明功.北京郵電大學(xué) 2006
[8]分布式系統(tǒng)中的文本信息檢索技術(shù)研究[D]. 劉紅星.清華大學(xué) 2004
[9]基于事件框架的主題相關(guān)文檔智能檢索的初步研究[D]. 吳平博.清華大學(xué) 2004
[10]智能搜索引擎系統(tǒng)的分析設(shè)計與開發(fā)[D]. 陳魁.大連理工大學(xué) 2004
本文編號:3152338
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/3152338.html
最近更新
教材專著