基于MapReduce全文檢索系統(tǒng)設(shè)計與實現(xiàn)
本文關(guān)鍵詞:基于MapReduce全文檢索系統(tǒng)設(shè)計與實現(xiàn)
更多相關(guān)文章: MapReduce 全文檢索 分類索引 Lucene 檢索效率
【摘要】:在上世紀(jì)90年代,以因特網(wǎng)為代表的計算機(jī)網(wǎng)絡(luò)還是少量研究人員使用的高深技術(shù),但是很快就和計算機(jī)硬件一起以極其驚人的速度進(jìn)入到普通民眾的生活中。同時,計算機(jī)上產(chǎn)生的數(shù)據(jù)越來越多。如何在大量信息中找到有用信息成為研究者們關(guān)注的焦點。這過程中一批通用搜索引擎誕生,例如Google、Yahoo、百度等。搜索引擎的發(fā)展越來越呈現(xiàn)出被少數(shù)幾個公司掌控的局面,而通用搜索引擎在機(jī)構(gòu)內(nèi)部常常無法滿足用戶的搜索需求。本文采用開源的Apache分布式框架Hadoop與全文檢索引擎框架Lucene來完成在相對規(guī)模較大、產(chǎn)生文件量較多的局域網(wǎng)范圍內(nèi)實現(xiàn)分布式搜索引擎。設(shè)計方案主要分為三個部分:第一部分針對用戶提交的源文件建立索引,存儲到HDFS中,提出了分類策略,針對不同文件格式分別建立索引,獨立存儲索引文件,解決了以往單機(jī)環(huán)境下索引數(shù)據(jù)量過大而成為服務(wù)器處理瓶頸的問題,同時還保存了源文件的分類特征;第二部分根據(jù)用戶提交的檢索關(guān)鍵詞,在第一部分建立的分類索引文件中檢索出結(jié)果后返回給用戶,本文提出采用基于遠(yuǎn)程過程調(diào)用進(jìn)行數(shù)據(jù)統(tǒng)計的方式解決了分布式環(huán)境下衡量檢索關(guān)鍵詞與檢索結(jié)果相關(guān)性計算中部分計算因子在獲取上存在障礙的問題;第三部分利用用戶檢索的歷史結(jié)果,提供用戶在歷史檢索結(jié)果中快速檢索。本文針對響應(yīng)速度的要求,借鑒操作系統(tǒng)中緩存的思想,充分利用用戶的歷史檢索記錄挖掘用戶檢索行為規(guī)律,提出基于歷史檢索記錄的快速檢索方案,該方案針對被常檢索到的文件,建立單獨的索引進(jìn)行存儲,在用戶選擇快速檢索時將優(yōu)先在該基于用戶歷史檢索記錄挖掘出的被頻繁檢索的文檔單獨建立的索引文件中進(jìn)行檢索。該系統(tǒng)采用快速檢索與全局檢索相結(jié)合的方式,在分布式環(huán)境下實現(xiàn)了搜索引擎的基本功能,并且已經(jīng)投入實際應(yīng)用。
【關(guān)鍵詞】:MapReduce 全文檢索 分類索引 Lucene 檢索效率
【學(xué)位授予單位】:東北大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要5-6
- Abstract6-9
- 第1章 緒論9-15
- 1.1 論文研究背景及意義9-11
- 1.1.1 論文研究背景9-11
- 1.1.2 本文工作意義11
- 1.2 國內(nèi)外研究現(xiàn)狀11-13
- 1.3 論文研究內(nèi)容13
- 1.4 論文組織結(jié)構(gòu)13-15
- 第2章 相關(guān)技術(shù)15-29
- 2.1 HDFS與MapReduce15-22
- 2.1.1 分布式文件系統(tǒng)HDFS15-19
- 2.1.2 分布式編程模型MapReduce19-22
- 2.2 搜索引擎框架Lucene介紹22-27
- 2.2.1 Lucene索引框架24-26
- 2.2.2 Lucene檢索流程26-27
- 2.3 本章小結(jié)27-29
- 第3章 基于文件分類的分布式索引生成方法29-41
- 3.1 問題描述29-30
- 3.2 基于分類策略分布式索引30-39
- 3.3 方法有效性分析39
- 3.4 本章小結(jié)39-41
- 第4章 基于MapReduce的分布式檢索方法41-53
- 4.1 問題描述41-42
- 4.2 檢索結(jié)果相關(guān)性計算42-51
- 4.2.1 檢索結(jié)果相關(guān)性分析43-44
- 4.2.2 基于遠(yuǎn)程過程調(diào)用的檢索結(jié)果相關(guān)性數(shù)據(jù)統(tǒng)計44-50
- 4.2.3 基于分布式編程模型的檢索50-51
- 4.3 本章小結(jié)51-53
- 第5章 基于歷史檢索記錄的快速檢索方法53-61
- 5.1 問題描述53-54
- 5.2 歷史檢索記錄在搜索引擎中的作用分析54-56
- 5.3 基于歷史檢索記錄的快速檢索56-59
- 5.3.1 基于歷史記錄挖掘的頻繁文檔索引生成56-57
- 5.3.2 快速檢索57-59
- 5.3.3 基于歷史檢索記錄索引的維護(hù)59
- 5.4 本章小結(jié)59-61
- 第6章 測試結(jié)果與分析61-69
- 6.1 分布式全文檢索框架搭建61-62
- 6.2 系統(tǒng)的部署62-65
- 6.3 實驗與分析65-68
- 6.3.1 測試方案完成任務(wù)情況65-66
- 6.3.2 與單機(jī)環(huán)境下檢索系統(tǒng)的對比66-67
- 6.3.3 與部分分布式環(huán)境下檢索系統(tǒng)的對比67-68
- 6.4 本章小結(jié)68-69
- 第7章 總結(jié)與展望69-71
- 7.1 總結(jié)69
- 7.2 展望69-71
- 參考文獻(xiàn)71-75
- 致謝75
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 宗寧;小型中文全文檢索系統(tǒng)的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2005年14期
2 劉寧,陳光祚,路學(xué);論全文檢索系統(tǒng)[J];現(xiàn)代圖書情報技術(shù);1989年04期
3 陳光祚;論全文檢索系統(tǒng)[J];武漢大學(xué)學(xué)報(社會科學(xué)版);1989年06期
4 陳睿,陳光祚,謝新洲;湖北省地方志全文檢索系統(tǒng)(續(xù))[J];情報理論與實踐;1991年03期
5 楊則正;Calera's Wordscan全文檢索系統(tǒng)[J];管理科學(xué)文摘;1997年09期
6 王梅;全文檢索系統(tǒng)的分析與選擇[J];圖書情報工作;1999年06期
7 謝授麟;水利水電技術(shù)標(biāo)準(zhǔn)全文檢索系統(tǒng)[J];水利規(guī)劃設(shè)計;2000年02期
8 余海燕,張仲義;基于單漢字索引的全文檢索系統(tǒng)的優(yōu)化研究[J];中文信息學(xué)報;2001年04期
9 紀(jì)蔚蔚;公安文獻(xiàn)全文檢索系統(tǒng)中超文本技術(shù)的運用[J];公安大學(xué)學(xué)報(自然科學(xué)版);2002年04期
10 孫詠波;郭紅鋒;;天文文獻(xiàn)全文檢索系統(tǒng)的研究與實現(xiàn)[J];天文研究與技術(shù);2007年03期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 趙慧;李春明;鮑可進(jìn);;一種基于DotLucene搜索引擎的知識庫中文全文檢索系統(tǒng)[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年
2 周小庭;;用Info Digger全文檢索系統(tǒng)構(gòu)建首都師大基教中心網(wǎng)上平臺[A];OA’99辦公自動化全國學(xué)術(shù)研討暨展示會論文集[C];1999年
中國重要報紙全文數(shù)據(jù)庫 前2條
1 肖詩斌;全文檢索技術(shù)的深層剖析[N];中國計算機(jī)報;2003年
2 羅懿;世紀(jì)永聯(lián)搜索引擎獲獎[N];中國企業(yè)報;2000年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 吳煒;密文全文檢索系統(tǒng)中的索引機(jī)制研究[D];華中科技大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 黃小文;基于NoSQL存儲的海量文檔全文檢索系統(tǒng)的研究與實現(xiàn)[D];華北電力大學(xué);2015年
2 張雯;TextRank算法的改進(jìn)及在政法全文檢索系統(tǒng)中的應(yīng)用[D];廣西大學(xué);2015年
3 陶化忠;基于MapReduce全文檢索系統(tǒng)設(shè)計與實現(xiàn)[D];東北大學(xué);2014年
4 何勝利;礦山法律法規(guī)全文檢索系統(tǒng)的研究與應(yīng)用[D];西安建筑科技大學(xué);2005年
5 楊鎰菲;基于云存儲的分布式全文檢索系統(tǒng)的設(shè)計與實現(xiàn)[D];華南理工大學(xué);2012年
6 蔡晶晶;多文檔全文檢索系統(tǒng)的設(shè)計與開發(fā)[D];電子科技大學(xué);2013年
7 王紅勝;多文檔全文檢索系統(tǒng)的設(shè)計與開發(fā)[D];電子科技大學(xué);2010年
8 劉超;專利全文檢索系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2010年
9 李秦;基于用戶行為的全文檢索系統(tǒng)個性化推薦研究[D];西南大學(xué);2009年
10 席敏;基于單漢字索引的全文檢索系統(tǒng)的研究與實現(xiàn)[D];西安電子科技大學(xué);2010年
,本文編號:721401
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/721401.html