基于MapReduce全文檢索系統(tǒng)設計與實現
本文關鍵詞:基于MapReduce全文檢索系統(tǒng)設計與實現
更多相關文章: MapReduce 全文檢索 分類索引 Lucene 檢索效率
【摘要】:在上世紀90年代,以因特網為代表的計算機網絡還是少量研究人員使用的高深技術,但是很快就和計算機硬件一起以極其驚人的速度進入到普通民眾的生活中。同時,計算機上產生的數據越來越多。如何在大量信息中找到有用信息成為研究者們關注的焦點。這過程中一批通用搜索引擎誕生,例如Google、Yahoo、百度等。搜索引擎的發(fā)展越來越呈現出被少數幾個公司掌控的局面,而通用搜索引擎在機構內部常常無法滿足用戶的搜索需求。本文采用開源的Apache分布式框架Hadoop與全文檢索引擎框架Lucene來完成在相對規(guī)模較大、產生文件量較多的局域網范圍內實現分布式搜索引擎。設計方案主要分為三個部分:第一部分針對用戶提交的源文件建立索引,存儲到HDFS中,提出了分類策略,針對不同文件格式分別建立索引,獨立存儲索引文件,解決了以往單機環(huán)境下索引數據量過大而成為服務器處理瓶頸的問題,同時還保存了源文件的分類特征;第二部分根據用戶提交的檢索關鍵詞,在第一部分建立的分類索引文件中檢索出結果后返回給用戶,本文提出采用基于遠程過程調用進行數據統(tǒng)計的方式解決了分布式環(huán)境下衡量檢索關鍵詞與檢索結果相關性計算中部分計算因子在獲取上存在障礙的問題;第三部分利用用戶檢索的歷史結果,提供用戶在歷史檢索結果中快速檢索。本文針對響應速度的要求,借鑒操作系統(tǒng)中緩存的思想,充分利用用戶的歷史檢索記錄挖掘用戶檢索行為規(guī)律,提出基于歷史檢索記錄的快速檢索方案,該方案針對被常檢索到的文件,建立單獨的索引進行存儲,在用戶選擇快速檢索時將優(yōu)先在該基于用戶歷史檢索記錄挖掘出的被頻繁檢索的文檔單獨建立的索引文件中進行檢索。該系統(tǒng)采用快速檢索與全局檢索相結合的方式,在分布式環(huán)境下實現了搜索引擎的基本功能,并且已經投入實際應用。
【關鍵詞】:MapReduce 全文檢索 分類索引 Lucene 檢索效率
【學位授予單位】:東北大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要5-6
- Abstract6-9
- 第1章 緒論9-15
- 1.1 論文研究背景及意義9-11
- 1.1.1 論文研究背景9-11
- 1.1.2 本文工作意義11
- 1.2 國內外研究現狀11-13
- 1.3 論文研究內容13
- 1.4 論文組織結構13-15
- 第2章 相關技術15-29
- 2.1 HDFS與MapReduce15-22
- 2.1.1 分布式文件系統(tǒng)HDFS15-19
- 2.1.2 分布式編程模型MapReduce19-22
- 2.2 搜索引擎框架Lucene介紹22-27
- 2.2.1 Lucene索引框架24-26
- 2.2.2 Lucene檢索流程26-27
- 2.3 本章小結27-29
- 第3章 基于文件分類的分布式索引生成方法29-41
- 3.1 問題描述29-30
- 3.2 基于分類策略分布式索引30-39
- 3.3 方法有效性分析39
- 3.4 本章小結39-41
- 第4章 基于MapReduce的分布式檢索方法41-53
- 4.1 問題描述41-42
- 4.2 檢索結果相關性計算42-51
- 4.2.1 檢索結果相關性分析43-44
- 4.2.2 基于遠程過程調用的檢索結果相關性數據統(tǒng)計44-50
- 4.2.3 基于分布式編程模型的檢索50-51
- 4.3 本章小結51-53
- 第5章 基于歷史檢索記錄的快速檢索方法53-61
- 5.1 問題描述53-54
- 5.2 歷史檢索記錄在搜索引擎中的作用分析54-56
- 5.3 基于歷史檢索記錄的快速檢索56-59
- 5.3.1 基于歷史記錄挖掘的頻繁文檔索引生成56-57
- 5.3.2 快速檢索57-59
- 5.3.3 基于歷史檢索記錄索引的維護59
- 5.4 本章小結59-61
- 第6章 測試結果與分析61-69
- 6.1 分布式全文檢索框架搭建61-62
- 6.2 系統(tǒng)的部署62-65
- 6.3 實驗與分析65-68
- 6.3.1 測試方案完成任務情況65-66
- 6.3.2 與單機環(huán)境下檢索系統(tǒng)的對比66-67
- 6.3.3 與部分分布式環(huán)境下檢索系統(tǒng)的對比67-68
- 6.4 本章小結68-69
- 第7章 總結與展望69-71
- 7.1 總結69
- 7.2 展望69-71
- 參考文獻71-75
- 致謝75
【相似文獻】
中國期刊全文數據庫 前10條
1 宗寧;小型中文全文檢索系統(tǒng)的設計與實現[J];電腦知識與技術;2005年14期
2 劉寧,陳光祚,路學;論全文檢索系統(tǒng)[J];現代圖書情報技術;1989年04期
3 陳光祚;論全文檢索系統(tǒng)[J];武漢大學學報(社會科學版);1989年06期
4 陳睿,陳光祚,謝新洲;湖北省地方志全文檢索系統(tǒng)(續(xù))[J];情報理論與實踐;1991年03期
5 楊則正;Calera's Wordscan全文檢索系統(tǒng)[J];管理科學文摘;1997年09期
6 王梅;全文檢索系統(tǒng)的分析與選擇[J];圖書情報工作;1999年06期
7 謝授麟;水利水電技術標準全文檢索系統(tǒng)[J];水利規(guī)劃設計;2000年02期
8 余海燕,張仲義;基于單漢字索引的全文檢索系統(tǒng)的優(yōu)化研究[J];中文信息學報;2001年04期
9 紀蔚蔚;公安文獻全文檢索系統(tǒng)中超文本技術的運用[J];公安大學學報(自然科學版);2002年04期
10 孫詠波;郭紅鋒;;天文文獻全文檢索系統(tǒng)的研究與實現[J];天文研究與技術;2007年03期
中國重要會議論文全文數據庫 前2條
1 趙慧;李春明;鮑可進;;一種基于DotLucene搜索引擎的知識庫中文全文檢索系統(tǒng)[A];第二十二屆中國數據庫學術會議論文集(技術報告篇)[C];2005年
2 周小庭;;用Info Digger全文檢索系統(tǒng)構建首都師大基教中心網上平臺[A];OA’99辦公自動化全國學術研討暨展示會論文集[C];1999年
中國重要報紙全文數據庫 前2條
1 肖詩斌;全文檢索技術的深層剖析[N];中國計算機報;2003年
2 羅懿;世紀永聯搜索引擎獲獎[N];中國企業(yè)報;2000年
中國博士學位論文全文數據庫 前1條
1 吳煒;密文全文檢索系統(tǒng)中的索引機制研究[D];華中科技大學;2009年
中國碩士學位論文全文數據庫 前10條
1 黃小文;基于NoSQL存儲的海量文檔全文檢索系統(tǒng)的研究與實現[D];華北電力大學;2015年
2 張雯;TextRank算法的改進及在政法全文檢索系統(tǒng)中的應用[D];廣西大學;2015年
3 陶化忠;基于MapReduce全文檢索系統(tǒng)設計與實現[D];東北大學;2014年
4 何勝利;礦山法律法規(guī)全文檢索系統(tǒng)的研究與應用[D];西安建筑科技大學;2005年
5 楊鎰菲;基于云存儲的分布式全文檢索系統(tǒng)的設計與實現[D];華南理工大學;2012年
6 蔡晶晶;多文檔全文檢索系統(tǒng)的設計與開發(fā)[D];電子科技大學;2013年
7 王紅勝;多文檔全文檢索系統(tǒng)的設計與開發(fā)[D];電子科技大學;2010年
8 劉超;專利全文檢索系統(tǒng)的設計與實現[D];北京郵電大學;2010年
9 李秦;基于用戶行為的全文檢索系統(tǒng)個性化推薦研究[D];西南大學;2009年
10 席敏;基于單漢字索引的全文檢索系統(tǒng)的研究與實現[D];西安電子科技大學;2010年
,本文編號:721401
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/721401.html