基于分布式計(jì)算的全文檢索關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2017-05-16 12:17
本文關(guān)鍵詞:基于分布式計(jì)算的全文檢索關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:網(wǎng)絡(luò)信息化的快速普及,尤其是大數(shù)據(jù)時(shí)代的到來(lái),使得互聯(lián)網(wǎng)上各種異構(gòu)的非結(jié)構(gòu)化數(shù)據(jù)開(kāi)始出現(xiàn)爆炸式的增長(zhǎng)。搜索引擎技術(shù)為人們從海量的數(shù)據(jù)中快速并且有效地檢索出有用的信息提供了良好的解決方案。全文檢索是搜索引擎中的主要技術(shù),它主要包含兩個(gè)步驟—索引建立和索引查詢(xún)。在云存儲(chǔ)平臺(tái)與分布式計(jì)算技術(shù)的快速推動(dòng)下,分布式全文檢索在解決集中式檢索中的各種問(wèn)題的同時(shí),它開(kāi)始成為現(xiàn)代信息檢索中的一項(xiàng)重要技術(shù)。 本文首先介紹了分布式全文檢索的研究背景和發(fā)展現(xiàn)狀,之后分別對(duì)分布式全文索引的建立、分布式全文索引的劃分組織、分布式索引查詢(xún)等過(guò)程中涉及到的關(guān)鍵技術(shù)進(jìn)行了闡述和分析。在這基礎(chǔ)之上,本文針對(duì)分布式全文檢索中的幾個(gè)關(guān)鍵問(wèn)題進(jìn)行了研究,提出了一些解決方法,并且通過(guò)相關(guān)的實(shí)驗(yàn)來(lái)驗(yàn)證方法的有效性。本文的研究?jī)?nèi)容主要從以下幾個(gè)方面展開(kāi): 一、首先分析了單機(jī)集中式索引構(gòu)建方式的不足,提出了一種應(yīng)用分布式計(jì)算框架MapReduce進(jìn)行并行索引構(gòu)建的方法,并且在全文檢索框架Lucene上實(shí)現(xiàn)了分布式索引的建立。最終通過(guò)4臺(tái)機(jī)器組成的Hadoop集群來(lái)將索引的建立效率提高了一倍,驗(yàn)證了上述方法的有效性。 二、分布式索引的劃分組織方式?jīng)Q定了整個(gè)分布式系統(tǒng)的負(fù)載均衡。本文首先分析并且對(duì)比了目前兩種主流的索引分割組織方案,即文檔分割與詞表分割。在閱讀相關(guān)文獻(xiàn)的基礎(chǔ)上,提出了一種文本聚類(lèi)方法下的索引分割組織方法。 三、由于分布式系統(tǒng)中索引庫(kù)的數(shù)量較多,在進(jìn)行檢索時(shí)需要對(duì)索引庫(kù)進(jìn)行集合選擇。目前有很多比較成熟的集合選擇策略,如CORI、CRCS等,但普遍缺乏對(duì)語(yǔ)義的支持。本文提出了一種基于詞語(yǔ)相似度的分布式檢索集合選擇策略,最后通過(guò)驗(yàn)證了它具有良好的查全率。
【關(guān)鍵詞】:分布式索引 文本聚類(lèi) 詞語(yǔ)相似度 集合選擇
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.3
【目錄】:
- 摘要4-5
- ABSTRACT5-7
- 目錄7-9
- 第一章 緒論9-16
- 1.1 研究背景及意義9-11
- 1.1.1 研究背景9-10
- 1.1.2 分布式全文檢索課題研究意義10-11
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀11-14
- 1.3 論文的主要研究?jī)?nèi)容14-15
- 1.4 論文的組織結(jié)構(gòu)15-16
- 第二章 相關(guān)理論基礎(chǔ)16-26
- 2.1 全文檢索技術(shù)16-18
- 2.1.1 文本預(yù)處理16-17
- 2.1.2 倒排索引模型17-18
- 2.2 分布式計(jì)算技術(shù)18-23
- 2.2.2 分布式文件系統(tǒng)HDFS19-20
- 2.2.3 分布式計(jì)算模型MapReduce20-23
- 2.3 文本聚類(lèi)介紹23-25
- 2.3.1 文本聚類(lèi)概述23
- 2.3.2 主要的文本聚類(lèi)算法23-25
- 2.4 本章小結(jié)25-26
- 第三章 文本聚類(lèi)下的分布式索引建立26-41
- 3.1 分布式環(huán)境下的全文索引的劃分組織26-28
- 3.1.1 基于詞表的索引劃分組織方式26-27
- 3.1.2 基于文檔的索引劃分組織方式27-28
- 3.2 基于聚類(lèi)方法的索引劃分組織28-32
- 3.2.1 文本特征向量表示29-30
- 3.2.2 文本聚類(lèi)下的索引劃分組織方式30-32
- 3.3 基于MapReduce的分布式索引建立32-40
- 3.3.1 Lucene全文索引機(jī)制33
- 3.3.2 MapReduce下并行索引構(gòu)建方法33-37
- 3.3.3 MapReduce下Lucene并行索引構(gòu)建實(shí)現(xiàn)37-40
- 3.4 本章小結(jié)40-41
- 第四章 基于詞語(yǔ)相似度的分布式全文檢索41-50
- 4.1 分布式全文檢索流程41-42
- 4.2 分布式檢索中索引集合選擇42-44
- 4.3 基詞語(yǔ)相似度的索引集合選擇算法44-49
- 4.3.1 詞語(yǔ)相似度及其計(jì)算方法44
- 4.3.2 利用《知網(wǎng)》進(jìn)行詞語(yǔ)相似度計(jì)算44-46
- 4.3.3 基于詞語(yǔ)相似度的索引集合選擇算法設(shè)計(jì)46-49
- 4.4 本章小結(jié)49-50
- 第五章 實(shí)驗(yàn)及其分析50-60
- 5.1 實(shí)驗(yàn)設(shè)計(jì)50
- 5.2 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集50-53
- 5.2.1 實(shí)驗(yàn)硬件與軟件配置50-51
- 5.2.2 Hadoop分布式平臺(tái)搭建51-52
- 5.2.3 實(shí)驗(yàn)數(shù)據(jù)集介紹52-53
- 5.3 分布式全文索引構(gòu)建53-56
- 5.3.1 單機(jī)環(huán)境下集中式索引的構(gòu)建效率53-54
- 5.3.2 分布式集群并行索引的構(gòu)建效率54-56
- 5.3.3 分布式集群并行索引建立的性能分析56
- 5.4 詞語(yǔ)相似度計(jì)算下的聚類(lèi)集合選擇結(jié)果分析56-59
- 5.4.1 實(shí)驗(yàn)評(píng)測(cè)指標(biāo)56-57
- 5.4.2 集合選擇算法性能結(jié)果與分析57-59
- 5.5 本章小結(jié)59-60
- 第六章 總結(jié)與展望60-63
- 6.1 本文工作總結(jié)60-61
- 6.2 未來(lái)展望61-63
- 參考文獻(xiàn)63-66
- 致謝66-67
- 攻讀碩士學(xué)位期間參與的科研項(xiàng)目67
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前7條
1 張磊;張代遠(yuǎn);;中文分詞算法解析[J];電腦知識(shí)與技術(shù);2009年01期
2 張剛;周昭濤;王斌;;基于主題的分布式信息檢索技術(shù)研究[J];計(jì)算機(jī)工程;2006年12期
3 郭琦娟;陳通照;;全文檢索系統(tǒng)中動(dòng)態(tài)索引技術(shù)的研究[J];計(jì)算機(jī)與數(shù)字工程;2007年01期
4 翁R土,
本文編號(hào):370820
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/370820.html
最近更新
教材專(zhuān)著