天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

倒排索引技術(shù)在Hadoop平臺(tái)上的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2019-11-02 04:36
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,搜索引擎要處理的數(shù)據(jù)量越來越大,對(duì)搜索引擎的性能要求越來越高。為了提高信息檢索效率,信息檢索系統(tǒng)一般都采用倒排索引技術(shù)。倒排索引技術(shù)是搜索引擎系統(tǒng)的核心組成部分,它的結(jié)構(gòu)設(shè)計(jì)、存儲(chǔ)方式、查詢操作和動(dòng)態(tài)更新算法的好壞對(duì)信息檢索的效率有很大的影響。同樣為了提高信息檢索的效率,搜索引擎系統(tǒng)中引入了分布式的計(jì)算平臺(tái),以實(shí)現(xiàn)并行計(jì)算。Hadoop是一種常用的開源分布式處理平臺(tái),已經(jīng)被應(yīng)用到許多系統(tǒng),并且取得了很好的效果。通過Hadoop平臺(tái),能比較方便的進(jìn)行分布式編程,讓計(jì)算并行化,從而提高系統(tǒng)響應(yīng)效率。因此,在Hadoop平臺(tái)上實(shí)現(xiàn)倒排索引技術(shù)對(duì)搜索引擎效率的提高有重要意義。 本文利用Hadoop分布式計(jì)算平臺(tái),使用HDFS文件系統(tǒng)和Map-Reduce的原理,設(shè)計(jì)并實(shí)現(xiàn)了一種基于分布式系統(tǒng)Hadoop的倒排索引結(jié)構(gòu)。這種結(jié)構(gòu)的倒排索引,,能夠在一定程度上節(jié)省磁盤存儲(chǔ)空間,提高信息檢索效率。 本文首先研究分析了Hadoop平臺(tái)的系統(tǒng)架構(gòu)、主要組成部分以及其中的兩個(gè)關(guān)鍵技術(shù)——Map-Reduce編程模型和HDFS文件系統(tǒng)的原理;研究了Hadoop中Map-Reduce作業(yè)的提交和任務(wù)的運(yùn)行流程,分析了整個(gè)過程中數(shù)據(jù)流的走向,以及基于Hadoop的應(yīng)用程序設(shè)計(jì)原理與方法;在分析傳統(tǒng)的倒排索引技術(shù)實(shí)現(xiàn)方案及相關(guān)算法后,驗(yàn)證了在Hadoop平臺(tái)下實(shí)現(xiàn)的可能性倒排索引的可能性。 在此基礎(chǔ)上,在Hadoop平臺(tái)下設(shè)計(jì)了一種倒排索引結(jié)構(gòu),該結(jié)構(gòu)主要由主索引、段索引、刪除索引和詞典庫等部分組成。然后詳細(xì)介紹了該結(jié)構(gòu)的各組成部分。設(shè)計(jì)了基于詞頻高低和詞頻排名的倒排文件存儲(chǔ)策略,以及倒排項(xiàng)中數(shù)字信息的壓縮編碼方法——綜合編碼壓縮法;設(shè)計(jì)了倒排文件的壓縮格式的選擇。針對(duì)這種倒排索引的結(jié)構(gòu),設(shè)計(jì)了Map-Reduce方式的倒排索引構(gòu)建算法、基于段索引的倒排索引更新算法、基于刪除索引的倒排索引刪除算法以及基于詞典庫的倒排索引查詢算法。最后在Hadoop分布式集群環(huán)境編程實(shí)現(xiàn)了以上結(jié)構(gòu)的倒排索引和相關(guān)操作算法,并且進(jìn)行了測(cè)試和驗(yàn)證。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識(shí)與技術(shù);2009年10期

2 王巖;;搜索引擎中網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展[J];電信快報(bào);2008年10期

3 王峰;雷葆華;;Hadoop分布式文件系統(tǒng)的模型分析[J];電信科學(xué);2010年12期

4 胡雙雙;秦杰;;搜索引擎技術(shù)及其發(fā)展趨勢(shì)[J];福建電腦;2008年06期

5 劉世濤;;簡(jiǎn)析搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略[J];阜陽師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2006年03期

6 辛大欣;劉飛;;Hadoop集群性能優(yōu)化技術(shù)研究[J];電腦知識(shí)與技術(shù);2011年22期

7 王峰;;Hadoop集群作業(yè)的調(diào)度算法[J];程序員;2009年12期

8 賈崇,陸玉昌,魯明羽;一種支持高效檢索的即時(shí)更新倒排索引方法[J];計(jì)算機(jī)工程與應(yīng)用;2003年29期

9 吳恒山,劉興宇,左瓊;一種基于可擴(kuò)展散列表的倒排索引更新策略[J];計(jì)算機(jī)工程;2004年08期

10 李震;杜中軍;;云計(jì)算環(huán)境下的改進(jìn)型Map-Reduce模型[J];計(jì)算機(jī)工程;2012年11期

相關(guān)會(huì)議論文 前1條

1 丁輝;張大華;羅志明;;基于Hadoop的海量數(shù)據(jù)處理平臺(tái)研究[A];2011電力通信管理暨智能電網(wǎng)通信技術(shù)論壇論文集[C];2011年

相關(guān)碩士學(xué)位論文 前10條

1 江柳;HDFS下小文件存儲(chǔ)優(yōu)化相關(guān)技術(shù)研究[D];北京郵電大學(xué);2011年

2 謝桂蘭;基于Eucalyptus云平臺(tái)的Hadoop集群研究[D];成都理工大學(xué);2011年

3 劉興宇;基于倒排索引的全文檢索技術(shù)研究[D];華中科技大學(xué);2004年

4 蘇旋;分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2006年

5 張旭;一個(gè)基于詞典與統(tǒng)計(jì)的中文分詞算法[D];電子科技大學(xué);2007年

6 付志超;基于Map/Reduce的分布式智能搜索引擎框架研究[D];武漢理工大學(xué);2008年

7 黃曉云;基于HDFS的云存儲(chǔ)服務(wù)系統(tǒng)研究[D];大連海事大學(xué);2010年

8 封俊;基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)[D];太原理工大學(xué);2010年

9 邱榮太;基于Hadoop平臺(tái)的Map-Reduce應(yīng)用研究[D];河南理工大學(xué);2009年

10 蔡睿誠;基于HDFS的小文件處理與相關(guān)MapReduce計(jì)算模型性能的優(yōu)化與改進(jìn)[D];吉林大學(xué);2012年



本文編號(hào):2554296

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2554296.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d8dfa***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com