天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

基于Hadoop的OA論文存儲及檢索策略

發(fā)布時間:2017-11-07 20:34

  本文關鍵詞:基于Hadoop的OA論文存儲及檢索策略


  更多相關文章: Hadoop 論文存儲 文件索引 檢索算法


【摘要】:隨著OA(Open Access)期刊論文的海量式增長,OA期刊論文的訪問以及存儲問題成為了一個挑戰(zhàn),如何能夠高效的存儲以及定位到準確的論文已經(jīng)成為了一個亟待解決的問題。分布式存儲計算系統(tǒng)框架Hadoop已經(jīng)被廣泛應用到各個領域,但Hadoop的分布式存儲框架HDFS不善長存儲管理較小的文件。針對如何利用這種具有高擴展性,高容錯性的分布式存儲計算系統(tǒng)為OA提供一個底層的數(shù)據(jù)支持,本文提出了基于Hadoop的OA期刊論文存儲策略,同時根據(jù)OA期刊論文數(shù)據(jù)的特殊性,對其檢索排序算法進行了研究。 首先,本文在查閱相關文獻的基礎上,介紹了海量的OA期刊論文存儲架構(gòu)在Hadoop平臺的背景與意義,同時對Hadoop這一分布式存儲與計算框架進行了透徹地分析,闡述了基于Hadoop的小文件的存儲與檢索的研究現(xiàn)狀。 其次,,針對Hadoop原生系統(tǒng)以及當前的小文件合并存儲策略無法滿足OA期刊論文的存儲特點,本文提出了一種基于Hadoop的OA期刊論文的合并策略,將B+樹索引機制應用到論文合并當中。同時建立了MoB+樹索引機制,這種索引機制不但提高了文件檢索速度,還減緩了Namenode命名空間的吃緊問題。 再次,根據(jù)OA期刊論文的元數(shù)據(jù)的本身性質(zhì),為了讓排序結(jié)果滿足不同標簽域產(chǎn)生不同的權(quán)重值的要求,提出了一種優(yōu)化的基于OA期刊論文的檢索算法。同時利用Hadoop平臺的分布式計算框架MapReduce實現(xiàn)了這一論文排序的優(yōu)化算法。 最后,搭建Hadoop平臺,對本文提出的方法進行驗證。實驗結(jié)果表明,本文所提供的方法有效提高了OA期刊論文在Hadoop平臺上的讀取效率,同時利用改進的Lucene的排序算法,有效地改善了論文排序中的評分問題。
【學位授予單位】:燕山大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP333

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前9條

1 程維紅;任勝利;;中國科技期刊開放存取出版現(xiàn)狀[J];編輯學報;2007年03期

2 李晶皎,何敬禹,鄭牧野,王愛俠;文件系統(tǒng)索引結(jié)構(gòu)的研究[J];東北大學學報;2004年04期

3 陳劍;龔發(fā)根;;一種優(yōu)化分布式文件系統(tǒng)的文件合并策略[J];計算機應用;2011年S2期

4 趙曉永;楊揚;孫莉莉;陳宇;;基于Hadoop的海量MP3文件存儲架構(gòu)[J];計算機應用;2012年06期

5 張春明;芮建武;何婷婷;;一種Hadoop小文件存儲和讀取的方法[J];計算機應用與軟件;2012年11期

6 陸志峰,陳新建;B~+樹索引文件結(jié)構(gòu)的優(yōu)化設計[J];計算機工程與設計;2000年03期

7 余思;桂小林;黃汝維;莊威;;一種提高云存儲中小文件存儲效率的方案[J];西安交通大學學報;2011年06期

8 李彬;;基于Hadoop框架的TF-IDF算法改進[J];微型機與應用;2012年07期

9 洪旭升;林世平;;基于MapFile的HDFS小文件存儲效率問題[J];計算機系統(tǒng)應用;2012年11期

中國博士學位論文全文數(shù)據(jù)庫 前1條

1 周金娉;開放存取期刊學術(shù)影響力研究[D];吉林大學;2013年



本文編號:1154019

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1154019.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a6e3f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com