基于Hadoop的OA論文資源存儲方法研究
發(fā)布時間:2017-08-08 14:06
本文關(guān)鍵詞:基于Hadoop的OA論文資源存儲方法研究
更多相關(guān)文章: OA論文 HDFS MapReduce 小文件存儲 分布式聚類 預取機制
【摘要】:隨著Internet上開放存取(Open Access,OA)論文數(shù)量的迅猛增加,傳統(tǒng)的存儲技術(shù)已經(jīng)不能滿足這些海量的OA論文資源,如何對其高效的處理和存儲成為一個亟待解決的問題。Hadoop云計算架構(gòu)作為當前研究的熱點提供了一個分布式文件系統(tǒng)HDFS,它具有很好的擴展性與容錯性,并且可以部署在低廉的硬件上,從而得到廣泛應用。但是HDFS不善于處理海量的小文件,在存儲時存在著內(nèi)存占用高與讀取速率低的問題。本文在綜合分析目前國內(nèi)外研究現(xiàn)狀的基礎(chǔ)上,借助OA論文資源的特性,針對HDFS在存儲小文件時處理效率低下的問題進行了深入地研究。 首先,介紹了Hadoop的兩個核心組件HDFS文件系統(tǒng)與MapReduce編程模型的基本知識,包括整體架構(gòu),工作機制,,以及文件讀寫的流程。 其次,為了實現(xiàn)本文的預取方法,提出了一種基于MapReduce的分布式特征向量構(gòu)建算法以及分布式聚類算法。該算法首先根據(jù)OA論文資源的特點將其向量化,接著這對這些特征向量進行聚類,并描述了該聚類在Hadoop上并行的具體步驟。 再次,基于分布式聚類結(jié)果并針對海量OA論文資源在HDFS中的存儲問題,提出了一個存儲檢索預取方法。該方法首先對存儲結(jié)構(gòu)進行規(guī)劃,接著提出基于Lucene的分布式建立索引算法,然后根據(jù)用戶讀取OA論文資源的習慣設(shè)計預取機制。 最后,在不同規(guī)模的數(shù)據(jù)集及不同的讀取數(shù)量上,將本文提出的存儲方法與HDFS現(xiàn)有的存儲方法進行實驗對比與分析。
【關(guān)鍵詞】:OA論文 HDFS MapReduce 小文件存儲 分布式聚類 預取機制
【學位授予單位】:燕山大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP333
【目錄】:
- 摘要5-6
- Abstract6-10
- 第1章 緒論10-15
- 1.1 研究背景及意義10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-13
- 1.3 本文的主要研究內(nèi)容13
- 1.4 本文的組織結(jié)構(gòu)13-15
- 第2章 相關(guān)理論知識與技術(shù)15-23
- 2.1 HDFS文件系統(tǒng)15-19
- 2.1.1 HDFS整體架構(gòu)15-16
- 2.1.2 HDFS作機制16-17
- 2.1.3 寫入與讀取17-19
- 2.2 MapReduce編程模型19-22
- 2.2.1 MapReduce基本原理19-21
- 2.2.2 MapReduce作機制21-22
- 2.3 本章小結(jié)22-23
- 第3章 面向OA論文資源的分布式聚類算法23-36
- 3.1 符號說明以及相關(guān)定義23-25
- 3.2 基于MapReduce的特征向量提取算法25-30
- 3.2.1 分布式分詞算法25-26
- 3.2.2 基于文檔頻的分布式特征詞選擇算法26-28
- 3.2.3 基于TF-IDF的分布式特征向量構(gòu)建算法28-30
- 3.3 基于Canopy的K-means聚類算法30-35
- 3.3.1 Canopy聚類算法30-31
- 3.3.2 算法的主要思想31-32
- 3.3.3 算法的并行實現(xiàn)32-35
- 3.4 本章小結(jié)35-36
- 第4章 面向OA論文資源的存儲檢索預取方法36-44
- 4.1 基于MapFile的OA論文資源存儲結(jié)構(gòu)36-37
- 4.1.1 MapFile數(shù)據(jù)結(jié)構(gòu)36-37
- 4.1.2 存儲結(jié)構(gòu)37
- 4.2 基于Lucene的OA論文資源檢索方法37-41
- 4.2.1 OA論文資源檢索機制38-39
- 4.2.2 分布式建立索引39-41
- 4.3 面向OA論文資源的預取方法41-43
- 4.4 本章小結(jié)43-44
- 第5章 實驗驗證與分析44-52
- 5.1 實驗環(huán)境和實驗數(shù)據(jù)44-45
- 5.1.1 實驗環(huán)境44-45
- 5.1.2 實驗數(shù)據(jù)45
- 5.2 實驗評價標準45-47
- 5.3 實驗及結(jié)果分析47-51
- 5.3.1 對比算法簡介47
- 5.3.2 內(nèi)存占用對比47-49
- 5.3.3 讀取速率對比49-51
- 5.3.4 結(jié)果分析51
- 5.4 本章小結(jié)51-52
- 結(jié)論52-54
- 參考文獻54-58
- 攻讀碩士學位期間承擔的科研任務(wù)與主要成果58-59
- 致謝59-60
- 作者簡介60
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 程維紅;任勝利;;中國科技期刊開放存取出版現(xiàn)狀[J];編輯學報;2007年03期
2 班志杰;古志民;金瑜;;Web預取技術(shù)綜述[J];計算機研究與發(fā)展;2009年02期
3 趙曉永;楊揚;孫莉莉;陳宇;;基于Hadoop的海量MP3文件存儲架構(gòu)[J];計算機應用;2012年06期
4 孫吉貴;劉杰;趙連宇;;聚類算法研究[J];軟件學報;2008年01期
5 鞠玉梅;體裁分析與英漢學術(shù)論文摘要語篇[J];外語教學;2004年02期
6 李武;楊屹東;;開放存取期刊出版的發(fā)展現(xiàn)狀及其影響分析[J];圖書情報工作;2006年02期
7 王云才;;國內(nèi)外“開放存取”研究綜述[J];圖書情報知識;2005年06期
8 余思;桂小林;黃汝維;莊威;;一種提高云存儲中小文件存儲效率的方案[J];西安交通大學學報;2011年06期
9 劉小俊;徐正全;潘少明;;一種結(jié)合RDBMS和Hadoop的海量小文件存儲方法[J];武漢大學學報(信息科學版);2013年01期
10 張海;馬建紅;;基于HDFS的小文件存儲與讀取優(yōu)化策略[J];計算機系統(tǒng)應用;2014年05期
本文編號:640342
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/640342.html
最近更新
教材專著