天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

基于Hadoop的OA論文資源存儲方法研究

發(fā)布時間:2017-08-08 14:06

  本文關(guān)鍵詞:基于Hadoop的OA論文資源存儲方法研究


  更多相關(guān)文章: OA論文 HDFS MapReduce 小文件存儲 分布式聚類 預取機制


【摘要】:隨著Internet上開放存取(Open Access,OA)論文數(shù)量的迅猛增加,傳統(tǒng)的存儲技術(shù)已經(jīng)不能滿足這些海量的OA論文資源,如何對其高效的處理和存儲成為一個亟待解決的問題。Hadoop云計算架構(gòu)作為當前研究的熱點提供了一個分布式文件系統(tǒng)HDFS,它具有很好的擴展性與容錯性,并且可以部署在低廉的硬件上,從而得到廣泛應用。但是HDFS不善于處理海量的小文件,在存儲時存在著內(nèi)存占用高與讀取速率低的問題。本文在綜合分析目前國內(nèi)外研究現(xiàn)狀的基礎(chǔ)上,借助OA論文資源的特性,針對HDFS在存儲小文件時處理效率低下的問題進行了深入地研究。 首先,介紹了Hadoop的兩個核心組件HDFS文件系統(tǒng)與MapReduce編程模型的基本知識,包括整體架構(gòu),工作機制,,以及文件讀寫的流程。 其次,為了實現(xiàn)本文的預取方法,提出了一種基于MapReduce的分布式特征向量構(gòu)建算法以及分布式聚類算法。該算法首先根據(jù)OA論文資源的特點將其向量化,接著這對這些特征向量進行聚類,并描述了該聚類在Hadoop上并行的具體步驟。 再次,基于分布式聚類結(jié)果并針對海量OA論文資源在HDFS中的存儲問題,提出了一個存儲檢索預取方法。該方法首先對存儲結(jié)構(gòu)進行規(guī)劃,接著提出基于Lucene的分布式建立索引算法,然后根據(jù)用戶讀取OA論文資源的習慣設(shè)計預取機制。 最后,在不同規(guī)模的數(shù)據(jù)集及不同的讀取數(shù)量上,將本文提出的存儲方法與HDFS現(xiàn)有的存儲方法進行實驗對比與分析。
【關(guān)鍵詞】:OA論文 HDFS MapReduce 小文件存儲 分布式聚類 預取機制
【學位授予單位】:燕山大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP333
【目錄】:
  • 摘要5-6
  • Abstract6-10
  • 第1章 緒論10-15
  • 1.1 研究背景及意義10-11
  • 1.2 國內(nèi)外研究現(xiàn)狀11-13
  • 1.3 本文的主要研究內(nèi)容13
  • 1.4 本文的組織結(jié)構(gòu)13-15
  • 第2章 相關(guān)理論知識與技術(shù)15-23
  • 2.1 HDFS文件系統(tǒng)15-19
  • 2.1.1 HDFS整體架構(gòu)15-16
  • 2.1.2 HDFS作機制16-17
  • 2.1.3 寫入與讀取17-19
  • 2.2 MapReduce編程模型19-22
  • 2.2.1 MapReduce基本原理19-21
  • 2.2.2 MapReduce作機制21-22
  • 2.3 本章小結(jié)22-23
  • 第3章 面向OA論文資源的分布式聚類算法23-36
  • 3.1 符號說明以及相關(guān)定義23-25
  • 3.2 基于MapReduce的特征向量提取算法25-30
  • 3.2.1 分布式分詞算法25-26
  • 3.2.2 基于文檔頻的分布式特征詞選擇算法26-28
  • 3.2.3 基于TF-IDF的分布式特征向量構(gòu)建算法28-30
  • 3.3 基于Canopy的K-means聚類算法30-35
  • 3.3.1 Canopy聚類算法30-31
  • 3.3.2 算法的主要思想31-32
  • 3.3.3 算法的并行實現(xiàn)32-35
  • 3.4 本章小結(jié)35-36
  • 第4章 面向OA論文資源的存儲檢索預取方法36-44
  • 4.1 基于MapFile的OA論文資源存儲結(jié)構(gòu)36-37
  • 4.1.1 MapFile數(shù)據(jù)結(jié)構(gòu)36-37
  • 4.1.2 存儲結(jié)構(gòu)37
  • 4.2 基于Lucene的OA論文資源檢索方法37-41
  • 4.2.1 OA論文資源檢索機制38-39
  • 4.2.2 分布式建立索引39-41
  • 4.3 面向OA論文資源的預取方法41-43
  • 4.4 本章小結(jié)43-44
  • 第5章 實驗驗證與分析44-52
  • 5.1 實驗環(huán)境和實驗數(shù)據(jù)44-45
  • 5.1.1 實驗環(huán)境44-45
  • 5.1.2 實驗數(shù)據(jù)45
  • 5.2 實驗評價標準45-47
  • 5.3 實驗及結(jié)果分析47-51
  • 5.3.1 對比算法簡介47
  • 5.3.2 內(nèi)存占用對比47-49
  • 5.3.3 讀取速率對比49-51
  • 5.3.4 結(jié)果分析51
  • 5.4 本章小結(jié)51-52
  • 結(jié)論52-54
  • 參考文獻54-58
  • 攻讀碩士學位期間承擔的科研任務(wù)與主要成果58-59
  • 致謝59-60
  • 作者簡介60

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 程維紅;任勝利;;中國科技期刊開放存取出版現(xiàn)狀[J];編輯學報;2007年03期

2 班志杰;古志民;金瑜;;Web預取技術(shù)綜述[J];計算機研究與發(fā)展;2009年02期

3 趙曉永;楊揚;孫莉莉;陳宇;;基于Hadoop的海量MP3文件存儲架構(gòu)[J];計算機應用;2012年06期

4 孫吉貴;劉杰;趙連宇;;聚類算法研究[J];軟件學報;2008年01期

5 鞠玉梅;體裁分析與英漢學術(shù)論文摘要語篇[J];外語教學;2004年02期

6 李武;楊屹東;;開放存取期刊出版的發(fā)展現(xiàn)狀及其影響分析[J];圖書情報工作;2006年02期

7 王云才;;國內(nèi)外“開放存取”研究綜述[J];圖書情報知識;2005年06期

8 余思;桂小林;黃汝維;莊威;;一種提高云存儲中小文件存儲效率的方案[J];西安交通大學學報;2011年06期

9 劉小俊;徐正全;潘少明;;一種結(jié)合RDBMS和Hadoop的海量小文件存儲方法[J];武漢大學學報(信息科學版);2013年01期

10 張海;馬建紅;;基于HDFS的小文件存儲與讀取優(yōu)化策略[J];計算機系統(tǒng)應用;2014年05期



本文編號:640342

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/640342.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f49da***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
精品日韩国产高清毛片| 成人区人妻精品一区二区三区| 久久综合亚洲精品蜜桃| 欧美日韩国产精品第五页| 国产亚州欧美一区二区| 美女被后入福利在线观看| 亚洲精品国产精品日韩| 国产成人精品99在线观看| 亚洲性生活一区二区三区| 中文人妻精品一区二区三区四区| 国产一区二区三区草莓av| 国产精品熟女乱色一区二区| 日本人妻精品有码字幕| 一区二区三区免费公开| 国产精品乱子伦一区二区三区| 日本加勒比不卡二三四区| 欧美精品激情视频一区| 国产精品一区二区丝袜| 亚洲精品福利视频你懂的| 国产欧美一区二区色综合| 欧洲一区二区三区自拍天堂| 99国产成人免费一区二区| 国产99久久精品果冻传媒| 91在线爽的少妇嗷嗷叫| 色综合视频一区二区观看| 最好看的人妻中文字幕| 中文字幕乱码免费人妻av| 五月婷婷六月丁香狠狠| 在线观看国产成人av天堂野外| 亚洲在线观看福利视频| 国产欧美一区二区久久| 少妇福利视频一区二区| 国产精品免费自拍视频| 激情中文字幕在线观看| 久久碰国产一区二区三区| 日本特黄特色大片免费观看| 欧美韩国日本精品在线| 亚洲国产一区精品一区二区三区色| 好吊日视频这里都是精品| 激情偷拍一区二区三区视频| 亚洲视频一区二区久久久|