基于HDFS的小文件處理優(yōu)化方法研究
發(fā)布時間:2023-06-23 18:39
隨著信息技術的高速發(fā)展,數(shù)據(jù)呈現(xiàn)指數(shù)增長的趨勢,海量數(shù)據(jù)的存在對于社會與科技的發(fā)展是機遇也是挑戰(zhàn)。大數(shù)據(jù)給傳統(tǒng)的技術帶來了難題,海量的數(shù)據(jù)存儲與處理得到了社會各界廣泛關注。而在海量數(shù)據(jù)中,包含了很大比例的小文件。小文件以各種形式存在人們的生活中,怎樣從海量小文件中挖掘出信息潛在的價值,將其用于解決人們的實際生活中,是目前急于解決的問題。Hadoop作為開源式云計算平臺,一經(jīng)發(fā)布便廣受國內(nèi)外專家學者的關注,各大互聯(lián)網(wǎng)公司更是將其應用于公司的發(fā)展中。HDFS(Hadoop Distributed File System)是Hadoop的分布式文件系統(tǒng),擁有高可靠,高并發(fā),高可用,高容錯等特點。HDFS對于大數(shù)據(jù)的存儲與處理十分有效。然而HDFS的主從架構模式的特點在海量小文件存儲與處理方面存在一定的弊端,海量小文件的元數(shù)據(jù)量成為了制約NameNode的瓶頸問題,并且嚴重影響了小文件的讀取效率。針對HDFS存儲與處理海量小文件效果不佳的問題,本文提出一種動態(tài)隊列的方案,減少NameNode中的元數(shù)據(jù),并采用預取緩存策略,提高小文件的讀取效率。本文的主要工作如下:(1)分析研究了 HDFS在存...
【文章頁數(shù)】:65 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.1.1 大數(shù)據(jù)的研究背景與意義
1.1.2 海量小文件數(shù)據(jù)的研究背景與意義
1.2 研究現(xiàn)狀
1.2.1 工業(yè)界研究現(xiàn)狀
1.2.2 學術界研究現(xiàn)狀
1.3 論文主要工作與結構安排
1.4 本章小結
2 Hadoop以及文本數(shù)據(jù)處理技術分析
2.1 Hadoop概述
2.2 分布式文件系統(tǒng)HDFS
2.2.1 HDFS框架結構
2.2.2 HDFS的工作流程
2.2.3 HDFS存儲處理海量小文件問題總結分析
2.3 并行編程框架MapReduce
2.4 文本相似性檢測方法
2.5 數(shù)據(jù)處理方法
2.5.1 層次分析法
2.5.2 數(shù)據(jù)標準化方法
2.6 本章小結
3 基于動態(tài)隊列的小文件存儲優(yōu)化研究
3.1 動態(tài)隊列方法研究
3.1.1 關鍵指標權重計算
3.1.2 系統(tǒng)性能評價分析
3.1.3 文本相似性檢測方法
3.2 二級索引目錄
3.3 預取緩存策略
3.3.1 預取緩存方案
3.3.2 預取緩存替換方案
3.4 本章小結
4 實驗及結果分析
4.1 實驗基礎環(huán)境建立
4.2 動態(tài)隊列實驗驗證
4.3 實驗結果驗證分析
4.4 本章小結
結論
參考文獻
攻讀學位期間發(fā)表的學術論文
致謝
本文編號:3835102
【文章頁數(shù)】:65 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.1.1 大數(shù)據(jù)的研究背景與意義
1.1.2 海量小文件數(shù)據(jù)的研究背景與意義
1.2 研究現(xiàn)狀
1.2.1 工業(yè)界研究現(xiàn)狀
1.2.2 學術界研究現(xiàn)狀
1.3 論文主要工作與結構安排
1.4 本章小結
2 Hadoop以及文本數(shù)據(jù)處理技術分析
2.1 Hadoop概述
2.2 分布式文件系統(tǒng)HDFS
2.2.1 HDFS框架結構
2.2.2 HDFS的工作流程
2.2.3 HDFS存儲處理海量小文件問題總結分析
2.3 并行編程框架MapReduce
2.4 文本相似性檢測方法
2.5 數(shù)據(jù)處理方法
2.5.1 層次分析法
2.5.2 數(shù)據(jù)標準化方法
2.6 本章小結
3 基于動態(tài)隊列的小文件存儲優(yōu)化研究
3.1 動態(tài)隊列方法研究
3.1.1 關鍵指標權重計算
3.1.2 系統(tǒng)性能評價分析
3.1.3 文本相似性檢測方法
3.2 二級索引目錄
3.3 預取緩存策略
3.3.1 預取緩存方案
3.3.2 預取緩存替換方案
3.4 本章小結
4 實驗及結果分析
4.1 實驗基礎環(huán)境建立
4.2 動態(tài)隊列實驗驗證
4.3 實驗結果驗證分析
4.4 本章小結
結論
參考文獻
攻讀學位期間發(fā)表的學術論文
致謝
本文編號:3835102
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3835102.html
最近更新
教材專著