基于Hadoop的海量教育資源小文件的存儲(chǔ)研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2020-05-12 16:21
【摘要】:教育資源是指網(wǎng)絡(luò)學(xué)習(xí)中存在的各種形式的學(xué)習(xí)資源,有文本、視頻、音頻等形式,其中文本學(xué)習(xí)資源占80%以上,它們的數(shù)量很大而且文件大小一般為KB級(jí)別,很少達(dá)到MB級(jí)別,故稱之為教育資源小文件。在互聯(lián)網(wǎng)時(shí)代下,網(wǎng)絡(luò)學(xué)習(xí)中教育資源小文件的規(guī)模越來越龐大,處理時(shí)工作量很大,傳統(tǒng)的分布式文件系統(tǒng)無法滿足海量教育資源小文件的存儲(chǔ)需求。Hadoop開源分布式處理平臺(tái),提供一種可靠、可伸縮、高效的方式處理大數(shù)據(jù)。Hadoop的分布式文件系統(tǒng)HDFS,具有很強(qiáng)大的數(shù)據(jù)存儲(chǔ)能力,在大數(shù)據(jù)處理方面有很優(yōu)異的表現(xiàn)。但是HDFS是為處理大文件而設(shè)計(jì)的,它在處理海量小文件時(shí)存在一些不足,如:存儲(chǔ)海量小文件時(shí)產(chǎn)生的元數(shù)據(jù)會(huì)迅速耗費(fèi)NameNode的內(nèi)存,可能引起其內(nèi)存瓶頸;在進(jìn)行小文件的頻繁訪問時(shí),需要在多個(gè)DataNode間不斷跳轉(zhuǎn),這會(huì)導(dǎo)致文件的讀取效率降低;相比系統(tǒng)處理相同數(shù)量的大文件的速度,對(duì)小文件的處理速度過慢。為了解決海量教育資源小文件在Hadoop平臺(tái)上的存儲(chǔ)問題,本文提出了一種基于Hadoop的海量教育資源小文件的存儲(chǔ)優(yōu)化方案。優(yōu)化方案包括以下四個(gè)部分:1)小文件的分類關(guān)聯(lián):教育資源文件在上傳到HDFS集群之前,通過判斷文件若為小文件,則利用分類算法對(duì)它進(jìn)行分類,然后利用層次聚類算法對(duì)分類后的小文件進(jìn)行關(guān)聯(lián),生成關(guān)聯(lián)小文件。2)小文件的合并:將分類后的關(guān)聯(lián)小文件合并成大文件,以大文件的形式上傳到HDFS集群中。合并操作可以緩解大量元數(shù)據(jù)對(duì)NameNode內(nèi)存的消耗。3)建立索引文件:為大文件創(chuàng)建索引文件,小文件檢索時(shí),利用索引文件可快速檢索到小文件,提高小文件的檢索速度。4)元數(shù)據(jù)緩存及關(guān)聯(lián)小文件預(yù)取:首次讀取文件后,將文件元數(shù)據(jù)及關(guān)聯(lián)小文件預(yù)取緩存到客戶端。預(yù)取緩存機(jī)制可以提高小文件的讀取效率。最后,通過實(shí)驗(yàn)對(duì)小文件的存儲(chǔ)優(yōu)化方案進(jìn)行測(cè)試,設(shè)計(jì)了三組實(shí)驗(yàn)分別對(duì)比文件的寫入時(shí)間、小文件的訪問時(shí)間以及系統(tǒng)的內(nèi)存占用率情況。實(shí)驗(yàn)結(jié)果表明,本文提出的海量教育資源中小文件的存儲(chǔ)優(yōu)化方案可以緩解大量小文件對(duì)NameNode內(nèi)存的迅速消耗問題,可提高小文件的隨機(jī)訪問效率,可減少系統(tǒng)資源的花銷,還可以減少小文件的讀寫時(shí)間。
【圖文】:
HDFS系統(tǒng)架構(gòu)圖
通過數(shù)據(jù)流向數(shù)據(jù)塊中寫入文件,并創(chuàng)建一個(gè)文件記后,數(shù)據(jù)節(jié)點(diǎn)會(huì)通知名稱節(jié)點(diǎn),,最后名稱節(jié)點(diǎn)會(huì)記錄相應(yīng)的元數(shù)端會(huì)拋出異常,文件寫入出錯(cuò),重新進(jìn)行文件的寫入操作。HDFS圖 2-2 所示。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.13;TP333
本文編號(hào):2660502
【圖文】:
HDFS系統(tǒng)架構(gòu)圖
通過數(shù)據(jù)流向數(shù)據(jù)塊中寫入文件,并創(chuàng)建一個(gè)文件記后,數(shù)據(jù)節(jié)點(diǎn)會(huì)通知名稱節(jié)點(diǎn),,最后名稱節(jié)點(diǎn)會(huì)記錄相應(yīng)的元數(shù)端會(huì)拋出異常,文件寫入出錯(cuò),重新進(jìn)行文件的寫入操作。HDFS圖 2-2 所示。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.13;TP333
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 李新苗;;中國移動(dòng)兩年內(nèi)將實(shí)現(xiàn)“公共云”服務(wù)能力 大云計(jì)劃BC1.0正式推出[J];通信世界;2010年19期
本文編號(hào):2660502
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2660502.html
最近更新
教材專著