基于HDFS的云存儲系統(tǒng)小文件優(yōu)化方案
本文選題:Hadoop分布式文件系統(tǒng) 切入點:小文件 出處:《計算機工程》2016年03期 論文類型:期刊論文
【摘要】:Hadoop分布式文件系統(tǒng)(HDFS)具有高容錯、可伸縮、廉價存儲等優(yōu)良特性,在大數(shù)據(jù)存儲和分析場景中得到廣泛應用。但對于海量小文件存儲,HDFS存在高內(nèi)存消耗、高延遲訪問等缺陷。為此,結合"合肥城市云"系統(tǒng)"一次上傳,多次下載"的特性,提出一種基于小文件屬性的優(yōu)化方案。根據(jù)文件之間的相關性設定優(yōu)先級,對小于5 MB的文件按優(yōu)先級高低合并后再上傳,并生成索引記錄。結合隨機化思想,采用兩級緩存策略,將預提取數(shù)據(jù)緩存在內(nèi)存池中,提高訪問效率。同時,系統(tǒng)定期查詢訪問日志,根據(jù)用戶訪問習慣,動態(tài)調(diào)整預提取因子的大小。實驗結果表明,該方案能有效提高小文件訪問效率,降低名字節(jié)點和數(shù)據(jù)節(jié)點的內(nèi)存開銷,在有海量小文件存取的情況下提升系統(tǒng)的交互性。
[Abstract]:Hadoop (distributed File system) has been widely used in big data storage and analysis scenarios because of its high fault tolerance, scalability and cheap storage, but it has high memory consumption for large amount of small file storage. For this reason, combined with the feature of "once upload, multiple download" in Hefei Urban Cloud system, an optimization scheme based on the attributes of small files is proposed, and the priority is set according to the correlation between files. The files with less than 5 MB are merged according to the priority and then uploaded, and the index records are generated. Combined with the idea of randomization, the pre-extracted data is cached in the memory pool by using the two-level cache strategy, and the access efficiency is improved. The system regularly queries the access log and dynamically adjusts the size of the pre-extraction factor according to the user's visiting habits. The experimental results show that the proposed scheme can effectively improve the access efficiency of small files and reduce the memory overhead of name nodes and data nodes. In the case of large amounts of small file access to enhance the system's interactivity.
【作者單位】: 中國科學技術大學自動化系;
【基金】:國家自然科學基金資助項目(61174062)
【分類號】:TP333
【相似文獻】
相關期刊論文 前10條
1 ;電子文件與紙質文件歸檔方法配套改革的實踐[J];中國檔案;2000年08期
2 ;鹿泉市檔案局積極抓好村委會換屆選舉文件歸檔工作[J];檔案天地;2000年02期
3 石慧敏;從《規(guī)則》的實施看文件的歸檔鑒定[J];山西檔案;2001年04期
4 于曉慶;文件與檔案差異之比較研究[J];中國檔案;2001年12期
5 劉曉蘭;淺談水利水電工程設計電子文件的歸檔和管理問題[J];安徽電力職工大學學報;2001年01期
6 紀立芳,張峰,李華娜,逄真;文件、檔案一體化管理工作存在的問題及對策[J];山東檔案;2001年01期
7 胥青云 ,尹承宏 ,王培蘭;電子文件的特性及其對傳統(tǒng)文檔工作的影響[J];檔案天地;2002年02期
8 何云;訴訟文件歸檔:一個不容忽視的問題——從某法官隱匿訴訟文件說起[J];湖北檔案;2002年04期
9 連成葉,連桂仁;談電子文件介質歸檔與整理[J];檔案時空;2003年12期
10 戚鴻雁 ,盧朝霞;淺談辦公自動化條件下的文件歸檔[J];山東檔案;2003年02期
相關會議論文 前10條
1 姜萍;;試論高校辦公自動化條件下電子文件與紙質文件的相互關系[A];貴州省檔案學會2004年檔案學術研討會論文集[C];2004年
2 韓艷平;;電子文件對檔案工作的影響及對策[A];齊魯檔案論壇——山東省檔案學會2008年學術年會會刊[C];2008年
3 羅廷定;劉亞文;;淺淡電子文件與電子檔案的法律證據(jù)作用[A];貴州省2007年檔案學術交流論文集[C];2007年
4 于麗華;;電子文件的歸檔與管理[A];齊魯檔案論壇——山東省檔案學會2008年學術年會會刊[C];2008年
5 李銳英;;淺議電子文件的歸檔[A];齊魯檔案論壇——山東省檔案學會2008年學術年會會刊[C];2008年
6 羅廷定;劉亞文;;淺淡電子文件與電子檔案的法律證據(jù)作用[A];紀念《中華人民共和國檔案法》頒布20周年檔案學術研討會論文集[C];2007年
7 李慎民;;文件歸檔與虛擬分類[A];機關檔案工作學術研討會交流論文集[C];2004年
8 夏江寧;;辦公自動化的實現(xiàn)與文件歸檔工作[A];中國當代秘書群星文選[C];1999年
9 袁發(fā)立;;淺析電子文件的歸檔[A];貴州省2007年檔案學術交流論文集[C];2007年
10 袁發(fā)立;;淺析電子文件的歸檔[A];紀念《中華人民共和國檔案法》頒布20周年檔案學術研討會論文集[C];2007年
相關重要報紙文章 前10條
1 萬麗;電子文件的檔案屬性和歸檔制度[N];黃河報;2007年
2 潘勝中;南寧制定機關文件歸檔年檢辦法[N];中國檔案報;2005年
3 小周;理財文件歸檔事半功倍[N];湖北日報;2001年
4 張岳;建立符合科學發(fā)展觀的文件歸檔新機制[N];中國檔案報;2007年
5 特約記者 闞景奎;濰坊市財政局文件歸檔實現(xiàn)規(guī)范化[N];中國檔案報;2005年
6 特約記者 李冰冰;內(nèi)蒙古巴彥淖爾市 認真做好黨委換屆文件歸檔[N];中國檔案報;2011年
7 一冰;安騰普新版ADA3.0 進一步增強文件歸檔能力[N];電腦商報;2009年
8 特約記者鄒偉農(nóng);上海深化文件歸檔鑒定改革[N];中國檔案報;2003年
9 中遠(集團)總公司檔案室負責人 毛永芳;收好管好用好檔案 發(fā)揮檔案資源優(yōu)勢[N];中國遠洋報;2007年
10 劉順平;檔案部門應最大限度地杜絕重份文件歸檔進館[N];中國檔案報;2013年
相關碩士學位論文 前10條
1 楊爽;電子文件利用效益研究[D];吉林大學;2007年
2 張莉;電子商務文件歸檔管理研究[D];吉林大學;2007年
3 馮潔;電子文件遷移研究[D];蘇州大學;2012年
4 孫剛;電子文件真實性保障模型研究[D];天津師范大學;2007年
5 趙玉龍;基于Hadoop的海量小文件處理性能研究與優(yōu)化[D];內(nèi)蒙古科技大學;2014年
6 左大鵬;Hadoop小文件存儲管理的研究與實現(xiàn)[D];北京交通大學;2015年
7 曹浩;基于文件重構和質量調(diào)整的冗余數(shù)據(jù)刪除技術[D];上海交通大學;2013年
8 梁遠亮;論電子商務交易文件的憑證性及其保障[D];廣西民族大學;2012年
9 劉登峰;維、漢文件檔案信息管理系統(tǒng)的設計與實現(xiàn)[D];新疆大學;2008年
10 高偉;萊城工業(yè)園轄區(qū)企業(yè)文件流轉系統(tǒng)設計與實現(xiàn)[D];山東大學;2010年
,本文編號:1631603
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1631603.html