面向車(chē)駕管業(yè)務(wù)的海量小文件存儲(chǔ)研究與優(yōu)化
本文選題:海量小文件 切入點(diǎn):HDFS 出處:《廣西師范大學(xué)》2017年碩士論文 論文類(lèi)型:學(xué)位論文
【摘要】:隨著計(jì)算機(jī)互聯(lián)網(wǎng)的發(fā)展與信息時(shí)代的到來(lái),在天文、地理、氣象、電子商務(wù)等諸多領(lǐng)域,其使用的應(yīng)用系統(tǒng)中已積累了數(shù)量驚人的數(shù)據(jù),同時(shí)這些數(shù)據(jù)被分散成多個(gè)容量很小的文件進(jìn)行存儲(chǔ)。并且諸如銀行、郵政、車(chē)管所等這些便利民眾的服務(wù)行業(yè)也開(kāi)始結(jié)合互聯(lián)網(wǎng)形成“互聯(lián)網(wǎng)+”的發(fā)展模式,并為了滿(mǎn)足其自身的某種需求而逐漸產(chǎn)生出億級(jí)以上的海量小文件,且這些文件數(shù)量仍舊處在爆炸性增長(zhǎng)中,這給系統(tǒng)存儲(chǔ)效率、檢索及元數(shù)據(jù)管理帶來(lái)巨大挑戰(zhàn)。在大數(shù)據(jù)時(shí)代背景下,根據(jù)《互聯(lián)網(wǎng)交通安全綜合服務(wù)平臺(tái)建設(shè)指導(dǎo)意見(jiàn)》(公交管(2013)433號(hào))要求,為了推進(jìn)“互聯(lián)網(wǎng)+車(chē)管所”的大數(shù)據(jù)平臺(tái)建設(shè),本文針對(duì)南寧市車(chē)管所車(chē)駕管業(yè)務(wù)系統(tǒng)的需要,構(gòu)建一個(gè)基于Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)面向車(chē)駕管業(yè)務(wù)的海量小文件存儲(chǔ)系統(tǒng)VDSMSS(Vehicle-Driving ServiceMassStorageSystem),為“互聯(lián)網(wǎng)+車(chē)管所”的大數(shù)據(jù)平臺(tái)打下基礎(chǔ),同時(shí)也為當(dāng)今針對(duì)服務(wù)行業(yè)的基于HDFS的海量小文件存儲(chǔ)系統(tǒng)設(shè)計(jì),提供一個(gè)有效解決思路和優(yōu)化方向,具有現(xiàn)實(shí)意義和價(jià)值。本文的主要研究?jī)?nèi)容如下:(1)簡(jiǎn)述HDFS的核心架構(gòu)及其內(nèi)部的關(guān)鍵數(shù)據(jù)結(jié)構(gòu)。介紹當(dāng)前業(yè)界面對(duì)海量小文件時(shí)使用的存儲(chǔ)優(yōu)化方案,分析其中幾個(gè)代表性方案的優(yōu)缺點(diǎn)。介紹幾種代表性的緩存替換算法,重點(diǎn)介紹文件系統(tǒng)ZFS的自調(diào)整緩存替換算法(ZFS Adjustable Replacement Cache,ZFS-ARC)。(2)分析HDFS存儲(chǔ)海量小文件時(shí)存在的問(wèn)題,確定優(yōu)化方向?偨Y(jié)闡述車(chē)駕管業(yè)務(wù)系統(tǒng)中小文件所具有的特點(diǎn),針對(duì)該特點(diǎn),設(shè)計(jì)將多個(gè)小文件以用戶(hù)為單位,按時(shí)間業(yè)務(wù)分組,合并成一個(gè)大文件,從而減少小文件的數(shù)量,達(dá)到降低大量小文件元數(shù)據(jù)占用NameNode內(nèi)存的目的。同時(shí)設(shè)計(jì)一個(gè)高效的單一文件查找方法和批量查找索引,能在兼顧檢索文件速度的情況下,以一定查詢(xún)條件進(jìn)行批量文件查找。(3)針對(duì)HDFS沒(méi)有在文件讀寫(xiě)方面提供預(yù)取和緩存功能的問(wèn)題,本文提出了一個(gè)基于文件關(guān)聯(lián)度預(yù)讀機(jī)制的自調(diào)整緩存替換算法。首先采用傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法,對(duì)存儲(chǔ)有小文件訪(fǎng)問(wèn)記錄的Hadoop日志文件進(jìn)行關(guān)聯(lián)挖掘,將挖掘出的數(shù)據(jù)進(jìn)行合乎理論的數(shù)理分析,計(jì)算出小文件之間的潛在關(guān)聯(lián)度。其次以此關(guān)聯(lián)度設(shè)計(jì)出一個(gè)合適的文件預(yù)讀機(jī)制,當(dāng)某個(gè)小文件被讀取時(shí),則把該小文件的關(guān)聯(lián)文件預(yù)讀到緩存中。然后將兼顧了“時(shí)間”和“頻率”的緩存替換算法ZFS-ARC與本文設(shè)計(jì)的預(yù)讀機(jī)制結(jié)合,改進(jìn)出一個(gè)基于文件關(guān)聯(lián)度預(yù)讀機(jī)制的自調(diào)整緩存替換算法PRE-ZFSARC,用以提高VDSMSS的小文件讀取性能。最后通過(guò)實(shí)驗(yàn)對(duì)比分析,證明本文方案的有效性。最終完成海量小文件存儲(chǔ)系統(tǒng)的性能優(yōu)化,使其高度適用于車(chē)管所車(chē)駕管業(yè)務(wù)系統(tǒng)。
[Abstract]:With the development of the computer Internet and the arrival of the information age, in many fields, such as astronomy, geography, meteorology, electronic commerce and so on, its application system has accumulated a surprising amount of data. At the same time, this data is scattered into a number of very small files for storage. And services such as banks, postal services, car management offices and so on are beginning to combine the Internet to form a "Internet" development model. And to meet its own needs and gradually produce a large number of small files of more than 100 million levels, and the number of these files are still explosive growth, which gives the system storage efficiency, Retrieval and metadata management pose great challenges. In the context of big data's time, according to the guidance on the Construction of Internet Traffic Safety Integrated Service platform, In order to promote the construction of big data platform of Internet vehicle Management Institute, this paper aims at the needs of vehicle driving and management business system of Nanning vehicle Management Institute. A large amount of small file storage system, VDSMSS(Vehicle-Driving Service Mass Storage system, which is based on Hadoop distributed file system, Hadoop Distributed File File system, is constructed, which lays the foundation for big data platform of Internet vehicle Management Institute. At the same time, it also provides an effective solution and optimization direction for the design of mass small file storage system based on HDFS for the service industry. The main research contents of this paper are as follows: 1) briefly describe the core architecture of HDFS and its internal key data structure, and introduce the storage optimization schemes used by the industry in the face of a large number of small files. This paper analyzes the merits and demerits of several representative schemes, introduces several representative cache replacement algorithms, and focuses on the self-adjusting cache replacement algorithm of file system ZFS (ZFS Adjustable Replacement CacheCache ZFS-ARCU. 2) analyzes the problems existing in HDFS storage of large amount of small files. To determine the direction of optimization, summarize and expound the characteristics of small files in vehicle driving and management business system. In view of this characteristic, design and merge several small files into one large file by time business grouping, taking user as unit, So as to reduce the number of small files and reduce the amount of small file metadata to occupy NameNode memory. At the same time, we design an efficient single file lookup method and batch search index, which can take into account the speed of file retrieval. To solve the problem that HDFS does not provide prefetching and caching functions in file reading and writing, In this paper, a self-adjusting cache replacement algorithm based on file association prereading mechanism is proposed. Firstly, the traditional association rule mining algorithm is used to mine the Hadoop log files with small file access records. The extracted data is analyzed in accordance with the theory, and the potential correlation degree between small files is calculated. Secondly, an appropriate file pre-reading mechanism is designed with this correlation degree, when a small file is read, Then the associated file of the small file is preread into the cache. Then the cache replacement algorithm ZFS-ARC, which takes into account both "time" and "frequency", is combined with the pre-read mechanism designed in this paper. A self-adjusting cache replacement algorithm PRE-ZFSARCbased on file association degree prereading mechanism is improved to improve the performance of small file reading in VDSMSS. It is proved that this scheme is effective. Finally, the performance optimization of mass small file storage system is completed, which makes it highly applicable to the vehicle driving business system of the vehicle pipe station.
【學(xué)位授予單位】:廣西師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP333
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 姚義曼;如何保持文件存儲(chǔ)的連續(xù)性[J];微計(jì)算機(jī)信息;2000年02期
2 王春靖;FAT32的優(yōu)點(diǎn)[J];電腦愛(ài)好者;1998年03期
3 何文才;鄭釗;劉培鶴;杜敏;;一種基于目錄數(shù)據(jù)分離存儲(chǔ)的文件存儲(chǔ)方法的研究與實(shí)現(xiàn)[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2014年01期
4 飛雪散花;;手機(jī)文件存儲(chǔ)看我的[J];電腦迷;2012年05期
5 孫有軍;張大興;;海量圖片文件存儲(chǔ)去重技術(shù)研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年04期
6 ;金剛指——計(jì)算機(jī)文件存儲(chǔ)的保護(hù)神[J];信息安全與通信保密;2001年12期
7 趙躍龍;謝曉玲;蔡詠才;王國(guó)華;劉霖;;一種性能優(yōu)化的小文件存儲(chǔ)訪(fǎng)問(wèn)策略的研究[J];計(jì)算機(jī)研究與發(fā)展;2012年07期
8 周?chē)?guó)安;李強(qiáng);陳新;胡旭;;云環(huán)境下海量小文件存儲(chǔ)技術(shù)研究綜述[J];信息網(wǎng)絡(luò)安全;2014年06期
9 張美芳;電子文件存儲(chǔ)方式的研究[J];數(shù)字與縮微影像;2005年02期
10 陶慧;于守謙;劉夏;;適于測(cè)控系統(tǒng)的文件存儲(chǔ)結(jié)構(gòu)研究[J];計(jì)算機(jī)應(yīng)用與軟件;2010年11期
相關(guān)會(huì)議論文 前6條
1 任勇;朱立谷;張雷;彭建峰;;新型虛擬文件存儲(chǔ)系統(tǒng)的設(shè)計(jì)[A];第15屆全國(guó)信息存儲(chǔ)技術(shù)學(xué)術(shù)會(huì)議論文集[C];2008年
2 李浩;;基于制播分離的文件存儲(chǔ)和傳輸方式的探討[A];中國(guó)新聞技術(shù)工作者聯(lián)合會(huì)五屆二次理事會(huì)暨學(xué)術(shù)年會(huì)論文集(上篇)[C];2010年
3 陳海波;侯建衛(wèi);;針對(duì)海量詳單快速存儲(chǔ)檢索的實(shí)現(xiàn)方法[A];2011年通信與信息技術(shù)新進(jìn)展——第八屆中國(guó)通信學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2011年
4 陳海波;侯建衛(wèi);;針對(duì)海量詳單快速存儲(chǔ)檢索的實(shí)現(xiàn)方法[A];2011全國(guó)無(wú)線(xiàn)及移動(dòng)通信學(xué)術(shù)大會(huì)論文集[C];2011年
5 袁旦;張智君;;預(yù)覽時(shí)間對(duì)顏色判斷任務(wù)下客體文件存儲(chǔ)的影響[A];第十一屆全國(guó)心理學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2007年
6 黃步根;黃政;劉建軍;;SANYO數(shù)碼相機(jī)中被刪除視頻的恢復(fù)[A];第26次全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集[C];2011年
相關(guān)重要報(bào)紙文章 前9條
1 本報(bào)記者 郭平;Isilon擴(kuò)充文件存儲(chǔ)產(chǎn)品線(xiàn)[N];計(jì)算機(jī)世界;2009年
2 本報(bào)記者 郭平;容量與性能 一樣都不能少[N];計(jì)算機(jī)世界;2010年
3 張峰;統(tǒng)一存儲(chǔ) 業(yè)務(wù)連續(xù)[N];網(wǎng)絡(luò)世界;2006年
4 清水 編譯;基于文件存儲(chǔ)大行其道[N];計(jì)算機(jī)世界;2011年
5 本報(bào)記者 郭濤;HCP Anywhere:為HDS內(nèi)容云錦上添花[N];中國(guó)計(jì)算機(jī)報(bào);2013年
6 于翔;讓IT如業(yè)務(wù)般運(yùn)營(yíng)的應(yīng)用路徑[N];網(wǎng)絡(luò)世界;2009年
7 劉一冰;IBM SoNAS專(zhuān)攻高端存儲(chǔ)客戶(hù)[N];電腦商報(bào);2010年
8 清水 編譯;云存儲(chǔ):機(jī)遇下暗藏挑戰(zhàn)[N];計(jì)算機(jī)世界;2010年
9 沈建苗;互聯(lián)網(wǎng)存儲(chǔ) 你信得過(guò)嗎[N];計(jì)算機(jī)世界;2007年
相關(guān)碩士學(xué)位論文 前10條
1 廖家趙;面向城軌線(xiàn)網(wǎng)的海量小文件存儲(chǔ)方法的研究與實(shí)現(xiàn)[D];華南理工大學(xué);2015年
2 李長(zhǎng)平;基于FastDFS架構(gòu)的小文件存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
3 葉道平;基于HADOOP的海量錄音文件存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
4 張振猛;基于Hadoop的海量文件存儲(chǔ)系統(tǒng)的分析與設(shè)計(jì)[D];北京工業(yè)大學(xué);2015年
5 武奇;云存儲(chǔ)中數(shù)據(jù)的分發(fā)與遷移機(jī)制的研究[D];長(zhǎng)春工業(yè)大學(xué);2016年
6 周興;基于MongoDB的海量大中小文件存儲(chǔ)系統(tǒng)的研究與應(yīng)用[D];中國(guó)地質(zhì)大學(xué)(北京);2016年
7 張程;基于HDFS的文件存儲(chǔ)與讀取的優(yōu)化策略研究與應(yīng)用[D];北京工業(yè)大學(xué);2016年
8 宮海林;支持事務(wù)的文件存儲(chǔ)技術(shù)研究與系統(tǒng)實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2006年
9 曹挹芬;分布式文件存儲(chǔ)與檢索平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2009年
10 黃斌;并行文件存儲(chǔ)系統(tǒng)關(guān)鍵技術(shù)的研究[D];華南理工大學(xué);2012年
,本文編號(hào):1576576
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/1576576.html