溯源數(shù)據(jù)壓縮存儲(chǔ)研究

發(fā)布時(shí)間：2018-09-04 05:37

【摘要】：隨著信息技術(shù)的發(fā)展，人們對(duì)信息的關(guān)注點(diǎn)不僅僅在數(shù)據(jù)本身，還需要知道數(shù)據(jù)的來源和演變等信息。這些數(shù)據(jù)的歷史信息，也稱為數(shù)據(jù)的溯源信息。在科學(xué)研究領(lǐng)域，數(shù)據(jù)溯源有廣泛的應(yīng)用，因?yàn)閿?shù)據(jù)質(zhì)量對(duì)科學(xué)家來說極其重要。其中有很多產(chǎn)生和收集溯源信息的系統(tǒng)，包括物理天文，化學(xué)，生物和海洋氣象等研究領(lǐng)域。除此之外，溯源在數(shù)據(jù)重建，調(diào)試跟蹤，安全和搜索等方面的應(yīng)用也開始出現(xiàn)。但是在現(xiàn)有的諸多溯源系統(tǒng)中，溯源數(shù)據(jù)空間占用遠(yuǎn)遠(yuǎn)超過數(shù)據(jù)本身，在數(shù)據(jù)的內(nèi)容與歷史當(dāng)中，處于次位的歷史消耗了過多的資源，這就大大的降低了溯源系統(tǒng)的可用性和高效性。為了減少溯源數(shù)據(jù)的空間占用，而又不影響溯源完整性，Chapman等人提出了因式分解與繼承（FAI）算法。FAI只是將溯源信息中的共同信息分析出來，進(jìn)行優(yōu)化。論文使用多維壓縮算法，除了對(duì)溯源信息中共同的信息進(jìn)行優(yōu)化處理之外，還對(duì)數(shù)據(jù)本身的身份信息進(jìn)行優(yōu)化，同時(shí)挖掘溯源信息內(nèi)在的相似性，將編碼之后的溯源祖先信息使用web算法進(jìn)行優(yōu)化，進(jìn)一步降低溯源祖先信息的存儲(chǔ)開銷，而且保證溯源信息查找性能不受影響，這是從微觀層面對(duì)溯源數(shù)據(jù)進(jìn)行優(yōu)化存儲(chǔ)。另外，從宏觀層面來看，溯源數(shù)據(jù)隨著時(shí)間無限增長(zhǎng)，導(dǎo)致溯源空間和查詢時(shí)間開銷無限增長(zhǎng)，針對(duì)這個(gè)問題，論文以PASS系統(tǒng)為研究實(shí)例，，采用溯源信息分割，建立索引，壓縮分割溯源文件等方式，利用溯源數(shù)據(jù)的局部性原理，改進(jìn)了PASS系統(tǒng)的溯源存儲(chǔ)和查找機(jī)制。實(shí)驗(yàn)表明，多維壓縮算法無論在存儲(chǔ)空間占用，還是身份或祖先信息查詢方面都要好于FAI算法；在PASS系統(tǒng)的溯源存儲(chǔ)優(yōu)化中，使用數(shù)據(jù)庫(kù)分割，建立索引，壓縮分割的主數(shù)據(jù)庫(kù)文件等方式，與原有的溯源存儲(chǔ)方法比較，在空間占用和查詢時(shí)間的開銷方面都要好于原有的方法。
[Abstract]:With the development of information technology, people pay more attention not only to the data itself, but also to the source and evolution of the data. The historical information of these data, also known as data traceability information. Data traceability is widely used in scientific research because data quality is very important to scientists. There are many systems for generating and collecting traceability information, including physics, astronomy, chemistry, biology and marine meteorology. In addition, traceability in data reconstruction, debugging and tracking, security and search applications are also beginning to appear. However, in many existing traceability systems, the traceability data space occupies far more than the data itself, and in the data content and history, the history at the secondary level consumes too much resources. This greatly reduces the availability and efficiency of traceability systems. In order to reduce the space occupation of traceability data without affecting the traceability integrity, Chapman et al proposed a factorization and inheritance (FAI) algorithm, which only analyzes the common information in the traceability information and optimizes it. In this paper, the multi-dimensional compression algorithm is used to optimize the identity information of the data itself, in addition to the common information in the traceability information, at the same time, the similarity of the traceability information is mined. The web algorithm is used to optimize the coded traceability ancestor information to further reduce the storage cost of traceability ancestor information and to ensure that the traceability information lookup performance is not affected. This is to optimize the storage of traceability data from the micro level. In addition, from the macro level, traceability data increases infinitely with time, which leads to infinite increase of traceability space and query time. Aiming at this problem, this paper takes PASS system as an example, uses traceability information segmentation to build index. Based on the principle of locality of traceability data, the traceability storage and search mechanism of PASS system is improved by compressing segmented traceability files. Experiments show that the multidimensional compression algorithm is better than the FAI algorithm in terms of storage space occupation, identity or ancestor information query, database segmentation and indexing are used in the traceability storage optimization of PASS system. Compared with the original traceability storage method, the compressing and partitioning of the main database file is better than the original method in terms of the cost of space occupation and query time.
【學(xué)位授予單位】：華中科技大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2013
【分類號(hào)】：TP333

【共引文獻(xiàn)】

相關(guān)期刊論文前10條

1 甘玲;劉柄宏;;基于優(yōu)先級(jí)位圖對(duì)RTAI實(shí)時(shí)性的改進(jìn)[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年06期

2 陳小蘭;楊斌;;多處理器平臺(tái)下Linux 2.6啟動(dòng)過程中的位圖分析[J];成都信息工程學(xué)院學(xué)報(bào);2010年01期

3 施文佳;楊斌;;對(duì)稱多處理器下基于調(diào)度域的超線程實(shí)現(xiàn)[J];成都信息工程學(xué)院學(xué)報(bào);2010年02期

4 劉謙;;Linux操作系統(tǒng)實(shí)時(shí)性能測(cè)試與分析[J];電腦學(xué)習(xí);2007年06期

5 李京;段汕;;Linux2.6內(nèi)核的實(shí)時(shí)調(diào)度的研究[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年23期

6 王海波;;基于嵌入式Web技術(shù)的遠(yuǎn)程控制應(yīng)用與研究[J];電腦知識(shí)與技術(shù);2009年25期

7 張輝;李新華;劉波;錢翔;;基于V4L2的視頻設(shè)備驅(qū)動(dòng)開發(fā)與移植[J];電腦知識(shí)與技術(shù);2010年15期

8 宋鵬飛;曾國(guó)蓀;;一種基于溫度感知的多核調(diào)度方法[J];電腦知識(shí)與技術(shù);2010年17期

9 李洋;Michael Collier;;數(shù)字電視NAND Flash驅(qū)動(dòng)程序的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2012年01期

10 李希;劉宏;;多核平臺(tái)下網(wǎng)絡(luò)設(shè)備軟件接口的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2012年16期

相關(guān)會(huì)議論文前8條

1 張怡;肖儂;楊海云;;基于網(wǎng)格的XMLDB共享訪問系統(tǒng)[A];2006年全國(guó)開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集（三）[C];2006年

2 魏孫波;殷瑞祥;;無線Mesh網(wǎng)絡(luò)接入點(diǎn)的研究與實(shí)現(xiàn)[A];2008’“先進(jìn)集成技術(shù)”院士論壇暨第二屆儀表、自動(dòng)化與先進(jìn)集成技術(shù)大會(huì)論文集[C];2008年

3 童子權(quán);馬瑞;王軍委;;六位半數(shù)字多用表LXI模塊的設(shè)計(jì)[A];第三屆全國(guó)虛擬儀器大會(huì)論文集[C];2008年

4 章悅;高軍;王騰蛟;楊冬青;唐世渭;;QBXS:一種基于查詢的XML文檔存儲(chǔ)方法[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集（技術(shù)報(bào)告篇）[C];2003年

5 陸世潮;孟小峰;林燦;王宇;;OrientX中XQuery的導(dǎo)航式實(shí)現(xiàn)[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集（研究報(bào)告篇）[C];2004年

6 余翔宇;劉夢(mèng)赤;劉芬;;基于XTree的Native XML管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集（技術(shù)報(bào)告篇）[C];2007年

7 張慧斌;袁曉潔;王鑫;汪陳應(yīng);劉芳;;XBackend:一種Native XML數(shù)據(jù)庫(kù)系統(tǒng)的后端實(shí)現(xiàn)策略[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集（研究報(bào)告篇）[C];2007年

8 張新;孟小峰;朱金清;王偉;黃靜;;OrientStore~+:一種支持高效更新的Native XML存儲(chǔ)方法[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集（研究報(bào)告篇）[C];2007年

相關(guān)博士學(xué)位論文前10條

1 殷麗鳳;不完全信息環(huán)境下XML數(shù)據(jù)庫(kù)規(guī)范化問題的研究[D];哈爾濱理工大學(xué);2009年

2 汪陳應(yīng);XML數(shù)據(jù)編碼與存儲(chǔ)管理關(guān)鍵技術(shù)研究[D];南開大學(xué);2010年

3 藺旭東;基于語義的XML查詢及規(guī)范化研究[D];北京交通大學(xué);2010年

4 寧博;XML查詢模式匹配及文檔過濾技術(shù)研究[D];東北大學(xué);2009年

5 曲衛(wèi)民;中文XML信息檢索系統(tǒng)的研究[D];中國(guó)科學(xué)院研究生院（軟件研究所）;2004年

6 龐引明;基于結(jié)構(gòu)化聯(lián)接的XML查詢模式匹配關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2004年

7 張忠平;基于約束的XML數(shù)據(jù)庫(kù)模式規(guī)范化研究[D];復(fù)旦大學(xué);2004年

8 張曉琳;面向?qū)ο蟮腦ML數(shù)據(jù)管理技術(shù)研究[D];東北大學(xué);2006年

9 朱茂盛;XML路徑表達(dá)式優(yōu)化及其查詢和過濾計(jì)算方法[D];中國(guó)科學(xué)院研究生院（計(jì)算技術(shù)研究所）;2004年

10 王鑫印;無結(jié)構(gòu)和半結(jié)構(gòu)信息檢索相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年

相關(guān)碩士學(xué)位論文前10條

1 白林;基于路徑表達(dá)式的XML索引查詢技術(shù)[D];鄭州大學(xué);2010年

2 呂國(guó)勝;基于ARM的時(shí)差法超聲波流量計(jì)設(shè)計(jì)[D];大連理工大學(xué);2010年

3 申安來;網(wǎng)格環(huán)境下資源發(fā)現(xiàn)決策支持算法研究[D];遼寧師范大學(xué);2010年

4 李靜;利用NetFilter框架實(shí)現(xiàn)IPv6流量控制[D];河南理工大學(xué);2010年

5 張麟;XML數(shù)據(jù)查詢優(yōu)化技術(shù)的研究[D];哈爾濱理工大學(xué);2010年

6 崔捷;異構(gòu)無線傳感器網(wǎng)絡(luò)多鏈路傳輸技術(shù)的設(shè)計(jì)和實(shí)現(xiàn)[D];北京交通大學(xué);2011年

7 劉芳華;基于ARM的WiFi無線通信終端的研究與實(shí)現(xiàn)[D];武漢科技大學(xué);2010年

8 羅成;仿人機(jī)器人驅(qū)動(dòng)與控制程序的實(shí)時(shí)化[D];浙江大學(xué);2011年

9 陳余超;安全日志審計(jì)系統(tǒng)及其快速匹配機(jī)制的研究與實(shí)現(xiàn)[D];浙江工商大學(xué);2011年

10 羅小東;基于DSP和ARM的嵌入式車牌識(shí)別系統(tǒng)的設(shè)計(jì)與開發(fā)[D];電子科技大學(xué);2011年

本文編號(hào)：2221171

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2221171.html

上一篇：云數(shù)據(jù)中心的構(gòu)建與實(shí)現(xiàn)
下一篇：基于量子元胞自動(dòng)機(jī)的可逆二進(jìn)制減法器設(shè)計(jì)（英文）

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

溯源數(shù)據(jù)壓縮存儲(chǔ)研究