大數(shù)據(jù)分類存儲(chǔ)及檢索方法研究
本文關(guān)鍵詞:大數(shù)據(jù)分類存儲(chǔ)及檢索方法研究
更多相關(guān)文章: 大數(shù)據(jù) 小文件 分布式 標(biāo)簽 分類
【摘要】:物聯(lián)網(wǎng),社交網(wǎng)絡(luò)、電子商務(wù)等導(dǎo)致數(shù)據(jù)規(guī)模呈指數(shù)級(jí)增長。大數(shù)據(jù)應(yīng)具有存儲(chǔ)效率高、檢索速度快的基本要求。數(shù)量眾多的小文件以及文件類型的多樣性使得大數(shù)據(jù)存儲(chǔ)和檢索面臨著嚴(yán)峻的挑戰(zhàn)。針對數(shù)據(jù)規(guī)模巨大,種類繁多,大小不一等特點(diǎn),在分布式集群思想的基礎(chǔ)上,提出一種文件分類存儲(chǔ)及檢索的管理架構(gòu)。該架構(gòu)能夠動(dòng)態(tài)擴(kuò)展存儲(chǔ)容量以應(yīng)對數(shù)據(jù)的增長需求、基于多標(biāo)簽數(shù)據(jù)庫設(shè)計(jì)機(jī)制,標(biāo)記數(shù)據(jù)種類特征加快數(shù)據(jù)檢索效率,實(shí)現(xiàn)數(shù)據(jù)靈活劃分。該架構(gòu)集成了傳統(tǒng)磁盤存儲(chǔ),分布式存儲(chǔ),分布式數(shù)據(jù)庫存儲(chǔ)等存儲(chǔ)方式,能夠根據(jù)數(shù)據(jù)大小,類型屬性動(dòng)態(tài)選擇存儲(chǔ)路徑,解決了海量小文件在分布式系統(tǒng)中占用過多數(shù)據(jù)塊和內(nèi)存問題,對于不需要備份的大文件選擇傳統(tǒng)磁盤存儲(chǔ),避免分布式系統(tǒng)中盲目備份帶來的存儲(chǔ)空間浪費(fèi)問題。提出面向列式的“Z”型數(shù)據(jù)檢索方法,支持同種類型數(shù)據(jù)的批量管理,提高數(shù)據(jù)層級(jí)目錄檢索效率。基于以上架構(gòu)和方法,設(shè)計(jì)和實(shí)現(xiàn)了大數(shù)據(jù)分類存儲(chǔ)和檢索系統(tǒng)。系統(tǒng)由混合存儲(chǔ)子系統(tǒng),數(shù)據(jù)分類判斷子系統(tǒng),元數(shù)據(jù)信息管理子系統(tǒng),可視化管理子系統(tǒng)組成。實(shí)驗(yàn)證明,該系統(tǒng)能夠很好滿足海量的數(shù)據(jù)存儲(chǔ)和檢索需求。
【關(guān)鍵詞】:大數(shù)據(jù) 小文件 分布式 標(biāo)簽 分類
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP333;TP391.3
【目錄】:
- 摘要5-6
- ABSTRACT6-9
- 符號(hào)對照表9-10
- 縮略語對照表10-13
- 第一章 緒論13-17
- 1.1 引言13-14
- 1.2 論文研究背景和意義14
- 1.3 論文研究內(nèi)容及主要工作14-15
- 1.4 論文結(jié)構(gòu)安排15-17
- 第二章 大數(shù)據(jù)技術(shù)的國內(nèi)外研究現(xiàn)狀17-23
- 2.1 國外發(fā)展現(xiàn)狀17-18
- 2.2 國內(nèi)發(fā)展現(xiàn)狀18-23
- 第三章 大數(shù)據(jù)的分類存儲(chǔ)及檢索關(guān)鍵技術(shù)23-39
- 3.1 分布式存儲(chǔ)系統(tǒng)HDFS24-26
- 3.2 分布式計(jì)算框架Map/Reduce26-29
- 3.3 分布式數(shù)據(jù)庫Hbase29-34
- 3.4 分布式數(shù)據(jù)倉庫Hive34
- 3.5 分布式機(jī)器學(xué)習(xí)系統(tǒng)mahout34-35
- 3.6 大數(shù)據(jù)的應(yīng)用領(lǐng)域35-36
- 3.7 大數(shù)據(jù)當(dāng)前面臨的挑戰(zhàn)36-39
- 第四章 大數(shù)據(jù)分類存儲(chǔ)研究39-49
- 4.1 大數(shù)據(jù)分類存儲(chǔ)需考慮的問題39-40
- 4.2 大數(shù)據(jù)存儲(chǔ)分類方法40-44
- 4.2.1 按文件大小分類40-43
- 4.2.2 按文件類型分類43
- 4.2.3 按功能屬性分類43-44
- 4.3 基于決策樹的存儲(chǔ)分類方法44-47
- 4.4 分類存儲(chǔ)系統(tǒng)方案47
- 4.5 大數(shù)據(jù)分類存儲(chǔ)結(jié)構(gòu)模型47-48
- 4.6 大數(shù)據(jù)分類存儲(chǔ)方法總結(jié)48-49
- 第五章 大數(shù)據(jù)分類檢索方法研究49-59
- 5.1 文件系統(tǒng)檢索49
- 5.2 數(shù)據(jù)庫檢索49-50
- 5.3 面向列的分布式數(shù)據(jù)庫檢索50-52
- 5.4“Z”型分類檢索算法52-55
- 5.5 文件內(nèi)容檢索55-58
- 5.6 分類檢索方法總結(jié)58-59
- 第六章 大數(shù)據(jù)分類存儲(chǔ)及檢索方法實(shí)現(xiàn)59-65
- 6.1 存儲(chǔ)子系統(tǒng)59-60
- 6.2 數(shù)據(jù)分類判斷模塊60
- 6.3 元數(shù)據(jù)信息管理中間件60-62
- 6.4 可視化管理客戶端62-63
- 6.5 系統(tǒng)通信機(jī)制63-64
- 6.6 系統(tǒng)優(yōu)化設(shè)計(jì)64-65
- 第七章 結(jié)論與展望65-67
- 7.1 研究結(jié)論65
- 7.2 研究展望65-67
- 參考文獻(xiàn)67-71
- 致謝71-73
- 作者簡介73-74
- 1.基本情況73
- 2.教育背景73
- 3.攻讀碩士學(xué)位期間的研究成果73-74
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭瑩;;數(shù)據(jù)空間關(guān)鍵問題探究[J];軟件導(dǎo)刊;2012年07期
2 厲劍;張紹雄;劉俊杰;李成柱;;大數(shù)據(jù)引發(fā)信息時(shí)代新變革[J];大眾科技;2013年12期
3 李斌;;大數(shù)據(jù)及其發(fā)展趨勢研究[J];廣西教育;2013年35期
4 張曉軍;孟祥武;;數(shù)字化周期[J];計(jì)算機(jī)科學(xué);2002年05期
5 崔晨;吳揚(yáng)揚(yáng);;基于活動(dòng)的數(shù)據(jù)空間數(shù)據(jù)關(guān)系發(fā)現(xiàn)[J];微型機(jī)與應(yīng)用;2011年11期
6 賈云得;;微型數(shù)字存貯遙測裝置數(shù)據(jù)預(yù)存貯方法[J];遙測遙控;1989年06期
7 靳小龍;王元卓;程學(xué)旗;;大數(shù)據(jù)的研究體系與現(xiàn)狀[J];信息通信技術(shù);2013年06期
8 朝樂門;;數(shù)據(jù)空間及其信息資源管理視角研究[J];情報(bào)理論與實(shí)踐;2013年11期
9 黃一凡;;合并分區(qū) 數(shù)據(jù)無損有妙招[J];電腦愛好者;2011年23期
10 葛敬軍;胡長軍;劉歆;李揚(yáng);劉震宇;;面向領(lǐng)域科學(xué)數(shù)據(jù)的虛擬數(shù)據(jù)空間共享模型[J];小型微型計(jì)算機(jī)系統(tǒng);2014年03期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前5條
1 李鴻奎;陳洪艷;;大連市房地產(chǎn)基礎(chǔ)地理信息系統(tǒng)的設(shè)計(jì)和建設(shè)[A];中國地理信息系統(tǒng)協(xié)會(huì)第九屆年會(huì)論文集[C];2005年
2 董彥磊;申德榮;寇月;聶鐵錚;;數(shù)據(jù)空間中數(shù)據(jù)組織模型以及關(guān)聯(lián)關(guān)系發(fā)現(xiàn)模型的研究[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
3 龐怡;許洪光;張志敏;;針對海量科技信息的存儲(chǔ)研究[A];信息時(shí)代——科技情報(bào)研究學(xué)術(shù)論文集(第三輯)[C];2008年
4 季承;;Oracle利用HWM高水標(biāo)記收縮數(shù)據(jù)空間方案[A];2013電力行業(yè)信息化年會(huì)論文集[C];2013年
5 季承;;Oracle利用HWM高水標(biāo)記收縮數(shù)據(jù)空間方案[A];2013電力行業(yè)信息化年會(huì)論文集[C];2013年
中國重要報(bào)紙全文數(shù)據(jù)庫 前7條
1 牛澤亞;用戶如何在數(shù)據(jù)空間里“被遺忘”?[N];人民郵電;2014年
2 風(fēng)格;指引大數(shù)據(jù)未來發(fā)展方向的九大真理[N];中華讀書報(bào);2013年
3 錄音整理 本報(bào)記者 劉文強(qiáng) 楊豐源;創(chuàng)新驅(qū)動(dòng),,奮力奔向大數(shù)據(jù)時(shí)代[N];貴陽日報(bào);2014年
4 中國人民大學(xué)信息學(xué)院 李玉坤;云計(jì)算與數(shù)據(jù)空間[N];中國計(jì)算機(jī)報(bào);2008年
5 整理 本報(bào)記者 蘇丹丹;把握大數(shù)據(jù)機(jī)遇 推動(dòng)文化產(chǎn)業(yè)跨越發(fā)展[N];中國文化報(bào);2013年
6 安徽國稅局 趙為民;稅務(wù)綜合數(shù)據(jù)平臺(tái)的設(shè)想[N];計(jì)算機(jī)世界;2007年
7 記者 鄭向鵬 通訊員 劉戈;模塊化布局可按需使用[N];深圳特區(qū)報(bào);2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李曉娜;面向SaaS應(yīng)用的多租戶數(shù)據(jù)放置機(jī)制研究[D];山東大學(xué);2015年
2 張德兵;基于機(jī)器學(xué)習(xí)的數(shù)據(jù)補(bǔ)全、標(biāo)注和檢索若干問題研究[D];浙江大學(xué);2015年
3 姜朔;數(shù)據(jù)空間中數(shù)據(jù)集成若干關(guān)鍵問題研究[D];東華大學(xué);2014年
4 陳鵬;面向情景感知計(jì)算的時(shí)空數(shù)據(jù)管理、查詢、分析與相關(guān)算法研究[D];華東師范大學(xué);2013年
5 楊丹;數(shù)據(jù)空間中基于語義的實(shí)體搜索關(guān)鍵技術(shù)研究[D];東北大學(xué);2012年
6 王曉蕊;華北克拉通地球化學(xué)科學(xué)數(shù)據(jù)的管理及應(yīng)用研究[D];中國地質(zhì)大學(xué);2008年
7 張曉東;數(shù)字河口平臺(tái)建設(shè)關(guān)鍵技術(shù)研究[D];中國海洋大學(xué);2009年
8 汪陳應(yīng);XML數(shù)據(jù)編碼與存儲(chǔ)管理關(guān)鍵技術(shù)研究[D];南開大學(xué);2010年
9 李韌;基于Hadoop的大規(guī)模語義Web本體數(shù)據(jù)查詢與推理關(guān)鍵技術(shù)研究[D];重慶大學(xué);2013年
10 劉江濤;面向多領(lǐng)域用戶模型的自適應(yīng)網(wǎng)絡(luò)制圖服務(wù)機(jī)制研究[D];武漢大學(xué);2012年
本文編號(hào):865492
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/865492.html