基于HDFS的學(xué)習(xí)資源庫數(shù)據(jù)存儲管理關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:基于HDFS的學(xué)習(xí)資源庫數(shù)據(jù)存儲管理關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:學(xué)習(xí)資源庫是根據(jù)當(dāng)前教育信息化和網(wǎng)絡(luò)共享性的發(fā)展,由高;蛘進(jìn)OOC平臺構(gòu)建和管理的一種學(xué)習(xí)資源共享平臺,主要以實現(xiàn)學(xué)習(xí)資源共享和擴(kuò)展高校或者M(jìn)OOC平臺的學(xué)習(xí)資源建設(shè)為口的。隨著海量學(xué)習(xí)資源的爆炸式增長,學(xué)習(xí)資源的存儲將面臨新的問題,例如學(xué)習(xí)資源的可靠性和可擴(kuò)展性存儲,以小文件為主的學(xué)習(xí)資源有效存儲,學(xué)習(xí)資源冗余數(shù)據(jù)去重等。本文在分析了當(dāng)前相關(guān)技術(shù)在解決上述問題優(yōu)缺點的基礎(chǔ)上,提出了新的技術(shù)解決方案,以解決學(xué)習(xí)資源庫海量數(shù)據(jù)有效存儲的問題。在海量學(xué)習(xí)資源的可靠性和可擴(kuò)展性存儲方面,本文提出了以HDFS存儲學(xué)習(xí)資源數(shù)據(jù)文件和以HBase數(shù)據(jù)庫存儲學(xué)習(xí)資源元數(shù)據(jù)信息的存儲架構(gòu)方案。結(jié)合文件壓縮存儲策略,提出了基于文件訪問頻率的混合副本存儲策略來優(yōu)化基于HDFS的學(xué)習(xí)資源庫數(shù)據(jù)存儲架構(gòu)的可靠性。采用HDFS的動態(tài)添加節(jié)點策略實現(xiàn)學(xué)習(xí)資源庫的動態(tài)水平擴(kuò)展,并且引用Balancer機(jī)制,以實現(xiàn)學(xué)習(xí)資源庫中各存儲節(jié)點的負(fù)載均衡。在大量小文件的存儲方面,本文利用用戶名的唯一性和HDFS 的 Append操作實現(xiàn)小文件合并來減少NameNode節(jié)點中元數(shù)據(jù)信息消耗的內(nèi)存空間,從而實現(xiàn)小文件有效存儲的口標(biāo)。在學(xué)習(xí)資源冗余數(shù)據(jù)去重方面,本文結(jié)合Counting Bloom Filter算法,提出一種學(xué)習(xí)資源冗余數(shù)據(jù)去重技術(shù),以解決頻繁地I/O操作問題和提高學(xué)習(xí)資源冗余數(shù)據(jù)去重的效率。最后,本文開發(fā)并實現(xiàn)了一個學(xué)習(xí)資源庫數(shù)據(jù)存儲原型系統(tǒng),針對本文提出的相關(guān)問題的解決方案,進(jìn)行了系統(tǒng)性能測試和測試結(jié)果分析。實驗證明,本文提出的海量學(xué)習(xí)資源數(shù)據(jù)存儲解決方案是有效的。
【關(guān)鍵詞】:學(xué)習(xí)資源庫 數(shù)據(jù)存儲 MOOC HDFS HBase Counting Bloom Filter 數(shù)據(jù)去重
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP333
【目錄】:
- 摘要4-5
- ABSTRACT5-8
- 第一章 引言8-15
- 1.1 研究背景8-10
- 1.2 國內(nèi)外相關(guān)研究現(xiàn)狀10-12
- 1.3 研究口標(biāo)和研究內(nèi)容12-13
- 1.4 本文組織結(jié)構(gòu)13-15
- 第二章 相關(guān)技術(shù)理論15-24
- 2.1 HDFS分布式文件系統(tǒng)15-17
- 2.1.1 HDFS的特性15-16
- 2.1.2 HDFS體系架構(gòu)16-17
- 2.2 HBase數(shù)據(jù)庫17-18
- 2.3 小文件存儲相關(guān)技術(shù)18-20
- 2.3.1 HAR小文件存儲技術(shù)19
- 2.3.2 SequenceFile小文件存儲技術(shù)19
- 2.3.3 多NameNode節(jié)點小文件存儲技術(shù)19-20
- 2.4 數(shù)據(jù)去重相關(guān)技術(shù)20-23
- 2.4.1 數(shù)據(jù)去重技術(shù)簡介20
- 2.4.2 數(shù)據(jù)去重技術(shù)分類20-22
- 2.4.3 Counting Bloom Filter算法22-23
- 2.5 本章小結(jié)23-24
- 第三章 基于HDFS的學(xué)習(xí)資源庫數(shù)據(jù)存儲架構(gòu)的設(shè)計24-29
- 3.1 學(xué)習(xí)資源庫數(shù)據(jù)存儲架構(gòu)的設(shè)計24
- 3.2 學(xué)習(xí)資源元數(shù)據(jù)的定義和存儲24-25
- 3.3 學(xué)習(xí)資源存儲可靠性和可擴(kuò)展性設(shè)計25-28
- 3.3.1 學(xué)習(xí)資源存儲可靠性設(shè)計25-27
- 3.3.2 學(xué)習(xí)資源存儲可擴(kuò)展性設(shè)計27-28
- 3.4 本章小結(jié)28-29
- 第四章 基于HDFS的學(xué)習(xí)資源庫小文件存儲優(yōu)化29-35
- 4.1 小文件存儲問題29
- 4.2 小文件存儲優(yōu)化設(shè)計29-33
- 4.2.1 小文件存儲優(yōu)化方案與架構(gòu)30-31
- 4.2.2 小文件操作過程31-33
- 4.3 小文件存儲優(yōu)化主要實現(xiàn)33-34
- 4.4 本章小結(jié)34-35
- 第五章 基于HDFS的學(xué)習(xí)資源庫冗余數(shù)據(jù)去重技術(shù)35-43
- 5.1 學(xué)習(xí)資源冗余數(shù)據(jù)去重技術(shù)研究35-37
- 5.1.1 學(xué)習(xí)資源冗余數(shù)據(jù)去重一般過程35-36
- 5.1.2 Counting Bloom Filter算法的計數(shù)器大小分析36-37
- 5.2 學(xué)習(xí)資源冗余數(shù)據(jù)去重實現(xiàn)過程37-39
- 5.3 學(xué)習(xí)資源基本操作過程39-42
- 5.3.1 學(xué)習(xí)資源上傳操作過程39-41
- 5.3.2 學(xué)習(xí)資源刪除操作過程41-42
- 5.4 本章小結(jié)42-43
- 第六章 系統(tǒng)相關(guān)性能測試與分析43-50
- 6.1 測試準(zhǔn)備43-44
- 6.1.1 系統(tǒng)硬件和軟件環(huán)境43-44
- 6.1.2 存儲系統(tǒng)實現(xiàn)44
- 6.2 性能測試與分析44-49
- 6.2.1 數(shù)據(jù)讀寫性能測試44-46
- 6.2.2 小文件存儲優(yōu)化性能測試46-48
- 6.2.3 學(xué)習(xí)資源冗余數(shù)據(jù)去重性能測試48-49
- 6.3 本章小結(jié)49-50
- 第七章 總結(jié)與展望50-52
- 7.1 論文主要工作總結(jié)50-51
- 7.2 展望51-52
- 致謝52-53
- 參考文獻(xiàn)53-55
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 袁小紅;;多媒體資源庫在網(wǎng)絡(luò)教學(xué)中的應(yīng)用與研究[J];網(wǎng)絡(luò)科技時代(信息技術(shù)教育);2002年08期
2 張紅俠,王芳蘭;醫(yī)院建立護(hù)理人力資源庫的體會[J];華夏醫(yī)學(xué);2005年05期
3 楊晶石;王紅梅;;長白山特色資源庫的構(gòu)建[J];通化師范學(xué)院學(xué)報;2009年04期
4 王碧靜;;個人資源庫的構(gòu)建[J];電腦知識與技術(shù);2009年15期
5 歐浩源;;構(gòu)建嵌入式系統(tǒng)研發(fā)的資源庫[J];今日電子;2010年08期
6 史棟杰;孔華鋒;;領(lǐng)域驅(qū)動設(shè)計中資源庫模式的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2010年33期
7 鐘萍;黃苗珠;葉元;;婦產(chǎn)科多媒體資源庫的建立[J];中國醫(yī)學(xué)創(chuàng)新;2011年20期
8 陳鈺華;尹晶海;;基于網(wǎng)絡(luò)數(shù)據(jù)抓取的異構(gòu)試題資源庫的構(gòu)建[J];科技廣場;2012年08期
9 力志;東一舟;;數(shù)字化資源庫的出入庫策略研究[J];無線互聯(lián)科技;2012年09期
10 崔亮;徐守江;;食品設(shè)備網(wǎng)絡(luò)資源庫平臺的設(shè)計與實現(xiàn)[J];電子制作;2013年23期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 解威;;明確認(rèn)識中學(xué)的計算機(jī)網(wǎng)絡(luò) 推進(jìn)網(wǎng)絡(luò)的切實應(yīng)用[A];中國當(dāng)代教育理論文獻(xiàn)——第四屆中國教育家大會成果匯編(下)[C];2007年
2 殷建民;刀福祥;張軸材;;西雙版納傣文“貝頁經(jīng)”資源庫技術(shù)研究[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
3 董輝;黃兵;趙其平;姜連連;韓紅玉;;中國畜禽寄生蟲蟲種資源庫的建設(shè)[A];中國畜牧獸醫(yī)學(xué)會家畜寄生蟲學(xué)分會第五次代表大會暨第八次學(xué)術(shù)研討會論文集[C];2004年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 茅蕾 閆惠;檔案:不該被遺忘的文化產(chǎn)業(yè)資源庫[N];中國文化報;2014年
2 通訊員 羅俊杰 李靜薇;市內(nèi)15家企業(yè)入選省重點上市后備企業(yè)資源庫[N];永州日報;2014年
3 通訊員 韓述群 張宏斌;尼勒克建立農(nóng)村勞動力“資源庫”[N];伊犁日報(漢);2007年
4 萬麗;資源庫要重建設(shè)重管理[N];中國教育報;2001年
5 呂玉婷;江蘇正式開通全國首個省級語言資源庫[N];江蘇教育報;2013年
6 本報記者 鄒偉 本報實習(xí)生 陳艷秋;探訪南京“歷史文化資源庫”[N];南京日報;2009年
7 盧欣欣;資源競爭迫切需要構(gòu)建作者資源庫[N];中國新聞出版報;2013年
8 記者 譚嘉;北京重大疾病資源庫建成[N];健康報;2013年
9 楊素英;太原建立擬上市公司資源庫[N];山西經(jīng)濟(jì)日報;2007年
10 唐華鋒;思南建立第三批科學(xué)發(fā)展觀活動“遠(yuǎn)教資源庫”[N];銅仁日報;2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 何麗;支持復(fù)雜產(chǎn)品快速設(shè)計的網(wǎng)絡(luò)化零件資源庫系統(tǒng)研究[D];新疆大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 危長鑫;基于PBL的學(xué)生工程能力訓(xùn)練資源庫的設(shè)計與實現(xiàn)[D];北京工業(yè)大學(xué);2014年
2 李霄;烏魯木齊市科技專家資源庫系統(tǒng)的設(shè)計與實現(xiàn)[D];新疆大學(xué);2015年
3 吳家奇;基于HDFS的學(xué)習(xí)資源庫數(shù)據(jù)存儲管理關(guān)鍵技術(shù)研究[D];東南大學(xué);2015年
4 黃蘭芳;“農(nóng)遠(yuǎn)”網(wǎng)絡(luò)資源庫應(yīng)用現(xiàn)狀及策略研究[D];西北師范大學(xué);2009年
5 謝高武;統(tǒng)一門戶下分布資源庫使用機(jī)制的研究[D];廣東工業(yè)大學(xué);2011年
6 夏熙茹;在線搜索動態(tài)幾何資源庫[D];遼寧師范大學(xué);2014年
7 沈曉;面向銀保知識資源庫的關(guān)鍵技術(shù)研究及系統(tǒng)構(gòu)建[D];復(fù)旦大學(xué);2011年
8 張文娟;面向?qū)W校的陜西省民族傳統(tǒng)體育項目資源庫的構(gòu)建研究[D];西安體育學(xué)院;2012年
9 張丹;教學(xué)資源配送系統(tǒng)中個性化規(guī)律的挖掘[D];東北師范大學(xué);2005年
10 梁慧芝;學(xué)習(xí)資源庫知識服務(wù)模型研究[D];西南師范大學(xué);2005年
本文關(guān)鍵詞:基于HDFS的學(xué)習(xí)資源庫數(shù)據(jù)存儲管理關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
,本文編號:451233
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/451233.html