分布式海量小文件存儲(chǔ)訪問(wèn)優(yōu)化研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2020-04-23 17:25
【摘要】:隨著移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展和快速普及,人們逐步進(jìn)入萬(wàn)物互聯(lián)的時(shí)代,每天都會(huì)產(chǎn)生海量的移動(dòng)數(shù)據(jù)信息。特別是近些年不斷興起的短視頻社交APP和電商APP,這類APP每天都會(huì)產(chǎn)生大量的短視頻和圖片,它們的數(shù)據(jù)存儲(chǔ)空間相對(duì)較小,大都在10M左右。然而當(dāng)前業(yè)界的HDFS、GFS等分布式文件存儲(chǔ)系統(tǒng)都是針對(duì)大文件設(shè)計(jì)的,在處理海量小文件的時(shí)候其性能會(huì)急劇下降,甚至無(wú)法正常對(duì)外提供服務(wù)。設(shè)計(jì)一個(gè)海量小文件的存儲(chǔ)訪問(wèn)系統(tǒng)是當(dāng)前分布式文件系統(tǒng)研究的熱點(diǎn)領(lǐng)域。FastDFS是專門針對(duì)小文件存儲(chǔ)而設(shè)計(jì)的,本文以FastDFS分布式文件系統(tǒng)作為底層存儲(chǔ)系統(tǒng),提出了一種新的針對(duì)海量小文件存儲(chǔ)訪問(wèn)優(yōu)化方法,并對(duì)其進(jìn)行了一系列的優(yōu)化,主要包括:1)針對(duì)當(dāng)今的短視頻社交APP的高并發(fā)訪問(wèn)問(wèn)題,本文提出了一種新的小文件訪問(wèn)負(fù)載均衡算法,該算法主要根據(jù)后端服務(wù)器集群中各個(gè)節(jié)點(diǎn)的性能來(lái)動(dòng)態(tài)地調(diào)整其權(quán)值,充分考慮后端服務(wù)器資源動(dòng)態(tài)使用情況。2)本地文件系統(tǒng)的inode數(shù)量有限,存儲(chǔ)小文件數(shù)量會(huì)受到其限制,不能充分利用磁盤空間;本文從短視頻APP和電商APP出發(fā),根據(jù)短視頻文件和商品圖片的用戶屬性對(duì)FastDFS的小文件存儲(chǔ)過(guò)程、合并算法進(jìn)行改進(jìn),將相同屬性的小文件合并成一個(gè)大文件,達(dá)到在訪問(wèn)文件時(shí)可以利用磁盤順序讀取方式加快訪問(wèn)速率。3)針對(duì)FastDFS記錄文件同步過(guò)程的缺陷,本文對(duì)其進(jìn)行了優(yōu)化,通過(guò)定期生成檢查點(diǎn)文件,然后把檢查點(diǎn)文件同步給其它節(jié)點(diǎn),最后結(jié)合檢查點(diǎn)文件對(duì)記錄文件進(jìn)行壓縮。針對(duì)以上優(yōu)化方法,本文進(jìn)行實(shí)驗(yàn)仿真。實(shí)驗(yàn)結(jié)果表明,本文的優(yōu)化方法在應(yīng)對(duì)高并發(fā)寫入文件時(shí)有11%的性能提升,在讀取文件時(shí)有25%的性能提升。最后本文實(shí)現(xiàn)了基于優(yōu)化后的分布式海量小文件存儲(chǔ)訪問(wèn)系統(tǒng),可用于存儲(chǔ)海量短視頻和圖片小文件,可以彌補(bǔ)FastDFS的局限性。
【圖文】:
華南理工大學(xué)碩士學(xué)位論文aystack Store 負(fù)責(zé)存儲(chǔ)實(shí)際的圖片文件,跟上一節(jié)介紹的 HDFS 中的 DataN不過(guò)其在設(shè)計(jì)上有很大區(qū)別。每個(gè) Haystack Store 中有多個(gè)物理卷,可以看盤,每個(gè)物理卷可以認(rèn)為是一個(gè)超大文件,,因此在每個(gè)數(shù)據(jù)存儲(chǔ)結(jié)點(diǎn)中,文信息很少。物理卷中包含一系列的 needle,每個(gè) needle 相當(dāng)于一個(gè)文件,而卷組成一個(gè)邏輯卷,寫入文件時(shí)是往邏輯卷中寫多份,達(dá)到數(shù)據(jù)冗余備份的訪問(wèn) HaystackStore 中的文件只需要提供物理卷 ID 和文件的偏移量 offset 就的文件獲取。如圖 2-4 為 Haystack Store 中物理卷和 needle 的結(jié)構(gòu)圖。
華南理工大學(xué)碩士學(xué)位論文[40]。具體說(shuō)明如下:處理時(shí)間。對(duì)于用來(lái)來(lái)講,請(qǐng)求處理時(shí)間是指用戶發(fā)送請(qǐng)求到請(qǐng)間,該值反映了服務(wù)器對(duì)于用戶的服務(wù)質(zhì)量,該值越小對(duì)于用戶吞吐率。對(duì)于系統(tǒng)來(lái)講,吞吐率是指單位時(shí)間內(nèi)在網(wǎng)絡(luò)上進(jìn)行傳同樣也可指在單位時(shí)間內(nèi)系統(tǒng)處理用戶的請(qǐng)求數(shù),是衡量系統(tǒng)性通?梢杂谜(qǐng)求數(shù)/s 來(lái)進(jìn)行衡量。驗(yàn)利用 ApacheBenchmark 測(cè)試工具進(jìn)行模擬用戶文件請(qǐng)求,從不計(jì)的算法和靜態(tài)加權(quán)輪詢算法分別進(jìn)行測(cè)試,實(shí)驗(yàn)測(cè)得不同并發(fā)間如下圖 3-7 所示:
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP333;TP311.56
本文編號(hào):2637967
【圖文】:
華南理工大學(xué)碩士學(xué)位論文aystack Store 負(fù)責(zé)存儲(chǔ)實(shí)際的圖片文件,跟上一節(jié)介紹的 HDFS 中的 DataN不過(guò)其在設(shè)計(jì)上有很大區(qū)別。每個(gè) Haystack Store 中有多個(gè)物理卷,可以看盤,每個(gè)物理卷可以認(rèn)為是一個(gè)超大文件,,因此在每個(gè)數(shù)據(jù)存儲(chǔ)結(jié)點(diǎn)中,文信息很少。物理卷中包含一系列的 needle,每個(gè) needle 相當(dāng)于一個(gè)文件,而卷組成一個(gè)邏輯卷,寫入文件時(shí)是往邏輯卷中寫多份,達(dá)到數(shù)據(jù)冗余備份的訪問(wèn) HaystackStore 中的文件只需要提供物理卷 ID 和文件的偏移量 offset 就的文件獲取。如圖 2-4 為 Haystack Store 中物理卷和 needle 的結(jié)構(gòu)圖。
華南理工大學(xué)碩士學(xué)位論文[40]。具體說(shuō)明如下:處理時(shí)間。對(duì)于用來(lái)來(lái)講,請(qǐng)求處理時(shí)間是指用戶發(fā)送請(qǐng)求到請(qǐng)間,該值反映了服務(wù)器對(duì)于用戶的服務(wù)質(zhì)量,該值越小對(duì)于用戶吞吐率。對(duì)于系統(tǒng)來(lái)講,吞吐率是指單位時(shí)間內(nèi)在網(wǎng)絡(luò)上進(jìn)行傳同樣也可指在單位時(shí)間內(nèi)系統(tǒng)處理用戶的請(qǐng)求數(shù),是衡量系統(tǒng)性通?梢杂谜(qǐng)求數(shù)/s 來(lái)進(jìn)行衡量。驗(yàn)利用 ApacheBenchmark 測(cè)試工具進(jìn)行模擬用戶文件請(qǐng)求,從不計(jì)的算法和靜態(tài)加權(quán)輪詢算法分別進(jìn)行測(cè)試,實(shí)驗(yàn)測(cè)得不同并發(fā)間如下圖 3-7 所示:
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP333;TP311.56
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 周國(guó)安;李強(qiáng);陳新;胡旭;;云環(huán)境下海量小文件存儲(chǔ)技術(shù)研究綜述[J];信息網(wǎng)絡(luò)安全;2014年06期
2 余慶;;分布式文件系統(tǒng)FastDFS架構(gòu)剖析[J];程序員;2010年11期
本文編號(hào):2637967
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2637967.html
最近更新
教材專著