天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Ceph中海量中文文本小文件存儲(chǔ)性能優(yōu)化方法研究

發(fā)布時(shí)間:2022-10-10 17:50
  隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的快速發(fā)展,電子商務(wù)、社交網(wǎng)站、移動(dòng)應(yīng)用、網(wǎng)絡(luò)教育、科研實(shí)驗(yàn)等各個(gè)領(lǐng)域產(chǎn)生的小文件呈幾何級(jí)增長(zhǎng),其中最為典型的文本小文件具有數(shù)量大、數(shù)據(jù)量小、冗余性高等特點(diǎn),海量文本小文件的存儲(chǔ)為分布式存儲(chǔ)系統(tǒng)帶來(lái)了元數(shù)據(jù)管理難、磁盤I/O操作頻繁、數(shù)據(jù)存取效率低等挑戰(zhàn)。目前主流的分布式文件系統(tǒng)設(shè)計(jì)模式主要分為去中心化和中心化兩類,以Ceph為代表的去中心化分布式文件系統(tǒng)多側(cè)重于存儲(chǔ)大文件而設(shè)計(jì),雖然它的去中心化設(shè)計(jì)避免了中心節(jié)點(diǎn)的性能瓶頸問(wèn)題,但是它的雙倍寫入設(shè)計(jì)和多副本備份策略為Ceph存儲(chǔ)海量小文件帶來(lái)了數(shù)據(jù)讀取效率低和系統(tǒng)工作性能下降等問(wèn)題。為此本文設(shè)計(jì)了一個(gè)小文件預(yù)處理框架和一個(gè)基于Redis數(shù)據(jù)庫(kù)的動(dòng)態(tài)緩存機(jī)制,在降低海量小文件存儲(chǔ)開銷的同時(shí)提高了小文件的讀取速率。本文主要的創(chuàng)新性工作總結(jié)如下:1)針對(duì)海量小文件在Ceph中存儲(chǔ)時(shí)帶來(lái)的多I/O流問(wèn)題,本文設(shè)計(jì)了一種針對(duì)海量文本小文件的預(yù)處理架構(gòu)SFPS(Small File Preprocess System)。通過(guò)對(duì)文件進(jìn)行兩次聚類、自適應(yīng)跳躍去重、相似文件合并等預(yù)處理操作,將雜亂的海量小文件整理為少量?jī)?nèi)容... 

【文章頁(yè)數(shù)】:65 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
第一章 緒論
    §1.1 課題研究背景與意義
    §1.2 課題研究現(xiàn)狀
        §1.2.1 海量小文件的存儲(chǔ)優(yōu)化
        §1.2.2 數(shù)據(jù)去重技術(shù)
        §1.2.3 緩存淘汰算法
    §1.3 課題研究?jī)?nèi)容
    §1.4 論文章節(jié)安排
第二章 相關(guān)技術(shù)
    §2.1 Ceph分布式文件系統(tǒng)
        §2.1.1 Ceph的基礎(chǔ)架構(gòu)組件
        §2.1.2 Ceph中數(shù)據(jù)的存儲(chǔ)過(guò)程
    §2.2 聚類分析
        §2.2.1 基于連接的聚類方法
        §2.2.2 基于劃分的聚類方法
        §2.2.3 基于密度的聚類方法
    §2.3 數(shù)據(jù)去重
        §2.3.1 完全文件檢測(cè)技術(shù)
        §2.3.2 固定分塊檢測(cè)技術(shù)
        §2.3.3 可變分塊檢測(cè)技術(shù)
    §2.4 層次分析法
    §2.5 Sim Hash算法
    §2.6 緩存算法
        §2.6.1 先進(jìn)先出(FIFO)算法
        §2.6.2 最近最少使用(LRU)算法
        §2.6.3 最不常用置換(LFU)算法
    §2.7 Redis數(shù)據(jù)庫(kù)
    §2.8 本章小節(jié)
第三章 小文件預(yù)處理系統(tǒng)設(shè)計(jì)
    §3.1 引言
    §3.2 小文件預(yù)處理架構(gòu)設(shè)計(jì)
    §3.3 小文件第一次聚類去重方案設(shè)計(jì)
        §3.3.1 特征詞選取
        §3.3.2 小文件第一次聚類
        §3.3.3 WFD判重器設(shè)計(jì)
        §3.3.4 第一次聚類去重整體工作流程
    §3.4 小文件第二次聚類去重方案設(shè)計(jì)
        §3.4.1 第二次聚類去重方案設(shè)計(jì)分析
        §3.4.2 組合方案決策實(shí)現(xiàn)
    §3.5 分塊數(shù)據(jù)合并器設(shè)計(jì)
    §3.6 本章總結(jié)
第四章 小文件讀取及修改模塊的設(shè)計(jì)與實(shí)現(xiàn)
    §4.1 引言
    §4.2 小文件讀取流程
        §4.2.1 恢復(fù)元數(shù)據(jù)獲取
        §4.2.2 小文件讀取流程
    §4.3 小文件原子操作功能設(shè)計(jì)實(shí)現(xiàn)
    §4.4 實(shí)驗(yàn)與結(jié)果分析
        §4.4.1 實(shí)驗(yàn)測(cè)試環(huán)境
        §4.4.2 數(shù)據(jù)去重率和恢復(fù)元數(shù)據(jù)生成量
        §4.4.3 磁盤I/O流
        §4.4.4 數(shù)據(jù)讀取速率
    §4.5 本章小結(jié)
第五章 基于Redis緩存的小文件讀取性能優(yōu)化
    §5.1 引言
    §5.2 緩存替換優(yōu)化算法
        §5.2.1 Redis的緩存替換模式
        §5.2.2 基于內(nèi)容熱度值的緩存替換算法
        §5.2.3 基于內(nèi)容熱度值的緩存替換優(yōu)化算法
        §5.2.4 緩存替換優(yōu)化算法可行性分析
    §5.3 緩存工作模式改進(jìn)
        §5.3.1 Redis緩存淘汰方案分析
        §5.3.2 三級(jí)緩存結(jié)構(gòu)設(shè)計(jì)
        §5.3.3 三級(jí)緩存動(dòng)態(tài)淘汰流程
    §5.4 小文件預(yù)取策略
    §5.5 實(shí)驗(yàn)測(cè)試與分析
        §5.5.1 實(shí)驗(yàn)測(cè)試環(huán)境
        §5.5.2 緩存命中率
        §5.5.3 Redis緩存命中率
    §5.6 本章小結(jié)
第六章 總結(jié)與展望
    §6.1 工作總結(jié)
    §6.2 未來(lái)展望
參考文獻(xiàn)
致謝
作者在攻讀碩士期間的主要研究成果


【參考文獻(xiàn)】:
期刊論文
[1]基于Simhash的中文文本去重技術(shù)研究[J]. 彭雙和,圖爾貢·麥提薩比爾,周巧鳳.  計(jì)算機(jī)技術(shù)與發(fā)展. 2017(11)
[2]基于Redis的海量互聯(lián)網(wǎng)小文件實(shí)時(shí)存儲(chǔ)與索引策略研究[J]. 劉俊龍,劉光明,張黛,喻杰.  計(jì)算機(jī)研究與發(fā)展. 2015(S2)
[3]基于對(duì)象的OpenXML復(fù)合文件去重方法研究[J]. 閻芳,李元章,張全新,譚毓安.  計(jì)算機(jī)研究與發(fā)展. 2015(07)
[4]重復(fù)數(shù)據(jù)刪除技術(shù)[J]. 敖莉,舒繼武,李明強(qiáng).  軟件學(xué)報(bào). 2010(05)

碩士論文
[1]Hadoop分布式文件系統(tǒng)小文件數(shù)據(jù)存儲(chǔ)性能的優(yōu)化方法研究[D]. 宋曉東.北京交通大學(xué) 2017



本文編號(hào):3690081

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3690081.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4ef58***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com