天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

卷積神經(jīng)網(wǎng)絡(luò)存儲加速優(yōu)化關(guān)鍵技術(shù)研究

發(fā)布時間:2021-10-20 07:23
  當(dāng)前,深度學(xué)習(xí)技術(shù)已經(jīng)深入到工業(yè)、服務(wù)、醫(yī)療、軍事等各個領(lǐng)域。人工智能算法在某些領(lǐng)域已經(jīng)能夠比人類工作的更加出色。因此深度學(xué)習(xí)技術(shù)越來越成為學(xué)術(shù)界和產(chǎn)業(yè)界的研究熱點(diǎn)。而優(yōu)化現(xiàn)有的深度學(xué)習(xí)算法,充分發(fā)揮當(dāng)前硬件的全部性能是算法能否穩(wěn)定成熟應(yīng)用于實(shí)際生活的關(guān)鍵。因此,本文對卷積神經(jīng)網(wǎng)中的存儲和計(jì)算加速優(yōu)化展開研究,從多個角度分析了卷積神經(jīng)網(wǎng)的網(wǎng)絡(luò)和計(jì)算特性,并針對幾種具有代表性的卷積神經(jīng)網(wǎng)的存儲和計(jì)算加速問題展開分析、求解和驗(yàn)證。本文的創(chuàng)新點(diǎn)主要包括:·研究分析了基于分塊矩陣分解的卷積神經(jīng)網(wǎng)GPU顯存優(yōu)化方法(第二章)我們提出了三種分塊的GPU顯存優(yōu)化算法,即分塊LU分解算法,分塊Cholesky分解算法和分塊異構(gòu)CPU-GPU算法。我們的工作獲得了以下幾個方面結(jié)果:首先,這三種算法首先解決了傳統(tǒng)的卷積極限學(xué)習(xí)機(jī)ELM-LRF因?yàn)槭蹽PU設(shè)備上的全局內(nèi)存大小限制,無法解決大規(guī)模的Moore-Penrose矩陣求逆問題(MPMI)這一挑戰(zhàn)。其次,根據(jù)在ELM-LRF模型中矩陣特征(當(dāng)H’H矩陣為正定時)加速M(fèi)PMI而提出了一種有效的分塊Cholesky分解算法。實(shí)驗(yàn)結(jié)果表明分塊Cholesk... 

【文章來源】:國防科技大學(xué)湖南省 211工程院校 985工程院校

【文章頁數(shù)】:118 頁

【學(xué)位級別】:博士

【文章目錄】:
摘要
Abstract
第一章 緒論
    1.1 研究背景及意義
        1.1.1 卷積神經(jīng)網(wǎng)絡(luò)
        1.1.2 研究依據(jù)
        1.1.3 課題來源
    1.2 研究現(xiàn)狀
        1.2.1 卷積神經(jīng)網(wǎng)中GPU顯存優(yōu)化研究現(xiàn)狀
        1.2.2 卷積神經(jīng)網(wǎng)中GPU計(jì)算加速優(yōu)化研究現(xiàn)狀
    1.3 研究內(nèi)容和創(chuàng)新點(diǎn)
        1.3.1 基于分塊矩陣分解的卷積神經(jīng)網(wǎng)GPU顯存優(yōu)化方法
        1.3.2 大規(guī)模卷積神經(jīng)網(wǎng)虛擬混合存儲算法
        1.3.3 基于圖像合并的高速卷積神經(jīng)網(wǎng)GPU加速算法
        1.3.4 用于快速人臉檢測的全GPU實(shí)現(xiàn)的批量多任務(wù)級聯(lián)卷積網(wǎng)絡(luò)
    1.4 研究經(jīng)歷
    1.5 論文組織
第二章 基于分塊矩陣分解的卷積神經(jīng)網(wǎng)GPU顯存優(yōu)化方法
    2.1 問題提出
    2.2 極限學(xué)習(xí)機(jī)基礎(chǔ)理論
        2.2.1 極限學(xué)習(xí)機(jī)
        2.2.2 基于局部感受野的卷積極限學(xué)習(xí)機(jī)
    2.3 大規(guī)模ELM方案
        2.3.1 分塊LU分解MPMI算法
        2.3.2 分塊Cholesky分解算法
        2.3.3 異構(gòu)分塊CPU-GPU加速算法
    2.4 實(shí)驗(yàn)和結(jié)果
        2.4.1 數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境
        2.4.2 分類準(zhǔn)確度
        2.4.3 不同的分塊加速GPU算法的性能
    2.5 本章小結(jié)
第三章 大規(guī)模卷積神經(jīng)網(wǎng)虛擬混合存儲算法
    3.1 問題提出
    3.2 卷積神經(jīng)網(wǎng)內(nèi)存管理相關(guān)工作
        3.2.1 移動設(shè)備上出現(xiàn)的新機(jī)遇
        3.2.2 CNN設(shè)計(jì)中目前最先進(jìn)的內(nèi)存管理策略
    3.3 混合顯存控制方法
        3.3.1 mmCNN設(shè)計(jì)
        3.3.2 mmCNN算法
        3.3.3 mmCNN的實(shí)現(xiàn)
    3.4 實(shí)驗(yàn)和結(jié)果
        3.4.1 數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境
        3.4.2 GPU內(nèi)存使用分析
        3.4.3 mmCNN策略結(jié)果
        3.4.4 mmCNN的性能
    3.5 本章小結(jié)
第四章 基于圖像合并的高速卷積神經(jīng)網(wǎng)GPU加速算法
    4.1 問題提出
    4.2 卷積加速相關(guān)工作
        4.2.1 轉(zhuǎn)換矩陣乘算法
        4.2.2 轉(zhuǎn)換FFT算法
    4.3 基于圖像合并的GPU高速輕耗顯存算法
        4.3.1 系統(tǒng)設(shè)計(jì)
        4.3.2 高速圖像組合算法
        4.3.3 輕耗顯存算法
    4.4 實(shí)驗(yàn)和結(jié)果
        4.4.1 數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境
        4.4.2 滑動窗口采樣算法的性能評估
        4.4.3 高速圖像組合算法實(shí)驗(yàn)結(jié)果
        4.4.4 輕耗顯存算法的性能評估
        4.4.5 參數(shù)選擇算法
        4.4.6 整體優(yōu)化的實(shí)驗(yàn)結(jié)果
    4.5 本章小結(jié)
第五章 用于快速人臉檢測的全GPU實(shí)現(xiàn)批量多任務(wù)級聯(lián)卷積網(wǎng)絡(luò)
    5.1 問題提出
    5.2 快速人臉檢測相關(guān)工作
        5.2.1 人臉檢測中的CNN網(wǎng)絡(luò)
        5.2.2 傳統(tǒng)MTCNN算法
    5.3 基于全GPU實(shí)現(xiàn)的批量多任務(wù)級聯(lián)卷積網(wǎng)絡(luò)
        5.3.1 GB-CNN的多尺度并行化
        5.3.2 基于全GPU的實(shí)現(xiàn)
    5.4 實(shí)驗(yàn)和結(jié)果
        5.4.1 數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境
        5.4.2 多尺度并行化的有效性
        5.4.3 全GPU實(shí)現(xiàn)的有效性
        5.4.4 超參數(shù)的影響
    5.5 本章小結(jié)
第六章 總結(jié)與展望
    6.1 研究工作總結(jié)
    6.2 課題研究展望
致謝
參考文獻(xiàn)
作者在學(xué)期間取得的學(xué)術(shù)成果



本文編號:3446493

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3446493.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7921c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com