面向Android應用的ARM多核處理器核間通信開銷建模
本文關鍵詞:面向Android應用的ARM多核處理器核間通信開銷建模
更多相關文章: 核間通信開銷 一致性缺失 亂序處理器 非阻塞Cache 人工神經(jīng)網(wǎng)絡
【摘要】:近年來,多核亂序處理器在移動智能終端上得到了廣泛的應用。多核并行執(zhí)行在減少程序執(zhí)行時間的同時,也引入了核間通信開銷,阻礙了系統(tǒng)性能的進一步提高。有研究表明,Cache一致性是影響多核核間通信開銷的一個關鍵因素。多核亂序處理器下的一致性缺失次數(shù)可以通過全功能仿真獲取,但整個過程極其耗時。本文旨在建立一個快速而準確的多核亂序處理器私有LRU-Cache模型,用于評估該級緩存的一致性缺失次數(shù)。本文提出利用訪存堆棧距離分布和對共享數(shù)據(jù)的Invalid信息來預測一致性缺失次數(shù)。對于順序處理器,該理論是LRU-Cache一致性缺失建模的有效方法,但是通過本文的實驗發(fā)現(xiàn),該理論不能直接應用于亂序處理器。本文認為這是因為指令亂序執(zhí)行(Out-Of-Order)、存儲隊列中加載(Load in Store)和非阻塞發(fā)射(Non-blocking Issue)等因素改變了訪存的帶Invalid信息的堆棧距離分布,進而影響Cache一致性缺失次數(shù)的預測。因此,本文提出了一種基于人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN)的模型Uniform來解決上述問題。該模型的輸入是應用程序在順序處理器下運行得到的帶Invalid信息的堆棧距離分布,模型的輸出是一致性缺失次數(shù)。該神經(jīng)網(wǎng)絡模型可以在硬件微結構參數(shù)不變的情況下,跨Benchmark預測一致性缺失次數(shù)。為了評估模型的精確度,本文選用了Mobybench 2.0和Parsec 3.0兩大測試集。實驗結果顯示,全功能仿真得到一致性缺失次數(shù)的誤差小于1%。以Gem5全仿真獲取的數(shù)據(jù)為基準,Uniform模型的平均相對誤差小于9%。用該模型預測一致性缺失,時間上較全仿真平均減少了約56.8%,用訓練好的1個人工神經(jīng)網(wǎng)絡模型跨3個Benchmark進行預測時,相對于全仿真時間減少82%。
【關鍵詞】:核間通信開銷 一致性缺失 亂序處理器 非阻塞Cache 人工神經(jīng)網(wǎng)絡
【學位授予單位】:東南大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP332
【目錄】:
- 摘要5-6
- Abstract6-10
- 第一章 緒論10-16
- 1.1 背景與意義10-12
- 1.1.1 背景10-11
- 1.1.2 意義11-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-13
- 1.3 研究內(nèi)容與設計指標13-14
- 1.3.1 研究內(nèi)容13-14
- 1.3.2 設計指標14
- 1.4 論文組織14-16
- 第二章 Cache一致性缺失的機理分析及建模方法16-34
- 2.1 一致性缺失產(chǎn)生原因16-19
- 2.2 Cache一致性協(xié)議策略19-24
- 2.2.1 基于總線監(jiān)聽的一致性協(xié)議20-24
- 2.2.2 基于目錄的一致性協(xié)議24
- 2.3 現(xiàn)有對Cache一致性缺失建模的方法24-27
- 2.4 堆棧距離理論27-29
- 2.5 將堆棧距離理論應用到一致性缺失預測上29-32
- 2.6 本章小結32-34
- 第三章 亂序執(zhí)行以及Non-blocking Issue對一致性缺失的影響34-52
- 3.1 亂序執(zhí)行的基本原理及其影響34-39
- 3.1.1 亂序執(zhí)行的基本原理34-38
- 3.1.2 亂序執(zhí)行對一致性缺失的影響38-39
- 3.2 Non-blocking Issue的基本原理及其影響39-42
- 3.2.1 Non-blocking Issue的基本原理39-41
- 3.2.2 Non-blocking Issue對一致性缺失的影響41-42
- 3.3 采用BP神經(jīng)網(wǎng)絡為亂序處理器Cache一致性建模42-51
- 3.3.1 采用神經(jīng)網(wǎng)絡為亂序處理器Cache一致性建模43-44
- 3.3.2 生物神經(jīng)元44-45
- 3.3.3 M-P模型45-47
- 3.3.4 BP神經(jīng)網(wǎng)絡結構47-51
- 3.4 本章小結51-52
- 第四章 面向Android應用的亂序處理器Cache一致性缺失建模52-62
- 4.1 Gem5仿真器平臺搭建及參數(shù)設置52-56
- 4.1.1 Gem5簡介52-53
- 4.1.2 Gem5參數(shù)設置53-56
- 4.2 帶Invalid信息的堆棧距離分布提取56-59
- 4.3 BP神經(jīng)網(wǎng)絡參數(shù)設置59-61
- 4.4 本章小結61-62
- 第五章 實驗結果與分析62-76
- 5.1 實驗環(huán)境介紹62-63
- 5.2 模型的精度63-69
- 5.2.1 Gem5全仿真一致性缺失的精度64
- 5.2.2 不同數(shù)量訓練數(shù)據(jù)對神經(jīng)網(wǎng)絡模型精度的影響64-65
- 5.2.3 神經(jīng)網(wǎng)絡模型的精度65-66
- 5.2.4 全功能仿真與模型預測一致性缺失時間對比66-67
- 5.2.5 相同Cache結構下跨Benchmark預測一致性缺失67-69
- 5.3 模型的應用69-73
- 5.3.1 不同Cache容量大小下一致性缺失情況69-70
- 5.3.2 不同Cache組關聯(lián)數(shù)下一致性缺失情況70-71
- 5.3.3 不同線程數(shù)量相同Cache結構下一致性缺失情況71-72
- 5.3.4 不同Cacheline大小下一致性缺失情況72-73
- 5.4 結果分析73-75
- 5.5 論文指標完成情況75
- 5.6 本章小結75-76
- 第六章 總結與展望76-78
- 6.1 總結76
- 6.2 展望76-78
- 致謝78-80
- 參考文獻80-82
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 孟銳;;處理器中非阻塞cache技術的研究[J];電子設計工程;2015年19期
2 韓樂;陳香蘭;李曦;;一種降低核間通信開銷的調(diào)度算法[J];計算機系統(tǒng)應用;2014年09期
3 馮葉;鄧倩妮;;非對稱多核體系下的阿姆達爾定律性能模型研究[J];微電子學與計算機;2011年08期
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 高翔;多核處理器的訪存模擬與優(yōu)化技術研究[D];中國科學技術大學;2007年
中國碩士學位論文全文數(shù)據(jù)庫 前6條
1 倪亞路;共享Cache動態(tài)劃分算法及VLSI實現(xiàn)研究[D];復旦大學;2012年
2 楊鵬飛;多核環(huán)境Cache一致性協(xié)議研究[D];哈爾濱工程大學;2011年
3 傅yN暉;高性能DSP一級Cache缺失流水設計與實現(xiàn)[D];國防科學技術大學;2009年
4 吳昌友;神經(jīng)網(wǎng)絡的研究及應用[D];東北農(nóng)業(yè)大學;2007年
5 信磊;對稱多核處理器中Cache一致性的研究與實現(xiàn)[D];合肥工業(yè)大學;2007年
6 陳石坤;多核處理器中CACHE一致性協(xié)議研究和實現(xiàn)[D];國防科學技術大學;2005年
,本文編號:1024605
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1024605.html