天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

使用Stencil評(píng)估Intel AVX2 Vgather指令

發(fā)布時(shí)間:2018-01-28 02:56

  本文關(guān)鍵詞: AVX vgather指令 Stencil 性能評(píng)估 出處:《計(jì)算機(jī)科學(xué)》2017年01期  論文類型:期刊論文


【摘要】:為了更好地在向量化時(shí)讀取離散的數(shù)據(jù),Intel在Haswell CPU提供了AVX2vgather指令。由于Stencil在設(shè)置邊界條件時(shí)使用了條件判斷,因此編譯器生成了vgather指令,并降低了Stencil在Haswell上的性能。提出使用peel優(yōu)化或intrinsic load的方法來(lái)避免vgather指令的生成,并把該方法應(yīng)用到3個(gè)Stencil基準(zhǔn)算例、長(zhǎng)程Stencil程序3DFD以及混合Stencil應(yīng)用3DEW上。這些Stencil在Haswell上的性能都獲得了1.22X至3.88X不等的提升。通過(guò)研究指令的實(shí)現(xiàn),發(fā)現(xiàn)vgather指令會(huì)被解碼成多個(gè)微操作(μops),并為每個(gè)要讀入的元素生成一個(gè)μops。由于vgather指令解碼時(shí)會(huì)產(chǎn)生較高的開(kāi)銷,導(dǎo)致vgather指令成為Stencil在Haswell上的性能瓶頸。了解AVX2 vgather指令的實(shí)現(xiàn)以及掌握避免生成vgather指令的優(yōu)化方法,對(duì)在Haswell上調(diào)優(yōu)具有良好空間局部性應(yīng)用的性能有一定的參考價(jià)值。
[Abstract]:To better read discrete data at vectorization. Intel provides the AVX2vgather instruction in Haswell CPU because Stencil uses conditional judgment when setting boundary conditions. So the compiler generates the vgather directive. It also reduces the performance of Stencil on Haswell. A method of peel optimization or intrinsic load is proposed to avoid the generation of vgather instructions. The method is applied to three Stencil benchmark examples. The long range Stencil program 3DFD and the hybrid Stencil application 3DEW. The performance of these Stencil on Haswell achieved 1.22X to 3.88X. Unequal ascension. Through the implementation of research instructions. It is found that the vgather instruction will be decoded into a plurality of microoperations (渭 OPS), and a 渭 op s will be generated for each element to be read. Because of the high cost of decoding the vgather instruction. Causes the vgather instruction to become a performance bottleneck for Stencil on Haswell. Learn about AVX2. The realization of vgather instruction and the optimization method to avoid generating vgather instruction. It has certain reference value for the performance of good spatial local application in the Haswell upregulation.
【作者單位】: 上海交通大學(xué)高性能計(jì)算中心;東京工業(yè)大學(xué)學(xué)術(shù)國(guó)際情報(bào)中心;Intel公司軟件與服務(wù)部門;
【基金】:國(guó)家重點(diǎn)研發(fā)計(jì)劃(2014AA01A302,2016YFB0201800) 日本學(xué)術(shù)振興會(huì)RONPAKU Fellowship資助
【分類號(hào)】:TP332;TP314
【正文快照】: 1簡(jiǎn)介 為了更好地在向量化時(shí)讀取離散的數(shù)據(jù),Intel陸續(xù)在不同平臺(tái)上提供了硬件支持的vgather指令:2013年上半年發(fā)布的Knight Corner(縮寫為KNC)上的IMCI(Initial Many Core Instructions)vgather指令;2013年6月發(fā)布的Haswell(縮寫為HSW)CPU上的AVX(Advanced Vector Extension

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 洪龍;陳燕俐;朱梧i,

本文編號(hào):1469570


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1469570.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c8627***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
亚洲一区二区精品福利| 日韩一级欧美一级久久| 欧美日韩中国性生活视频| 日韩精品一级片免费看| 色哟哟国产精品免费视频| 国产又黄又猛又粗又爽的片| 欧美国产在线观看精品| 日韩精品视频香蕉视频| 色一欲一性一乱—区二区三区| 丝袜诱惑一区二区三区| 日本在线不卡高清欧美| 少妇人妻中出中文字幕| 国产熟女一区二区不卡| 亚洲五月婷婷中文字幕| 日本淫片一区二区三区| 午夜福利激情性生活免费视频| 国产毛片不卡视频在线| 白白操白白在线免费观看| 五月情婷婷综合激情综合狠狠| 国产精品久久香蕉国产线| 大尺度激情福利视频在线观看| 日韩一区二区三区在线日| 日本乱论一区二区三区| 亚洲欧洲成人精品香蕉网| 国产一级片内射视频免费播放| 国产精品伦一区二区三区四季| 日韩综合国产欧美一区| 能在线看的视频你懂的| 亚洲中文字幕一区三区| 97人妻精品一区二区三区免| 国产综合欧美日韩在线精品| 日韩日韩日韩日韩在线| 东京热加勒比一区二区| 偷拍偷窥女厕一区二区视频| 亚洲中文字幕有码在线观看| 国产午夜免费在线视频| 国产免费一区二区三区不卡| 一区二区三区人妻在线| 中文字幕中文字幕一区二区| 日本在线 一区 二区| 最新国产欧美精品91|