基于GPU的車身結構接觸碰撞過程并行計算方法
本文選題:圖形處理器 切入點:統(tǒng)一計算架構 出處:《湖南大學》2013年博士論文
【摘要】:汽車車身結構接觸碰撞過程有限元計算是汽車CAE的重要組成部分,主要涉及汽車碰撞和車身覆蓋件成形等工程問題分析,在力學上涉及到材料非線性、幾何非線性和接觸界面的邊界非線性三類非線性問題,經(jīng)常面臨著數(shù)值計算量龐大,計算效率低的問題,因而實際應用中對并行計算的需求十分強烈。目前常見的有限元并行計算方法多采用區(qū)域分解等粗粒度并行策略,在以CPU為計算核心的網(wǎng)絡計算機集群上運行,計算效率與計算機節(jié)點數(shù)直接相關,使用流程復雜且需要昂貴的硬件支持,因此這種并行計算方法的性價比不高。 現(xiàn)代的圖形處理器(GPU)是一種內(nèi)部高度并行的眾核處理器,浮點計算能力遠高于同時期CPU的運算能力?删幊讨鞯某霈F(xiàn),使得GPU具有了通用處理器的特征,并開始應用于通用計算領域,為大數(shù)據(jù)處理和數(shù)值模擬研究帶來了新思路和方法。最初的基于GPU的通用計算技術(GPGPU)采用Cg等高級著色語言編程,并已經(jīng)應用于各類有限元計算,但是,由于這一時期的GPGPU技術只支持單精度計算,,數(shù)據(jù)傳輸效率也不高,導致有限元GPU并行計算的精度低且效率提升有限,工程應用局限性大。統(tǒng)一計算架構(CUDA)的出現(xiàn),帶來了高效、直觀的GPU并行程序開發(fā)工具,基于CUDA架構的GPU并行計算方法具有計算硬件成本低,計算程序開發(fā)簡單等特點。 本文以工程應用需求為指導,采用CUDA架構研究高精度和高效率的顯式有限元細粒度并行計算方法,以及全流程細粒度執(zhí)行的并行接觸算法,最終實現(xiàn)在普通個人計算機上進行汽車車身碰撞仿真和薄板沖壓成形仿真兩類大規(guī)模非線性有限元的快速并行計算。本文的主要工作和成果如下: (1)考慮到非線性顯式有限元天然的可并行性以及GPU的輕量級線程執(zhí)行模式,開發(fā)了具有自主知識產(chǎn)權的基于GPU的顯式有限元計算平臺(發(fā)明專利受理號:201210266435.1)。其主要特點在于:建立了線程與單元、線程與節(jié)點、線程與自由度三種層次的抽象映射方法,使顯式有限元計算與GPU線程完美融合。同基于網(wǎng)格分區(qū)的粗粒度有限元并行策略相比,該細粒度并行策略沒有任何前處理過程,在單塊顯卡也不存在邊界數(shù)據(jù)處理問題,能夠大幅度提升計算效率。因此,可以很方便的實現(xiàn)節(jié)點速度、位移計算等顯式有限元絕大部分流程在GPU上的高效并行計算。 (2)針對單元計算中節(jié)點應力組裝在GPU平臺上難以并行化的技術瓶頸,提出了預索引并行應力組裝策略,實現(xiàn)了BT四邊形單元和EST三角形單元兩種殼單元在GPU上的細粒度并行。提出了GPU上基于并行縮減算法的時間步長等單值并行求解方法。實現(xiàn)了顯式有限元算法在GPU上的全過程計算,減少了GPU與CPU間數(shù)據(jù)交換的同時,使程序的計算效率達到最佳化。通過對板殼非線性問題計算表明,該算法的GPU并行計算結果與原串行算法在CPU中計算的結果完全一致,與同時期同價格的CPU相比,計算效率有明顯的提升。在GTX580顯卡上采用EST單元進行185萬個自由度的彈塑性大變形問題求解時,可以達到近37倍的計算加速比。 (3)接觸碰撞有限元分析中,接觸算法需占用70%以上的計算時間,為此,本文提出了包含并行級域接觸搜尋算法、并行防御節(jié)點接觸力計算方法和并行罰函數(shù)接觸力計算方法在內(nèi)的全流程GPU執(zhí)行的細粒度并行接觸算法。級域算法是一種適用于復雜自接觸問題的高效搜尋算法,其同一級內(nèi)接觸塊的計算獨立性也符合GPU細粒度計算的要求。本文提出了線程與接觸塊一一映射策略、GPU并行排序以及提升GPU線程計算粒度等技術手段,實現(xiàn)了測試對在GPU上的并行搜尋。在接觸對搜尋階段,本文提出了線程與測試對間的映射策略以實現(xiàn)同一級內(nèi)接觸對的并行搜尋,并采用計算后排序的策略進行上一級與下一級間的數(shù)據(jù)交換。在接觸力計算階段,本文采用線程與接觸對間的映射策略給出了穿透量和接觸力細粒度并行計算方法,并采用原子操作來實現(xiàn)接觸力的離散。最后,基于自主開發(fā)的碰撞仿真軟件DYSI3D開發(fā)了基于GPU的碰撞過程計算機仿真并行計算軟件CPS-GPU(軟件著作權編號:2011SR001966)。采用該軟件在GTX580顯卡上進行177萬個自由度的白車身碰撞計算時,可以取得20倍左右的計算加速比。 (4)本文提出了完整的薄板沖壓成形GPU并行計算方法。針對薄板沖壓成形對材料流動模擬要求高的有限元計算特征,提出了包含復雜材料本構計算的單元GPU并行計算技術以及考慮摩擦的接觸力GPU并行計算方法。本文提出了一體化接觸搜尋算法在GPU上的計算策略:引入了計算機圖形學中用于實時碰撞檢測的廣域搜尋方法來完成測試對搜尋,并在建立了相鄰接觸塊信息的前提下,給出了接觸后搜尋中接觸對細粒度并行更新方法。在自主開發(fā)的薄板成形仿真軟件CADEMII軟件的基礎上,開發(fā)了基于GPU的板料成形并行計算軟件CADEM-GPU(軟件著作權編號:2010SR052426),并加入異步數(shù)據(jù)輸出模式以及基于OpenGL的實時顯示技術,進一步提高了軟件的計算效率和實用性。數(shù)值算例表明,該軟件具有較高的計算精度和計算效率,在GTX460顯卡上,對于數(shù)萬網(wǎng)格數(shù)的仿真模型,可以取得20倍以上的加速比,有效縮短了仿真計算時間。
[Abstract]:The finite element calculation of vehicle body structure contact collision course is an important part of automobile CAE . It mainly deals with the problems of automobile collision and body cover forming .
The modern graphics processor ( GPU ) is an internal highly parallel core processor . The floating point computing power is much higher than that of CPU in the same period . The GPU has the characteristics of general processor , and it has been applied in the field of general calculation . The initial GPU - based general - purpose computing technology ( GPGPU ) has been applied to all kinds of finite element calculations . The original GPU - based general - purpose computing technology ( GPGPU ) has been applied to various finite element calculations .
Based on the requirement of engineering application , this paper studies the explicit finite element fine - grained parallel computing method with high precision and high efficiency by using the method of the parallel computing with high precision and high efficiency , and the parallel contact algorithm of the full - flow fine - granularity execution , and finally realizes the fast parallel computation of two kinds of large - scale nonlinear finite elements on the ordinary personal computer . The main work and the results are as follows :
( 1 ) Considering the natural parallelism of the nonlinear explicit finite element and the lightweight thread execution mode of the GPU , an explicit finite element computing platform based on GPU with independent intellectual property is developed ( patent application number : 201210266435 . 1 ) . Compared with the coarse - grained finite element parallel strategy based on the grid partition , the fine - granularity parallel strategy does not have any pretreatment process , and the computation efficiency can be greatly improved compared with the coarse - grained finite element parallel strategy based on the grid partition .
( 2 ) Aiming at the technical bottleneck that the node stress assembly is difficult to parallelize on the GPU platform in the unit calculation , a pre - index parallel stress assembly strategy is put forward to realize the fine granularity parallelism of the two shell elements of the BT quadrangle unit and the EST triangular unit on the GPU .
( 3 ) In the finite element analysis of the contact collision , the contact algorithm takes more than 70 % of the computation time . In this paper , a parallel search algorithm is proposed which includes parallel level domain contact searching algorithm , parallel defense node contact force calculation method and parallel penalty function contact force calculation method . When using the software to perform 177 million degrees of freedom of white - body collision calculation on the GTK 80 video card , it is possible to obtain a calculation acceleration ratio of about 20 times .
( 4 ) In this paper , the parallel computing method of die - forming GPU is presented in this paper . In this paper , the parallel computing technology of unit GPU with complex material constitutive calculation and the parallel computing method of contact force GPU are presented .
【學位授予單位】:湖南大學
【學位級別】:博士
【學位授予年份】:2013
【分類號】:U467.14
【參考文獻】
相關期刊論文 前10條
1 李建江;路川;張磊;;基于指導語句的CUDA程序性能分析工具研究與實現(xiàn)[J];電子科技大學學報;2012年02期
2 張洪武;陳飆松;李云鵬;張盛;彭海軍;;面向集成化CAE軟件開發(fā)的SiPESC研發(fā)工作進展[J];計算機輔助工程;2011年02期
3 吳恩華,柳有權;基于圖形處理器(GPU)的通用計算[J];計算機輔助設計與圖形學學報;2004年05期
4 柳有權;尹康學;吳恩華;;大規(guī)模稀疏線性方程組的GMRES-GPU快速求解算法[J];計算機輔助設計與圖形學學報;2011年04期
5 劉小虎;胡耀國;符偉;;大規(guī)模有限元系統(tǒng)的GPU加速計算研究[J];計算力學學報;2012年01期
6 袁明武,陳璞,鄭東,張會杰,石艷華,孫樹立,黃吉鋒,楊羅賓;微機結構分析通用程序SAP84(版本4.0)[J];計算結構力學及其應用;1995年03期
7 李光耀;三維板料成形過程的顯式有限元分析[J];計算結構力學及其應用;1996年03期
8 ;Application of the Mole-8.5 supercomputer:Probing the whole influenza virion at the atomic level[J];Chinese Science Bulletin;2011年20期
9 陳濤;李光耀;;覆蓋件拉延模工藝補充及壓料面的參數(shù)化設計新方法[J];機械工程學報;2006年05期
10 鐘陽;鐘志華;李光耀;孫光永;徐峰祥;;機械系統(tǒng)接觸碰撞界面顯式計算的算法綜述[J];機械工程學報;2011年13期
相關博士學位論文 前1條
1 崔向陽;機械結構分析中的新型低階高精度單元理論研究[D];湖南大學;2011年
本文編號:1727683
本文鏈接:http://sikaile.net/falvlunwen/zhishichanquanfa/1727683.html