數(shù)據(jù)中心RDMA網(wǎng)絡(luò)資源復(fù)用與應(yīng)用加速研究
發(fā)布時(shí)間:2022-01-05 07:30
遠(yuǎn)程內(nèi)存直接訪問技術(shù)(RDMA)允許應(yīng)用繞過遠(yuǎn)端CPU,直接訪問遠(yuǎn)程機(jī)器的內(nèi)存,并將協(xié)議棧卸載到網(wǎng)卡來向數(shù)據(jù)中心應(yīng)用提供超低的延遲,減少網(wǎng)絡(luò)通信需要的計(jì)算開銷。然而,一方面由于RDMA將網(wǎng)絡(luò)連接存儲(chǔ)在空間有限的網(wǎng)卡緩存中來加速網(wǎng)絡(luò)IO,當(dāng)通信連接數(shù)量過多時(shí)會(huì)導(dǎo)致網(wǎng)卡緩存命中率低,網(wǎng)絡(luò)IO性能急劇下降,F(xiàn)有解決方案在本地多個(gè)通信線程間使用互斥鎖來共享底層網(wǎng)絡(luò)連接,減少與相同結(jié)點(diǎn)通信連接的數(shù)量,但存在鎖競(jìng)爭(zhēng)開銷大且無法為多個(gè)線程提供公平服務(wù)的問題。另一方面,網(wǎng)絡(luò)通信一直是分布式機(jī)器學(xué)習(xí)的瓶頸,當(dāng)前使用RDMA加速分布式應(yīng)用的研究?jī)H考慮在小數(shù)據(jù)通信場(chǎng)景下對(duì)傳輸服務(wù)類型和通信原語的選擇,沒有考慮應(yīng)用移植時(shí)網(wǎng)絡(luò)通信接口語義不匹配,以及更多影響RDMA性能的因素包括網(wǎng)絡(luò)連接參數(shù)選擇,網(wǎng)絡(luò)緩沖區(qū)管理,PCIe傳輸效率等問題,因此無法為分布式機(jī)器學(xué)習(xí)應(yīng)用提出系統(tǒng)的有效加速方案。本文的第一個(gè)工作針對(duì)現(xiàn)有基于互斥鎖資源復(fù)用方式存在性能瓶頸,接收隊(duì)列無法在多個(gè)應(yīng)用間復(fù)用的問題,且結(jié)合資源共享下保障應(yīng)用服務(wù)公平的需求,在系統(tǒng)層面對(duì)底層網(wǎng)絡(luò)資源進(jìn)行復(fù)用,設(shè)計(jì)抽象連接和異步請(qǐng)求處理來向上層多個(gè)應(yīng)用提供網(wǎng)絡(luò)服務(wù)。本...
【文章來源】:南京大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:87 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
ROCE、1和RocEvZ協(xié)議棧lI]
允許網(wǎng)絡(luò)設(shè)備實(shí)現(xiàn)流轉(zhuǎn)發(fā)優(yōu)化(如ECMP?(Equivalent?Cost?Multiple?Path))??而不必關(guān)心各種協(xié)議頭部格式的細(xì)節(jié)。由于RoCEv2僅僅改變了網(wǎng)絡(luò)數(shù)據(jù)包的??協(xié)議格式,對(duì)應(yīng)用層的使用沒有任何影響,因此,如圖2-1所示,應(yīng)用可以在??兩種RDMA網(wǎng)絡(luò)服務(wù)上無縫切換。與應(yīng)用直接進(jìn)行交互的是0FA(0pen?Fabric??Alliance)?Stack和Verbs?AP丨接口,這些軟件層幫助應(yīng)用完成和網(wǎng)卡硬件一系列??的10交互。??與傳統(tǒng)TCP/IP網(wǎng)絡(luò)10模型不同,RDMA網(wǎng)絡(luò)下由于協(xié)議棧卸載到網(wǎng)??卡上,使得10路徑不需要經(jīng)過內(nèi)核態(tài),且應(yīng)用直接和網(wǎng)卡硬件交互,使得??RDMA的10模型是純異步的。如圖2-2所示|21,RDMA提供用戶態(tài)可訪問的??QP?(QueuePair),?CQ?(Completion?Queue)12丨以及?UAR?(User?Access?Region)13丨數(shù)??據(jù)結(jié)構(gòu)來繞過內(nèi)核搭建應(yīng)用與網(wǎng)卡硬件之間10交互的通道,應(yīng)用之間的消息??服務(wù)建立在由通信雙方本地和遠(yuǎn)端的QP構(gòu)建的Channel-IO連接之上。首先,??
并通過特定與每個(gè)應(yīng)用的Key來訪問該映射表,當(dāng)處理應(yīng)用的WQE時(shí),??可以根據(jù)WQE中的Key和指向的虛擬內(nèi)存地址來在表中查找物理內(nèi)存地址,??并向該物理內(nèi)存地址發(fā)起PCIe的10操作⑶。整個(gè)地址轉(zhuǎn)換流程如圖2-3所示。??
本文編號(hào):3570016
【文章來源】:南京大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:87 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
ROCE、1和RocEvZ協(xié)議棧lI]
允許網(wǎng)絡(luò)設(shè)備實(shí)現(xiàn)流轉(zhuǎn)發(fā)優(yōu)化(如ECMP?(Equivalent?Cost?Multiple?Path))??而不必關(guān)心各種協(xié)議頭部格式的細(xì)節(jié)。由于RoCEv2僅僅改變了網(wǎng)絡(luò)數(shù)據(jù)包的??協(xié)議格式,對(duì)應(yīng)用層的使用沒有任何影響,因此,如圖2-1所示,應(yīng)用可以在??兩種RDMA網(wǎng)絡(luò)服務(wù)上無縫切換。與應(yīng)用直接進(jìn)行交互的是0FA(0pen?Fabric??Alliance)?Stack和Verbs?AP丨接口,這些軟件層幫助應(yīng)用完成和網(wǎng)卡硬件一系列??的10交互。??與傳統(tǒng)TCP/IP網(wǎng)絡(luò)10模型不同,RDMA網(wǎng)絡(luò)下由于協(xié)議棧卸載到網(wǎng)??卡上,使得10路徑不需要經(jīng)過內(nèi)核態(tài),且應(yīng)用直接和網(wǎng)卡硬件交互,使得??RDMA的10模型是純異步的。如圖2-2所示|21,RDMA提供用戶態(tài)可訪問的??QP?(QueuePair),?CQ?(Completion?Queue)12丨以及?UAR?(User?Access?Region)13丨數(shù)??據(jù)結(jié)構(gòu)來繞過內(nèi)核搭建應(yīng)用與網(wǎng)卡硬件之間10交互的通道,應(yīng)用之間的消息??服務(wù)建立在由通信雙方本地和遠(yuǎn)端的QP構(gòu)建的Channel-IO連接之上。首先,??
并通過特定與每個(gè)應(yīng)用的Key來訪問該映射表,當(dāng)處理應(yīng)用的WQE時(shí),??可以根據(jù)WQE中的Key和指向的虛擬內(nèi)存地址來在表中查找物理內(nèi)存地址,??并向該物理內(nèi)存地址發(fā)起PCIe的10操作⑶。整個(gè)地址轉(zhuǎn)換流程如圖2-3所示。??
本文編號(hào):3570016
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3570016.html
最近更新
教材專著