基于姿態(tài)的時(shí)裝圖像合成研究
發(fā)布時(shí)間:2021-10-15 03:58
隨著人工智能技術(shù)在服裝時(shí)尚領(lǐng)域的深入,服裝圖像的合成技術(shù)成為了當(dāng)今社會(huì)的一個(gè)熱點(diǎn)研究方向。服裝圖像包含豐富的語義信息和細(xì)節(jié)信息,如何根據(jù)目標(biāo)姿態(tài)合成服裝圖像是一個(gè)挑戰(zhàn)性難題。提出一種新的服裝圖像合成框架,提出一種姿態(tài)與生成對抗網(wǎng)絡(luò)相結(jié)合的圖像合成方法。該方法首先通過一種形狀編碼從原始服裝圖像提取語義掩模圖,從目標(biāo)圖像中提取目標(biāo)姿態(tài)以及pose mask,將它們作為與語義編碼器的輸入,通過語義生成器合成新的語義掩模圖;然后從原始圖像提取紋理特征并與語義掩模圖融合生成紋理特征圖;最后將紋理特征圖和語義掩模圖融入到紋理生成器中合成新的服裝圖像。實(shí)驗(yàn)結(jié)果表明,與其他主流方法相比,此方法在圖像合成質(zhì)量以及定量評估指標(biāo)上有明顯提升。
【文章來源】:現(xiàn)代計(jì)算機(jī). 2020,(28)
【文章頁數(shù)】:6 頁
【部分圖文】:
服裝圖像合成框架
為了避免昂貴的姿態(tài)注釋,本文利用了最新的姿態(tài)估計(jì)器[9]來獲取近似的人體姿態(tài),即目標(biāo)姿態(tài)pt。模型學(xué)習(xí)將每個(gè)關(guān)鍵點(diǎn)映射到人體的某個(gè)位置,將姿態(tài)pt編碼為若干個(gè)heatmaps,每個(gè)heatmaps在對應(yīng)關(guān)鍵點(diǎn)周圍半徑為4的像素中填充1,其他位置則填充0(請參看圖2,目標(biāo)姿態(tài))。由于只有語義掩模圖和目標(biāo)姿態(tài)作為輸入,如果目標(biāo)人體服裝圖像和原人體服裝圖像背景不同,則模型生成背景較困難。為了減輕背景變化的影響,于是添加了另一個(gè)姿態(tài)掩模圖Mpt,從而賦予了人體比背景更多的權(quán)重。姿態(tài)掩模Mpt的前景設(shè)置為1,背景設(shè)置為0,是通過將人體部位和運(yùn)用一組形態(tài)學(xué)運(yùn)算計(jì)算得出,以便使其易于覆蓋目標(biāo)圖像中的整個(gè)人體(參看圖2)。2.1.3編輯模塊
語義編碼器的網(wǎng)絡(luò)結(jié)構(gòu)定義為:p3,c7s1-16,d32,d64,d128,d128,d128,d128,d128,R128,R128,R128,R128,R128,R128,R128,R128,R128,fc8;語義生成器的網(wǎng)絡(luò)結(jié)構(gòu)定義為:d128,d128,d128,d128,d128,d64,d32,d16,p3,c7s1-18。其中c7s1-k表示一個(gè)具有k個(gè)filters且步幅為1的7*7卷積塊,dk表示一個(gè)具有k個(gè)filters且步幅為2的3*3卷積塊,Rk表示一個(gè)殘差塊,包含兩個(gè)具有k個(gè)filters的3*3卷積塊。pk表示在所有邊界上的填充3。fck表示具有k個(gè)濾波器的完全連接層。圖4 服裝VAE-GAN模型
本文編號:3437380
【文章來源】:現(xiàn)代計(jì)算機(jī). 2020,(28)
【文章頁數(shù)】:6 頁
【部分圖文】:
服裝圖像合成框架
為了避免昂貴的姿態(tài)注釋,本文利用了最新的姿態(tài)估計(jì)器[9]來獲取近似的人體姿態(tài),即目標(biāo)姿態(tài)pt。模型學(xué)習(xí)將每個(gè)關(guān)鍵點(diǎn)映射到人體的某個(gè)位置,將姿態(tài)pt編碼為若干個(gè)heatmaps,每個(gè)heatmaps在對應(yīng)關(guān)鍵點(diǎn)周圍半徑為4的像素中填充1,其他位置則填充0(請參看圖2,目標(biāo)姿態(tài))。由于只有語義掩模圖和目標(biāo)姿態(tài)作為輸入,如果目標(biāo)人體服裝圖像和原人體服裝圖像背景不同,則模型生成背景較困難。為了減輕背景變化的影響,于是添加了另一個(gè)姿態(tài)掩模圖Mpt,從而賦予了人體比背景更多的權(quán)重。姿態(tài)掩模Mpt的前景設(shè)置為1,背景設(shè)置為0,是通過將人體部位和運(yùn)用一組形態(tài)學(xué)運(yùn)算計(jì)算得出,以便使其易于覆蓋目標(biāo)圖像中的整個(gè)人體(參看圖2)。2.1.3編輯模塊
語義編碼器的網(wǎng)絡(luò)結(jié)構(gòu)定義為:p3,c7s1-16,d32,d64,d128,d128,d128,d128,d128,R128,R128,R128,R128,R128,R128,R128,R128,R128,fc8;語義生成器的網(wǎng)絡(luò)結(jié)構(gòu)定義為:d128,d128,d128,d128,d128,d64,d32,d16,p3,c7s1-18。其中c7s1-k表示一個(gè)具有k個(gè)filters且步幅為1的7*7卷積塊,dk表示一個(gè)具有k個(gè)filters且步幅為2的3*3卷積塊,Rk表示一個(gè)殘差塊,包含兩個(gè)具有k個(gè)filters的3*3卷積塊。pk表示在所有邊界上的填充3。fck表示具有k個(gè)濾波器的完全連接層。圖4 服裝VAE-GAN模型
本文編號:3437380
本文鏈接:http://sikaile.net/wenshubaike/csscizb/3437380.html
最近更新
教材專著