一種基于姿態(tài)關(guān)系特征的機(jī)器人舞蹈生成方法
發(fā)布時(shí)間:2021-06-13 23:21
如何使機(jī)器人伴隨著音樂(lè)舞蹈是一個(gè)有趣又有挑戰(zhàn)性的課題,為此提出了一種自動(dòng)生成機(jī)器人舞蹈動(dòng)作序列的方法.采用門控循環(huán)單元(GRU)網(wǎng)絡(luò)分別學(xué)習(xí)音樂(lè)的全局特征與舞蹈姿態(tài)關(guān)系特征之間的相關(guān)性、音樂(lè)局部特征與舞蹈動(dòng)作密度特征之間的相關(guān)性,再結(jié)合舞蹈動(dòng)作圖,采樣并規(guī)劃出與節(jié)拍同步的機(jī)器人舞蹈動(dòng)作.該方法適用于目前商業(yè)娛樂(lè)機(jī)器人平臺(tái)上提供的規(guī)模小、風(fēng)格多樣的機(jī)器人舞蹈數(shù)據(jù)集.將其在優(yōu)必選Alpha1S機(jī)器人平臺(tái)上進(jìn)行實(shí)驗(yàn)后發(fā)現(xiàn),機(jī)器人能夠根據(jù)算法生成的動(dòng)作序列演繹出穩(wěn)定、流暢的舞蹈;調(diào)查問(wèn)卷表明,人們很難區(qū)分舞蹈片段是由該算法生成的還是由人類設(shè)計(jì)的.
【文章來(lái)源】:廈門大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019,58(05)北大核心CSCD
【文章頁(yè)數(shù)】:7 頁(yè)
【部分圖文】:
圖1方案總體流程Fig.1Overallflowchartofthesolution
同歌曲的m有所差異,m越大表明節(jié)拍的時(shí)長(zhǎng)越小,節(jié)拍內(nèi)的動(dòng)作數(shù)就可能越少,因此用公式ntm/100歸一化表示第t個(gè)節(jié)拍內(nèi)的動(dòng)作密度Tt,以消除m差異所造成的影響.統(tǒng)計(jì)數(shù)據(jù)庫(kù)中所有節(jié)拍內(nèi)的動(dòng)作密度值,其分布見(jiàn)圖2(b),此時(shí)大部分?jǐn)?shù)值在0~3之間.對(duì)于數(shù)據(jù)庫(kù)中的每首歌曲,可得到按節(jié)拍切分后的梅爾頻譜序列以及對(duì)應(yīng)舞蹈的R和T=(Tt),這些序列共同組成了用于訓(xùn)練模型的數(shù)據(jù)集.幾個(gè)序列間的時(shí)序關(guān)系如圖3所示:(a)為動(dòng)作序列,其中每個(gè)動(dòng)作由運(yùn)動(dòng)階段和保持階段構(gòu)成;(b)為姿態(tài)關(guān)系序列,一些姿態(tài)類型中包括兩個(gè)二元?jiǎng)幼鳎鐚?duì)稱型圖2動(dòng)作特征的分布Fig.2Distributionofmotionfeatures式,另一些則只包括一個(gè)動(dòng)作,如對(duì)稱和其他;(c)為動(dòng)作密度序列,其中的數(shù)字表示該節(jié)拍內(nèi)的動(dòng)作密度,如節(jié)拍4中對(duì)應(yīng)了動(dòng)作3和動(dòng)作4兩個(gè)動(dòng)作結(jié)束點(diǎn),因此節(jié)拍動(dòng)作數(shù)為2,其動(dòng)作密度為2m/100.2.2姿態(tài)關(guān)系模型姿態(tài)關(guān)系模型(記為R-net)的結(jié)構(gòu)如圖4(a)所示,主要由一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)和一個(gè)帶門控單元的循環(huán)網(wǎng)絡(luò)(GRU)[16]組成:其中CNN來(lái)自于Choi等[17]提出的用于音樂(lè)風(fēng)格識(shí)別的網(wǎng)絡(luò);GRU是一個(gè)128維的單隱藏層循環(huán)神經(jīng)網(wǎng)絡(luò),門控單元的輸入端連接了5維的嵌入層(embedding),輸出端連接一個(gè)7維的歸一化指數(shù)層(softmax)進(jìn)行姿態(tài)關(guān)系類圖3動(dòng)
mu.xmu.edu.cn時(shí),使用“對(duì)稱”類型的姿態(tài)來(lái)替代;c)如果當(dāng)前姿態(tài)的鄰居節(jié)點(diǎn)沒(méi)有對(duì)稱關(guān)系姿態(tài),則直接使用初始動(dòng)作.依照以上采樣算法得到A后,結(jié)合T可求得每一個(gè)節(jié)拍內(nèi)的動(dòng)作數(shù)量nk=[Tk×100/m].按順序從A中選擇出姿態(tài),并令第k個(gè)節(jié)拍內(nèi)動(dòng)作時(shí)間滿足tR=tT=(bk+1-bk)/nk,以使得每個(gè)動(dòng)作的結(jié)束點(diǎn)都在節(jié)拍點(diǎn)上,產(chǎn)生與音樂(lè)同步的效果,最終生成可執(zhí)行的舞蹈序列.圖5動(dòng)作采樣算法流程Fig.5Flowchartofactionsamplingalgorithm3實(shí)驗(yàn)與分析3.1模型訓(xùn)練與測(cè)試按照2.1節(jié)中的特征提取方法對(duì)數(shù)據(jù)庫(kù)里所有的音樂(lè)和舞蹈提取出梅爾頻譜圖以及R,并且按照7∶2∶1的比例劃分出初始的訓(xùn)練集、驗(yàn)證集和測(cè)試集.對(duì)于R-net,分別從初始數(shù)據(jù)集中有放回地隨機(jī)采樣得到約3000條訓(xùn)練集樣本、700條驗(yàn)證集樣本和350條測(cè)試集樣本.對(duì)于T-net,從初始數(shù)據(jù)集中有放回地隨機(jī)采樣得到2000條訓(xùn)練集樣本、540條驗(yàn)證集樣本和280條測(cè)試集樣本.實(shí)驗(yàn)中使用隨機(jī)搜索(randomsearch)的方式分別為兩個(gè)網(wǎng)絡(luò)尋找到合適的超參數(shù),主要包括正則化因子、學(xué)習(xí)率和CNN的訓(xùn)練層數(shù).最終發(fā)現(xiàn)在R-net中直接固定預(yù)訓(xùn)練的CNN的參數(shù)而只更新GRU的參數(shù),在T-net中只更新預(yù)訓(xùn)練好的CNN中的全聯(lián)接層以及GRU的網(wǎng)絡(luò)參數(shù),能夠得到最佳的訓(xùn)練結(jié)果.R-net和T-net
【參考文獻(xiàn)】:
碩士論文
[1]音樂(lè)驅(qū)動(dòng)的舞蹈動(dòng)作合成[D]. 樊儒昆.浙江大學(xué) 2010
本文編號(hào):3228553
【文章來(lái)源】:廈門大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019,58(05)北大核心CSCD
【文章頁(yè)數(shù)】:7 頁(yè)
【部分圖文】:
圖1方案總體流程Fig.1Overallflowchartofthesolution
同歌曲的m有所差異,m越大表明節(jié)拍的時(shí)長(zhǎng)越小,節(jié)拍內(nèi)的動(dòng)作數(shù)就可能越少,因此用公式ntm/100歸一化表示第t個(gè)節(jié)拍內(nèi)的動(dòng)作密度Tt,以消除m差異所造成的影響.統(tǒng)計(jì)數(shù)據(jù)庫(kù)中所有節(jié)拍內(nèi)的動(dòng)作密度值,其分布見(jiàn)圖2(b),此時(shí)大部分?jǐn)?shù)值在0~3之間.對(duì)于數(shù)據(jù)庫(kù)中的每首歌曲,可得到按節(jié)拍切分后的梅爾頻譜序列以及對(duì)應(yīng)舞蹈的R和T=(Tt),這些序列共同組成了用于訓(xùn)練模型的數(shù)據(jù)集.幾個(gè)序列間的時(shí)序關(guān)系如圖3所示:(a)為動(dòng)作序列,其中每個(gè)動(dòng)作由運(yùn)動(dòng)階段和保持階段構(gòu)成;(b)為姿態(tài)關(guān)系序列,一些姿態(tài)類型中包括兩個(gè)二元?jiǎng)幼鳎鐚?duì)稱型圖2動(dòng)作特征的分布Fig.2Distributionofmotionfeatures式,另一些則只包括一個(gè)動(dòng)作,如對(duì)稱和其他;(c)為動(dòng)作密度序列,其中的數(shù)字表示該節(jié)拍內(nèi)的動(dòng)作密度,如節(jié)拍4中對(duì)應(yīng)了動(dòng)作3和動(dòng)作4兩個(gè)動(dòng)作結(jié)束點(diǎn),因此節(jié)拍動(dòng)作數(shù)為2,其動(dòng)作密度為2m/100.2.2姿態(tài)關(guān)系模型姿態(tài)關(guān)系模型(記為R-net)的結(jié)構(gòu)如圖4(a)所示,主要由一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)和一個(gè)帶門控單元的循環(huán)網(wǎng)絡(luò)(GRU)[16]組成:其中CNN來(lái)自于Choi等[17]提出的用于音樂(lè)風(fēng)格識(shí)別的網(wǎng)絡(luò);GRU是一個(gè)128維的單隱藏層循環(huán)神經(jīng)網(wǎng)絡(luò),門控單元的輸入端連接了5維的嵌入層(embedding),輸出端連接一個(gè)7維的歸一化指數(shù)層(softmax)進(jìn)行姿態(tài)關(guān)系類圖3動(dòng)
mu.xmu.edu.cn時(shí),使用“對(duì)稱”類型的姿態(tài)來(lái)替代;c)如果當(dāng)前姿態(tài)的鄰居節(jié)點(diǎn)沒(méi)有對(duì)稱關(guān)系姿態(tài),則直接使用初始動(dòng)作.依照以上采樣算法得到A后,結(jié)合T可求得每一個(gè)節(jié)拍內(nèi)的動(dòng)作數(shù)量nk=[Tk×100/m].按順序從A中選擇出姿態(tài),并令第k個(gè)節(jié)拍內(nèi)動(dòng)作時(shí)間滿足tR=tT=(bk+1-bk)/nk,以使得每個(gè)動(dòng)作的結(jié)束點(diǎn)都在節(jié)拍點(diǎn)上,產(chǎn)生與音樂(lè)同步的效果,最終生成可執(zhí)行的舞蹈序列.圖5動(dòng)作采樣算法流程Fig.5Flowchartofactionsamplingalgorithm3實(shí)驗(yàn)與分析3.1模型訓(xùn)練與測(cè)試按照2.1節(jié)中的特征提取方法對(duì)數(shù)據(jù)庫(kù)里所有的音樂(lè)和舞蹈提取出梅爾頻譜圖以及R,并且按照7∶2∶1的比例劃分出初始的訓(xùn)練集、驗(yàn)證集和測(cè)試集.對(duì)于R-net,分別從初始數(shù)據(jù)集中有放回地隨機(jī)采樣得到約3000條訓(xùn)練集樣本、700條驗(yàn)證集樣本和350條測(cè)試集樣本.對(duì)于T-net,從初始數(shù)據(jù)集中有放回地隨機(jī)采樣得到2000條訓(xùn)練集樣本、540條驗(yàn)證集樣本和280條測(cè)試集樣本.實(shí)驗(yàn)中使用隨機(jī)搜索(randomsearch)的方式分別為兩個(gè)網(wǎng)絡(luò)尋找到合適的超參數(shù),主要包括正則化因子、學(xué)習(xí)率和CNN的訓(xùn)練層數(shù).最終發(fā)現(xiàn)在R-net中直接固定預(yù)訓(xùn)練的CNN的參數(shù)而只更新GRU的參數(shù),在T-net中只更新預(yù)訓(xùn)練好的CNN中的全聯(lián)接層以及GRU的網(wǎng)絡(luò)參數(shù),能夠得到最佳的訓(xùn)練結(jié)果.R-net和T-net
【參考文獻(xiàn)】:
碩士論文
[1]音樂(lè)驅(qū)動(dòng)的舞蹈動(dòng)作合成[D]. 樊儒昆.浙江大學(xué) 2010
本文編號(hào):3228553
本文鏈接:http://sikaile.net/wenyilunwen/wdlw/3228553.html
最近更新
教材專著