數(shù)字音樂(lè)語(yǔ)音智能評(píng)判方法研究與實(shí)現(xiàn)
本文選題:數(shù)字音樂(lè)語(yǔ)音 + 哼唱識(shí)別 ; 參考:《福州大學(xué)》2014年碩士論文
【摘要】:隨著音樂(lè)娛樂(lè)的普及和發(fā)展,數(shù)字音樂(lè)語(yǔ)音智能處理研究受到廣泛關(guān)注。音樂(lè)演唱的音準(zhǔn)音高智能評(píng)分,已經(jīng)在不少音樂(lè)娛樂(lè)軟件產(chǎn)品中推廣應(yīng)用。但針對(duì)音樂(lè)語(yǔ)音的哼唱識(shí)別、演唱的情感識(shí)別等,尚處于起步階段,還需要進(jìn)一步擴(kuò)展計(jì)算機(jī)智能評(píng)判的方法。相較普通說(shuō)話語(yǔ)音,數(shù)字音樂(lè)語(yǔ)音具有單字發(fā)音時(shí)長(zhǎng)變化范圍廣、發(fā)音受歌曲節(jié)奏影響大、語(yǔ)音處理的實(shí)時(shí)性要求高等特點(diǎn)。傳統(tǒng)語(yǔ)音處理方法在數(shù)字音樂(lè)的應(yīng)用效果并不理想,如音樂(lè)語(yǔ)音分割無(wú)法將單字準(zhǔn)確切分開(kāi),傳統(tǒng)語(yǔ)音處理選取特征的方法無(wú)法有效適用于音樂(lè)語(yǔ)音識(shí)別。針對(duì)單字發(fā)音時(shí)長(zhǎng)變化范圍廣的特點(diǎn),本文提出了基于信息熵的哼唱識(shí)別算法和基于粒子群優(yōu)化的數(shù)字音樂(lè)語(yǔ)音分割算法。信息熵分割算法對(duì)于哼唱時(shí)發(fā)音無(wú)停頓的特點(diǎn)十分敏感,利用該算法能夠準(zhǔn)確檢測(cè)出在KTV唱歌的過(guò)程中有人利用哼唱獲取高分的情況;傳統(tǒng)端點(diǎn)檢測(cè)技術(shù)難以適應(yīng)數(shù)字音樂(lè)語(yǔ)音節(jié)奏變化快、發(fā)音間隔不規(guī)律、字與字之間的連續(xù)無(wú)停頓或停頓間隔不明顯等特點(diǎn),因此本文提出了利用粒子群優(yōu)化對(duì)未完全分割開(kāi)的多個(gè)字進(jìn)行細(xì)分的方法,該方法能夠智能地判斷一個(gè)長(zhǎng)語(yǔ)音段所包含的字?jǐn)?shù)并準(zhǔn)確地找到每一個(gè)字發(fā)音的起始位置和結(jié)束位置,在有噪音干擾的條件下同樣適用。實(shí)驗(yàn)結(jié)果表明,上述兩種算法能夠有效準(zhǔn)確處理數(shù)字音樂(lè)語(yǔ)音,提高音樂(lè)語(yǔ)音的分割準(zhǔn)確率。目前對(duì)于語(yǔ)音情感識(shí)別的研究沒(méi)有找到某種特征能夠非常典型的、單獨(dú)表示和區(qū)分不同情感,因此需要從現(xiàn)有已知的特征中選擇合適的特征用于情感識(shí)別。本文提出了一種基于DTW系數(shù)與SVM投票機(jī)制的數(shù)字音樂(lè)語(yǔ)音情感識(shí)別算法,該算法考慮音樂(lè)語(yǔ)音的音質(zhì)特征和韻律特征,利用DBC系數(shù)從備選特征中提取出類間相似度小、類內(nèi)相似度大的特征,然后建立不同的二分SVM分類器,對(duì)每一個(gè)樣本進(jìn)行分類決策,最后統(tǒng)計(jì)每個(gè)分類器的結(jié)果,得票數(shù)最多的情感即為識(shí)別結(jié)果。通過(guò)與Fisher準(zhǔn)則提取特征的SVM分層語(yǔ)音情感識(shí)別算法的對(duì)比試驗(yàn)表明,由于消除了不同情感樣本數(shù)不同對(duì)Fisher投影區(qū)域的影響及分層算法累積誤差的影響,本文提出的基于DBC系數(shù)與SVM投票機(jī)制的數(shù)字音樂(lè)語(yǔ)音情感識(shí)別算法有效地提高了識(shí)別準(zhǔn)確率。最后,本文將上述算法實(shí)現(xiàn)并封裝成模塊加入KTV評(píng)分系統(tǒng)。本文考慮數(shù)字音樂(lè)語(yǔ)音與正常說(shuō)話的不同,提出的音樂(lè)語(yǔ)音哼唱檢測(cè)、分割算法和情感識(shí)別算法彌補(bǔ)傳統(tǒng)算法的不足,具有較高的研究?jī)r(jià)值和廣闊的發(fā)展前景。
[Abstract]:With the popularity and development of music entertainment, the research of digital music speech intelligent processing has received extensive attention. Music singing pitch intelligence score, has been used in many music entertainment software products. However, the humming recognition of musical speech and the emotion recognition of singing are still in the initial stage, and the methods of computer intelligent evaluation need to be further expanded. Compared with ordinary speech speech, digital music speech has the characteristics of wide range of changes in the duration of single word pronunciation, great influence of song rhythm on pronunciation, and high real-time requirement of speech processing. The application effect of traditional speech processing method in digital music is not ideal, such as music speech segmentation can not accurately separate words, traditional speech processing method of feature selection can not be effectively applied to music speech recognition. Aiming at the wide range of pronunciation time, this paper proposes a humming recognition algorithm based on information entropy and a digital music speech segmentation algorithm based on particle swarm optimization (PSO). The information entropy segmentation algorithm is very sensitive to the feature of no pause in the pronunciation of humming. Using this algorithm, it can accurately detect the situation that someone gets high score by humming in the process of singing by KTV. The traditional endpoint detection technique is difficult to adapt to the characteristics of fast change of digital music voice rhythm, irregular pronunciation interval, continuous non-pause between words or not obvious pause interval, etc. In this paper, a particle swarm optimization (PSO) method is proposed to subdivide several words with incomplete segmentation. This method can intelligently judge the number of words contained in a long speech segment and accurately find the starting and ending position of each word, which is also applicable in the case of noise interference. The experimental results show that the two algorithms can deal with digital music speech accurately and improve the segmentation accuracy of music speech. At present, the research on speech emotion recognition has not found that a certain feature can be very typical, which can express and distinguish different emotions separately, so it is necessary to select suitable features from existing known features for emotion recognition. In this paper, an emotion recognition algorithm for digital music speech based on DTW coefficient and SVM voting mechanism is proposed. The algorithm takes into account the sound quality and prosodic features of music speech, and uses DBC coefficient to extract small similarity between classes from the alternative features. Then different binary SVM classifiers are established to make classification decisions for each sample. Finally, the results of each classifier are counted, and the emotion with the most votes is the recognition result. By comparing with the SVM hierarchical speech emotion recognition algorithm based on Fisher criterion, it is shown that the influence of different number of emotional samples on Fisher projection region and the cumulative error of layered algorithm are eliminated. An emotion recognition algorithm for digital music speech based on DBC coefficient and SVM voting mechanism is proposed in this paper. Finally, the above algorithm is implemented and encapsulated into a KTV scoring system. Considering the difference between digital music speech and normal speech, this paper puts forward the music speech humming detection, segmentation algorithm and emotion recognition algorithm to compensate for the shortcomings of the traditional algorithm, which has high research value and broad development prospects.
【學(xué)位授予單位】:福州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TN912.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 ;數(shù)字音樂(lè)隨身聽(tīng)[J];數(shù)字通信;2001年06期
2 ;音樂(lè)界第二次浪潮 數(shù)字音樂(lè)革命即將爆發(fā)?[J];新電腦;2003年07期
3 單愷韜;;是誰(shuí)砸掉了數(shù)字音樂(lè)的市場(chǎng)[J];數(shù)字通信;2006年06期
4 易華;;數(shù)字音樂(lè)未來(lái)之猜想[J];多媒體世界;2006年07期
5 ;數(shù)字音樂(lè)交易額19.2億元同比增長(zhǎng)130%[J];電子商務(wù);2006年04期
6 聶雪松;;漢銘將推數(shù)字音樂(lè)解決方案[J];通信世界;2007年38期
7 袁雪峰;;盜版:數(shù)字音樂(lè)產(chǎn)業(yè)發(fā)展的最大阻礙[J];視聽(tīng)界;2011年06期
8 甘霖;;咪咕音樂(lè)攜手新浪微博數(shù)字音樂(lè)深耕細(xì)作醞釀大格局[J];通信與信息技術(shù);2013年06期
9 ;擁有自己的數(shù)字音樂(lè)[J];數(shù)字生活;2002年01期
10 學(xué)文;享受貼身的數(shù)字音樂(lè)[J];電腦技術(shù);2000年06期
相關(guān)會(huì)議論文 前2條
1 朱慧;;數(shù)字音樂(lè)的共享與分配:一個(gè)文獻(xiàn)綜述[A];2008年度(第六屆)中國(guó)法經(jīng)濟(jì)學(xué)論壇論文集(下)[C];2008年
2 陳戈;;尋找優(yōu)秀用戶體驗(yàn)的正版數(shù)字音樂(lè)商業(yè)模式[A];新媒體:競(jìng)合與共贏[C];2007年
相關(guān)重要報(bào)紙文章 前10條
1 金朝力;中國(guó)數(shù)字音樂(lè)重劃利益版圖[N];北京商報(bào);2007年
2 李國(guó)訓(xùn);付費(fèi)下載音樂(lè)走上絕路[N];財(cái)經(jīng)時(shí)報(bào);2007年
3 于祥明;數(shù)字音樂(lè)持續(xù)“冬眠”[N];中國(guó)文化報(bào);2007年
4 昊悅;海峽兩岸聯(lián)手力推正版數(shù)字音樂(lè)[N];大眾科技報(bào);2007年
5 嚴(yán)永浩;全球數(shù)字音樂(lè)市場(chǎng)快速成長(zhǎng)[N];國(guó)際商報(bào);2007年
6 吳加錄;像賣礦泉水一樣賣數(shù)字音樂(lè)[N];中國(guó)計(jì)算機(jī)報(bào);2007年
7 余曉萍;試水?dāng)?shù)字音樂(lè) 閃聯(lián)圖謀數(shù)字家庭先機(jī)[N];中國(guó)計(jì)算機(jī)報(bào);2007年
8 ;美國(guó)數(shù)字音樂(lè)非法下載量增24%[N];人民郵電;2007年
9 于祥明邋袁媛;數(shù)字音樂(lè)持續(xù)“冬眠” 風(fēng)投熱情大減[N];上海證券報(bào);2007年
10 深圳商報(bào)記者 馬劍芳;未來(lái)數(shù)字音樂(lè)市場(chǎng)商機(jī)無(wú)限[N];深圳商報(bào);2007年
相關(guān)碩士學(xué)位論文 前10條
1 王嘉寧;我國(guó)數(shù)字音樂(lè)產(chǎn)業(yè)鏈研究[D];北京印刷學(xué)院;2009年
2 嚴(yán)俊清;數(shù)字音樂(lè)作品的著作權(quán)許可研究[D];蘭州大學(xué);2015年
3 張馨予;網(wǎng)絡(luò)信息環(huán)境下的數(shù)字音樂(lè)版權(quán)保護(hù)模式探究[D];上海音樂(lè)學(xué)院;2015年
4 胡顯玉;數(shù)字音樂(lè)質(zhì)量軟件噪聲監(jiān)測(cè)及合規(guī)性檢測(cè)模塊開(kāi)發(fā)[D];電子科技大學(xué);2014年
5 李進(jìn);YL公司原創(chuàng)數(shù)字音樂(lè)平臺(tái)商業(yè)計(jì)劃書(shū)[D];華南理工大學(xué);2015年
6 韓時(shí);數(shù)字音樂(lè)作品著作權(quán)法律保護(hù)機(jī)制研究[D];吉林大學(xué);2015年
7 謝志成;數(shù)字音樂(lè)語(yǔ)音智能評(píng)判方法研究與實(shí)現(xiàn)[D];福州大學(xué);2014年
8 馬輝;論數(shù)字音樂(lè)作曲[D];中央民族大學(xué);2008年
9 陳國(guó)俊;數(shù)字音樂(lè)商務(wù)模式創(chuàng)新初探[D];廈門大學(xué);2006年
10 孫偉;滾石移動(dòng)集團(tuán)數(shù)字音樂(lè)發(fā)展戰(zhàn)略研究[D];天津大學(xué);2012年
,本文編號(hào):1840686
本文鏈接:http://sikaile.net/kejilunwen/wltx/1840686.html