數(shù)字音樂語音智能評(píng)判方法研究與實(shí)現(xiàn)
本文選題:數(shù)字音樂語音 + 哼唱識(shí)別。 參考:《福州大學(xué)》2014年碩士論文
【摘要】:隨著音樂娛樂的普及和發(fā)展,數(shù)字音樂語音智能處理研究受到廣泛關(guān)注。音樂演唱的音準(zhǔn)音高智能評(píng)分,已經(jīng)在不少音樂娛樂軟件產(chǎn)品中推廣應(yīng)用。但針對(duì)音樂語音的哼唱識(shí)別、演唱的情感識(shí)別等,尚處于起步階段,還需要進(jìn)一步擴(kuò)展計(jì)算機(jī)智能評(píng)判的方法。相較普通說話語音,數(shù)字音樂語音具有單字發(fā)音時(shí)長變化范圍廣、發(fā)音受歌曲節(jié)奏影響大、語音處理的實(shí)時(shí)性要求高等特點(diǎn)。傳統(tǒng)語音處理方法在數(shù)字音樂的應(yīng)用效果并不理想,如音樂語音分割無法將單字準(zhǔn)確切分開,傳統(tǒng)語音處理選取特征的方法無法有效適用于音樂語音識(shí)別。針對(duì)單字發(fā)音時(shí)長變化范圍廣的特點(diǎn),本文提出了基于信息熵的哼唱識(shí)別算法和基于粒子群優(yōu)化的數(shù)字音樂語音分割算法。信息熵分割算法對(duì)于哼唱時(shí)發(fā)音無停頓的特點(diǎn)十分敏感,利用該算法能夠準(zhǔn)確檢測(cè)出在KTV唱歌的過程中有人利用哼唱獲取高分的情況;傳統(tǒng)端點(diǎn)檢測(cè)技術(shù)難以適應(yīng)數(shù)字音樂語音節(jié)奏變化快、發(fā)音間隔不規(guī)律、字與字之間的連續(xù)無停頓或停頓間隔不明顯等特點(diǎn),因此本文提出了利用粒子群優(yōu)化對(duì)未完全分割開的多個(gè)字進(jìn)行細(xì)分的方法,該方法能夠智能地判斷一個(gè)長語音段所包含的字?jǐn)?shù)并準(zhǔn)確地找到每一個(gè)字發(fā)音的起始位置和結(jié)束位置,在有噪音干擾的條件下同樣適用。實(shí)驗(yàn)結(jié)果表明,上述兩種算法能夠有效準(zhǔn)確處理數(shù)字音樂語音,提高音樂語音的分割準(zhǔn)確率。目前對(duì)于語音情感識(shí)別的研究沒有找到某種特征能夠非常典型的、單獨(dú)表示和區(qū)分不同情感,因此需要從現(xiàn)有已知的特征中選擇合適的特征用于情感識(shí)別。本文提出了一種基于DTW系數(shù)與SVM投票機(jī)制的數(shù)字音樂語音情感識(shí)別算法,該算法考慮音樂語音的音質(zhì)特征和韻律特征,利用DBC系數(shù)從備選特征中提取出類間相似度小、類內(nèi)相似度大的特征,然后建立不同的二分SVM分類器,對(duì)每一個(gè)樣本進(jìn)行分類決策,最后統(tǒng)計(jì)每個(gè)分類器的結(jié)果,得票數(shù)最多的情感即為識(shí)別結(jié)果。通過與Fisher準(zhǔn)則提取特征的SVM分層語音情感識(shí)別算法的對(duì)比試驗(yàn)表明,由于消除了不同情感樣本數(shù)不同對(duì)Fisher投影區(qū)域的影響及分層算法累積誤差的影響,本文提出的基于DBC系數(shù)與SVM投票機(jī)制的數(shù)字音樂語音情感識(shí)別算法有效地提高了識(shí)別準(zhǔn)確率。最后,本文將上述算法實(shí)現(xiàn)并封裝成模塊加入KTV評(píng)分系統(tǒng)。本文考慮數(shù)字音樂語音與正常說話的不同,提出的音樂語音哼唱檢測(cè)、分割算法和情感識(shí)別算法彌補(bǔ)傳統(tǒng)算法的不足,具有較高的研究價(jià)值和廣闊的發(fā)展前景。
[Abstract]:With the popularity and development of music entertainment, the research of digital music speech intelligent processing has received extensive attention. Music singing pitch intelligence score, has been used in many music entertainment software products. However, the humming recognition of musical speech and the emotion recognition of singing are still in the initial stage, and the methods of computer intelligent evaluation need to be further expanded. Compared with ordinary speech speech, digital music speech has the characteristics of wide range of changes in the duration of single word pronunciation, great influence of song rhythm on pronunciation, and high real-time requirement of speech processing. The application effect of traditional speech processing method in digital music is not ideal, such as music speech segmentation can not accurately separate words, traditional speech processing method of feature selection can not be effectively applied to music speech recognition. Aiming at the wide range of pronunciation time, this paper proposes a humming recognition algorithm based on information entropy and a digital music speech segmentation algorithm based on particle swarm optimization (PSO). The information entropy segmentation algorithm is very sensitive to the feature of no pause in the pronunciation of humming. Using this algorithm, it can accurately detect the situation that someone gets high score by humming in the process of singing by KTV. The traditional endpoint detection technique is difficult to adapt to the characteristics of fast change of digital music voice rhythm, irregular pronunciation interval, continuous non-pause between words or not obvious pause interval, etc. In this paper, a particle swarm optimization (PSO) method is proposed to subdivide several words with incomplete segmentation. This method can intelligently judge the number of words contained in a long speech segment and accurately find the starting and ending position of each word, which is also applicable in the case of noise interference. The experimental results show that the two algorithms can deal with digital music speech accurately and improve the segmentation accuracy of music speech. At present, the research on speech emotion recognition has not found that a certain feature can be very typical, which can express and distinguish different emotions separately, so it is necessary to select suitable features from existing known features for emotion recognition. In this paper, an emotion recognition algorithm for digital music speech based on DTW coefficient and SVM voting mechanism is proposed. The algorithm takes into account the sound quality and prosodic features of music speech, and uses DBC coefficient to extract small similarity between classes from the alternative features. Then different binary SVM classifiers are established to make classification decisions for each sample. Finally, the results of each classifier are counted, and the emotion with the most votes is the recognition result. By comparing with the SVM hierarchical speech emotion recognition algorithm based on Fisher criterion, it is shown that the influence of different number of emotional samples on Fisher projection region and the cumulative error of layered algorithm are eliminated. An emotion recognition algorithm for digital music speech based on DBC coefficient and SVM voting mechanism is proposed in this paper. Finally, the above algorithm is implemented and encapsulated into a KTV scoring system. Considering the difference between digital music speech and normal speech, this paper puts forward the music speech humming detection, segmentation algorithm and emotion recognition algorithm to compensate for the shortcomings of the traditional algorithm, which has high research value and broad development prospects.
【學(xué)位授予單位】:福州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TN912.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 ;數(shù)字音樂隨身聽[J];數(shù)字通信;2001年06期
2 ;音樂界第二次浪潮 數(shù)字音樂革命即將爆發(fā)?[J];新電腦;2003年07期
3 單愷韜;;是誰砸掉了數(shù)字音樂的市場(chǎng)[J];數(shù)字通信;2006年06期
4 易華;;數(shù)字音樂未來之猜想[J];多媒體世界;2006年07期
5 ;數(shù)字音樂交易額19.2億元同比增長130%[J];電子商務(wù);2006年04期
6 聶雪松;;漢銘將推數(shù)字音樂解決方案[J];通信世界;2007年38期
7 袁雪峰;;盜版:數(shù)字音樂產(chǎn)業(yè)發(fā)展的最大阻礙[J];視聽界;2011年06期
8 甘霖;;咪咕音樂攜手新浪微博數(shù)字音樂深耕細(xì)作醞釀大格局[J];通信與信息技術(shù);2013年06期
9 ;擁有自己的數(shù)字音樂[J];數(shù)字生活;2002年01期
10 學(xué)文;享受貼身的數(shù)字音樂[J];電腦技術(shù);2000年06期
相關(guān)會(huì)議論文 前2條
1 朱慧;;數(shù)字音樂的共享與分配:一個(gè)文獻(xiàn)綜述[A];2008年度(第六屆)中國法經(jīng)濟(jì)學(xué)論壇論文集(下)[C];2008年
2 陳戈;;尋找優(yōu)秀用戶體驗(yàn)的正版數(shù)字音樂商業(yè)模式[A];新媒體:競(jìng)合與共贏[C];2007年
相關(guān)重要報(bào)紙文章 前10條
1 金朝力;中國數(shù)字音樂重劃利益版圖[N];北京商報(bào);2007年
2 李國訓(xùn);付費(fèi)下載音樂走上絕路[N];財(cái)經(jīng)時(shí)報(bào);2007年
3 于祥明;數(shù)字音樂持續(xù)“冬眠”[N];中國文化報(bào);2007年
4 昊悅;海峽兩岸聯(lián)手力推正版數(shù)字音樂[N];大眾科技報(bào);2007年
5 嚴(yán)永浩;全球數(shù)字音樂市場(chǎng)快速成長[N];國際商報(bào);2007年
6 吳加錄;像賣礦泉水一樣賣數(shù)字音樂[N];中國計(jì)算機(jī)報(bào);2007年
7 余曉萍;試水?dāng)?shù)字音樂 閃聯(lián)圖謀數(shù)字家庭先機(jī)[N];中國計(jì)算機(jī)報(bào);2007年
8 ;美國數(shù)字音樂非法下載量增24%[N];人民郵電;2007年
9 于祥明邋袁媛;數(shù)字音樂持續(xù)“冬眠” 風(fēng)投熱情大減[N];上海證券報(bào);2007年
10 深圳商報(bào)記者 馬劍芳;未來數(shù)字音樂市場(chǎng)商機(jī)無限[N];深圳商報(bào);2007年
相關(guān)碩士學(xué)位論文 前10條
1 王嘉寧;我國數(shù)字音樂產(chǎn)業(yè)鏈研究[D];北京印刷學(xué)院;2009年
2 嚴(yán)俊清;數(shù)字音樂作品的著作權(quán)許可研究[D];蘭州大學(xué);2015年
3 張馨予;網(wǎng)絡(luò)信息環(huán)境下的數(shù)字音樂版權(quán)保護(hù)模式探究[D];上海音樂學(xué)院;2015年
4 胡顯玉;數(shù)字音樂質(zhì)量軟件噪聲監(jiān)測(cè)及合規(guī)性檢測(cè)模塊開發(fā)[D];電子科技大學(xué);2014年
5 李進(jìn);YL公司原創(chuàng)數(shù)字音樂平臺(tái)商業(yè)計(jì)劃書[D];華南理工大學(xué);2015年
6 韓時(shí);數(shù)字音樂作品著作權(quán)法律保護(hù)機(jī)制研究[D];吉林大學(xué);2015年
7 謝志成;數(shù)字音樂語音智能評(píng)判方法研究與實(shí)現(xiàn)[D];福州大學(xué);2014年
8 馬輝;論數(shù)字音樂作曲[D];中央民族大學(xué);2008年
9 陳國俊;數(shù)字音樂商務(wù)模式創(chuàng)新初探[D];廈門大學(xué);2006年
10 孫偉;滾石移動(dòng)集團(tuán)數(shù)字音樂發(fā)展戰(zhàn)略研究[D];天津大學(xué);2012年
,本文編號(hào):1840686
本文鏈接:http://sikaile.net/kejilunwen/wltx/1840686.html