基于Kinect的特定說話人跟蹤系統(tǒng)的研究與實現(xiàn)

發(fā)布時間：2017-12-26 17:34

本文關(guān)鍵詞：基于Kinect的特定說話人跟蹤系統(tǒng)的研究與實現(xiàn)　出處：《延邊大學(xué)》2017年碩士論文　論文類型：學(xué)位論文

【摘要】：說話人跟蹤在視頻會議、多媒體系統(tǒng)、智能監(jiān)控、人機(jī)交互、機(jī)器人等領(lǐng)域具有重要的研究意義和廣泛的應(yīng)用價值。聲源定位技術(shù)常被用來作為說話人跟蹤的基本手段,然而聲源定位技術(shù)容易受到混響、噪聲的影響,并且當(dāng)環(huán)境中存在多個說話人時會使說話人跟蹤產(chǎn)生偏差。Kinect由四個麥克風(fēng)組成的直線型陣列能夠有效抑制噪聲和消除回音,本學(xué)位論文利用Kinect傳感器接收和處理說話人的語音信號,采用基于波束形成算法實現(xiàn)說話人跟蹤。多說話人的環(huán)境下,加入說話人的聲紋特征,對特定說話人的身份進(jìn)行仔細(xì)確認(rèn)后,再實現(xiàn)實時跟蹤。首先,針對多說話人環(huán)境,選用基于高斯混合模型-通用背景模型(Gaussian mixture model-Universal Background Model,GMM-UBM)的說話人確認(rèn)方法對說話人進(jìn)行身份認(rèn)證。該方法先提取出模仿人耳聽覺特性的聲紋特征參數(shù)一—梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC),然后將 GMM-UBM模型作為說話人確認(rèn)的訓(xùn)練模型,測試階段將測試語音與訓(xùn)練得到的說話人模型進(jìn)行匹配,匹配得分與預(yù)先設(shè)置的閾值進(jìn)行比較,最終給出判斷結(jié)果。其次,采用自適應(yīng)波束形成算法實現(xiàn)聲源的定位,解決了 Kinect麥克風(fēng)陣元較少情況下的說話人聲源定位問題。最后,設(shè)計了特定說話人跟蹤系統(tǒng),主要包括三個功能模塊:音頻采集與處理模塊、說話人確認(rèn)模塊和定位跟蹤模塊。利用Kinect for Windows SDK v1.8和Open CV以及tsVPR說話人確認(rèn)引擎等工具包,對這三個模塊進(jìn)行了設(shè)計及實現(xiàn)。最終根據(jù)獲取到的特定說話人的方位角,實現(xiàn)了特定說話人的定位跟蹤功能。實驗結(jié)果表明,本文設(shè)計和實現(xiàn)的特定說話人跟蹤系統(tǒng),采用自適應(yīng)波束形成技術(shù)能夠準(zhǔn)確地定位特定說話人的方位。在理想環(huán)境和單一特定說話人情況下平均定位準(zhǔn)確率為93.3%,方位角的均方根誤差(Rootmean square error,RMSE)為6.4,在理想環(huán)境和多人情況下平均定位準(zhǔn)確率為89.5%。另外,在環(huán)境噪聲為30-50dB且伴有30ms和50ms混響的情況下,通過Kinect內(nèi)部的噪聲抑制機(jī)制,取得了單人跟蹤83.35%的準(zhǔn)確率、8.9的RMSE,多人環(huán)境跟蹤特定說話人81.27%的準(zhǔn)確率,均滿足本文設(shè)定的性能指標(biāo),證明了本系統(tǒng)在噪聲和混響室內(nèi)環(huán)境下也表現(xiàn)出較強的魯棒性。
[Abstract]:Speaker tracking has important research significance and wide application value in the fields of video conference, multimedia system, intelligent monitoring, human-machine interaction, robot and so on. Sound source localization technology is often used as a basic means of speaker tracking. However, localization technology is prone to be affected by reverberation and noise, and when there are multiple speakers in the environment, it will cause bias in speaker tracking. Kinect linear array composed of four microphones can effectively suppress noise and eliminate echo. In this thesis, Kinect sensor is used to receive and process speaker's speech signal and realize speaker tracking based on beamforming algorithm. Multi speaker environment, voiceprint speaker added, in particular the identity of the speaker carefully after confirmation, to achieve real-time tracking. First, in view of multi speaker environment, a speaker verification method based on Gauss mixture model Gaussian mixture model-Universal Background Model (GMM-UBM) is used to authenticate the speaker. This method firstly extracts the voiceprint parameters to mimic the human auditory characteristics - Mel cepstral coefficients (Mel Frequency Cepstral Coefficients, MFCC), then the GMM-UBM model is used as a training model of speaker recognition, speaker model testing phase will test the voice and the matching, the matching score and the preset threshold were compared. The final judgement results. Secondly, the adaptive beamforming algorithm is used to locate the sound source, and the problem of the speaker localization is solved in the case of the Kinect microphone array element. Finally, a specific speaker tracking system is designed, which mainly consists of three functional modules: audio acquisition and processing module, speaker recognition module and location tracking module. The three modules are designed and implemented by using Kinect for Windows SDK v1.8 and Open CV and tsVPR speaker confirmation engine toolkit. In the end, the location and tracking function of a specific speaker is realized based on the azimuth of the specific speaker. The experimental results show that the specific speaker tracking system designed and implemented in this paper adopts adaptive beamforming technology to locate the speaker's orientation accurately. Under ideal environment and single speaker, the average location accuracy is 93.3%, the Rootmean square error (RMSE) of azimuth is 6.4, and the average location accuracy is 89.5% under ideal environment and multi person condition. In addition, the environmental noise is 30-50dB with 30ms and 50ms under the condition of reverberation suppression mechanism, through the noise inside the Kinect, made a single tracking accuracy, 83.35% of the 8.9 RMSE, the accuracy rate of more than 81.27% of the speaker tracking environment, meet the set of indicators, it is proved that the system in noise the reverberation and the indoor environment also showed strong robustness.
【學(xué)位授予單位】：延邊大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2017
【分類號】：TN912.34

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 劉文舉,孫兵,鐘秋海;基于說話人分類技術(shù)的分級說話人識別研究[J];電子學(xué)報;2005年07期

2 丁輝;唐振民;錢博;李燕萍;;易擴(kuò)展小樣本環(huán)境說話人辨認(rèn)系統(tǒng)的研究[J];系統(tǒng)仿真學(xué)報;2008年10期

3 劉明輝;黃中偉;熊繼平;;用于說話人辨識的評分規(guī)整[J];計算機(jī)工程與應(yīng)用;2010年12期

4 陳雪芳;楊繼臣;;一種三層判決的說話人索引算法[J];計算機(jī)工程;2012年02期

5 楊繼臣;何俊;李艷雄;;一種基于性別的說話人索引算法[J];計算機(jī)工程與科學(xué);2012年06期

6 何致遠(yuǎn),胡起秀,徐光yP;兩級決策的開集說話人辨認(rèn)方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2003年04期

7 殷啟新,韓春光,楊鑒;基于掌上電腦錄音的說話人辨認(rèn)[J];云南民族學(xué)院學(xué)報(自然科學(xué)版);2003年04期

8 呂聲,尹俊勛;同語種說話人轉(zhuǎn)換的實現(xiàn)[J];移動通信;2004年S3期

9 董明,劉加,劉潤生;快速口音自適應(yīng)的動態(tài)說話人選擇性訓(xùn)練[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年07期

10 曹敏;王浩川;;說話人自動識別技術(shù)研究[J];中州大學(xué)學(xué)報;2007年02期

相關(guān)會議論文前10條

1 司羅;胡起秀;金琴;;完全無監(jiān)督的雙人對話中的說話人分隔[A];第九屆全國信號處理學(xué)術(shù)年會（CCSP-99）論文集[C];1999年

2 金乃高;侯剛;王學(xué)輝;李非墨;;基于主動感知的音視頻聯(lián)合說話人跟蹤方法[A];2010年通信理論與信號處理學(xué)術(shù)年會論文集[C];2010年

3 馬勇;鮑長春;夏丙寅;;基于辨別性深度信念網(wǎng)絡(luò)的說話人分割[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議（NCMMSC'2013）論文集[C];2013年

4 白俊梅;張樹武;徐波;;廣播電視中的目標(biāo)說話人跟蹤技術(shù)[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2005年

5 索宏彬;劉曉星;;基于高斯混合模型的說話人跟蹤系統(tǒng)[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2005年

6 羅海風(fēng);龍長才;;多話者環(huán)境下說話人辨識聽覺線索研究[A];中國聲學(xué)學(xué)會2009年青年學(xué)術(shù)會議[CYCA’09]論文集[C];2009年

7 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認(rèn)快速算法[A];第十一屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集（一）[C];2011年

8 李經(jīng)偉;;語體轉(zhuǎn)換與角色定位[A];全國語言與符號學(xué)研究會第五屆研討會論文摘要集[C];2002年

9 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認(rèn)[A];第十一屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集（二）[C];2011年

10 何磊;方棣棠;吳文虎;;說話人聚類與模型自適應(yīng)結(jié)合的說話人自適應(yīng)方法[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2001年

相關(guān)重要報紙文章前3條

1 ;做一名積極的傾聽者[N];中國紡織報;2003年

2 唐志強;不聽別人說話,也能模仿其口音[N];新華每日電訊;2010年

3 黃惠慧（南京師范大學(xué)附屬揚子中學(xué)）;高考聽力要求及對策[N];中國教育資訊報;2002年

相關(guān)博士學(xué)位論文前10條

1 李洪儒;語句中的說話人形象[D];黑龍江大學(xué);2003年

2 李威;多人會話語音中的說話人角色分析[D];華南理工大學(xué);2015年

3 楊繼臣;說話人信息分析及其在多媒體檢索中的應(yīng)用研究[D];華南理工大學(xué);2010年

4 鄭建煒;基于核方法的說話人辨認(rèn)模型研究[D];浙江工業(yè)大學(xué);2010年

5 呂聲;說話人轉(zhuǎn)換方法的研究[D];華南理工大學(xué);2004年

6 陳凌輝;說話人轉(zhuǎn)換建模方法研究[D];中國科學(xué)技術(shù)大學(xué);2013年

7 玄成君;基于語音頻率特性抑制音素影響的說話人特征提取[D];天津大學(xué);2014年

8 李燕萍;說話人辨認(rèn)中的特征參數(shù)提取和魯棒性技術(shù)研究[D];南京理工大學(xué);2009年

9 徐利敏;說話人辨認(rèn)中的特征變換和魯棒性技術(shù)研究[D];南京理工大學(xué);2008年

10 王堅;語音識別中的說話人自適應(yīng)研究[D];北京郵電大學(xué);2007年

相關(guān)碩士學(xué)位論文前10條

1 楊浩;基于廣義音素的文本無關(guān)說話人認(rèn)證的研究[D];北京郵電大學(xué);2008年

2 史夢潔;構(gòu)式“沒有比X更Y的（了）”研究[D];上海師范大學(xué);2015年

3 魏君;“說你什么好”的多角度研究[D];河北大學(xué);2015年

4 解冬悅;互動韻律：英語多人沖突性話語中說話人的首音模式研究[D];大連外國語大學(xué);2015年

5 朱韋巍;揚州街上話語氣詞研究[D];南京林業(yè)大學(xué);2015年

6 蔣博;特定目標(biāo)說話人的語音轉(zhuǎn)換系統(tǒng)設(shè)計[D];電子科技大學(xué);2015年

7 王雅丹;漢語反語研究[D];南昌大學(xué);2015年

8 陳雨鶯;基于EMD的說話人特征參數(shù)提取方法研究[D];湘潭大學(xué);2015年

9 單燕燕;變音環(huán)境下魯棒性說話人辨認(rèn)關(guān)鍵技術(shù)研究[D];南京郵電大學(xué);2015年

10 陳sネ，

本文編號：1338204

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xixikjs/1338204.html

上一篇：基于機(jī)器視覺的扁彈簧在線分類及質(zhì)量檢測
下一篇：基于社交媒體的檔案信息服務(wù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Kinect的特定說話人跟蹤系統(tǒng)的研究與實現(xiàn)