基于深度學(xué)習(xí)的語(yǔ)音重播攻擊檢測(cè)
發(fā)布時(shí)間:2022-02-09 07:35
重播他人語(yǔ)音以冒充他人身份會(huì)為社會(huì)安全帶來(lái)嚴(yán)重威脅。已有的研究及實(shí)踐均證明目前的說(shuō)話人識(shí)別系統(tǒng)(Automatic Speaker Recognition,ASR)很難抵抗重播攻擊。同時(shí),這種攻擊方式還具有便捷低廉的特點(diǎn)。因此,語(yǔ)音重播攻擊相關(guān)的安全問(wèn)題研究具有重要的現(xiàn)實(shí)意義。然而,目前此類研究仍然相對(duì)較少,并且一般集中于利用傳統(tǒng)的信號(hào)處理方法進(jìn)行重播語(yǔ)音檢測(cè),其特征提取較為復(fù)雜且不穩(wěn)定,具有較大的局限性。為此,本文在數(shù)據(jù)智能驅(qū)動(dòng)下的深度學(xué)習(xí)框架內(nèi)對(duì)語(yǔ)音重播攻擊的檢測(cè)算法進(jìn)行研究,旨在有效區(qū)分重播語(yǔ)音和原始語(yǔ)音。具體內(nèi)容如下:1.提出基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型的語(yǔ)音重播攻擊檢測(cè)算法。所提出的網(wǎng)絡(luò)結(jié)構(gòu)依據(jù)語(yǔ)音信號(hào)的時(shí)頻特征進(jìn)行特殊設(shè)計(jì),與時(shí)頻圖的特征分布特點(diǎn)高度契合,能將訓(xùn)練參數(shù)分配到更合理的地方,從而能使用更有效的特征來(lái)訓(xùn)練更緊湊的參數(shù),因而大大降低了模型過(guò)擬合風(fēng)險(xiǎn)。同時(shí),由于已有的算法通常缺乏通用性,即沒(méi)有考慮對(duì)抗不同錄音場(chǎng)景的魯棒性,本文針對(duì)不同的說(shuō)話人、不同的文本內(nèi)容、不同的錄制設(shè)備及不同的錄制距離等核心影響因子進(jìn)行系...
【文章來(lái)源】:廣東技術(shù)師范大學(xué)廣東省
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
語(yǔ)音特征提取過(guò)程
圖 2-3 語(yǔ)音信號(hào)預(yù)加重前后的頻譜Fig.2-3 The spectrum before and after pre-emphasis.3 加窗語(yǔ)音信號(hào)的特性如振幅、頻率常常隨著時(shí)間改變,是一種非平穩(wěn)信號(hào)。但在短0~30 毫秒)內(nèi)信號(hào)參數(shù)變化相對(duì)很小,可以認(rèn)為是平穩(wěn)的,這稱為語(yǔ)音的短時(shí)加窗的目的就是將語(yǔ)音信號(hào)分為很多個(gè)短時(shí)段,每一個(gè)短時(shí)段稱為一幀,在每以認(rèn)為語(yǔ)音是平穩(wěn)的,分幀是通過(guò)窗函數(shù)來(lái)進(jìn)行,如式(2-2)。 mnQ Tx( m)w(nm)(常用的窗函數(shù)有:(1)矩形窗 ,101()nNw n(
圖 2-4 窗函數(shù)形狀Fig.2-4 Shapes of window functions2.2.4 語(yǔ)音重錄過(guò)程簡(jiǎn)介語(yǔ)音重錄過(guò)程如圖 2-5 所示。語(yǔ)音重錄包含三個(gè)步驟:原始語(yǔ)音通過(guò)設(shè)備播過(guò)空氣傳播,最后再由錄音設(shè)備錄制。其中經(jīng)歷的變換過(guò)程包括:D/A 轉(zhuǎn)換,模(空氣)傳播,A/D 轉(zhuǎn)換。重錄導(dǎo)致語(yǔ)音數(shù)據(jù)一定程度的失真,此失真包括幅度時(shí)間軸上的線性伸縮,主要由 DA/AD 變換時(shí)采用的設(shè)備、錄制環(huán)境及錄制距離等成。幅度失真包含能量的變化以及引入的噪聲,線性伸縮的大小由重錄過(guò)程中使件如聲卡以及采用的采樣率等決定。失真模型可表示為公式(2-6)。 (n) () nx xx (n)、 x (n)是是重錄語(yǔ)音與原始語(yǔ)音的 n 個(gè)樣本, 是幅值變換因子, 是線性伸縮因子, 是疊加線性噪聲。
【參考文獻(xiàn)】:
期刊論文
[1]基于i-vector和深度學(xué)習(xí)的說(shuō)話人識(shí)別[J]. 林舒都,邵曦. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(06)
[2]基于重組超矢量的GMM-SVM說(shuō)話人辨認(rèn)系統(tǒng)[J]. 歐國(guó)振,孫林慧,薛海雙. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(07)
[3]基于DTW模型補(bǔ)償?shù)膫窝b語(yǔ)音說(shuō)話人識(shí)別研究[J]. 李燕萍,陶定元,林樂(lè). 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(01)
本文編號(hào):3616618
【文章來(lái)源】:廣東技術(shù)師范大學(xué)廣東省
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
語(yǔ)音特征提取過(guò)程
圖 2-3 語(yǔ)音信號(hào)預(yù)加重前后的頻譜Fig.2-3 The spectrum before and after pre-emphasis.3 加窗語(yǔ)音信號(hào)的特性如振幅、頻率常常隨著時(shí)間改變,是一種非平穩(wěn)信號(hào)。但在短0~30 毫秒)內(nèi)信號(hào)參數(shù)變化相對(duì)很小,可以認(rèn)為是平穩(wěn)的,這稱為語(yǔ)音的短時(shí)加窗的目的就是將語(yǔ)音信號(hào)分為很多個(gè)短時(shí)段,每一個(gè)短時(shí)段稱為一幀,在每以認(rèn)為語(yǔ)音是平穩(wěn)的,分幀是通過(guò)窗函數(shù)來(lái)進(jìn)行,如式(2-2)。 mnQ Tx( m)w(nm)(常用的窗函數(shù)有:(1)矩形窗 ,101()nNw n(
圖 2-4 窗函數(shù)形狀Fig.2-4 Shapes of window functions2.2.4 語(yǔ)音重錄過(guò)程簡(jiǎn)介語(yǔ)音重錄過(guò)程如圖 2-5 所示。語(yǔ)音重錄包含三個(gè)步驟:原始語(yǔ)音通過(guò)設(shè)備播過(guò)空氣傳播,最后再由錄音設(shè)備錄制。其中經(jīng)歷的變換過(guò)程包括:D/A 轉(zhuǎn)換,模(空氣)傳播,A/D 轉(zhuǎn)換。重錄導(dǎo)致語(yǔ)音數(shù)據(jù)一定程度的失真,此失真包括幅度時(shí)間軸上的線性伸縮,主要由 DA/AD 變換時(shí)采用的設(shè)備、錄制環(huán)境及錄制距離等成。幅度失真包含能量的變化以及引入的噪聲,線性伸縮的大小由重錄過(guò)程中使件如聲卡以及采用的采樣率等決定。失真模型可表示為公式(2-6)。 (n) () nx xx (n)、 x (n)是是重錄語(yǔ)音與原始語(yǔ)音的 n 個(gè)樣本, 是幅值變換因子, 是線性伸縮因子, 是疊加線性噪聲。
【參考文獻(xiàn)】:
期刊論文
[1]基于i-vector和深度學(xué)習(xí)的說(shuō)話人識(shí)別[J]. 林舒都,邵曦. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(06)
[2]基于重組超矢量的GMM-SVM說(shuō)話人辨認(rèn)系統(tǒng)[J]. 歐國(guó)振,孫林慧,薛海雙. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(07)
[3]基于DTW模型補(bǔ)償?shù)膫窝b語(yǔ)音說(shuō)話人識(shí)別研究[J]. 李燕萍,陶定元,林樂(lè). 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(01)
本文編號(hào):3616618
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3616618.html
最近更新
教材專著