語音識(shí)別技術(shù)在智能審計(jì)中的運(yùn)用初探
發(fā)布時(shí)間:2021-12-16 05:01
本文從人工智能領(lǐng)域及其中語音識(shí)別技術(shù)的發(fā)展背景與應(yīng)用情況入手,結(jié)合非結(jié)構(gòu)化數(shù)據(jù),分析闡述現(xiàn)有語音識(shí)別技術(shù)基礎(chǔ)模型及特點(diǎn),探析語音識(shí)別技術(shù)在商業(yè)銀行智能審計(jì)領(lǐng)域運(yùn)用的可能性。
【文章來源】:中國(guó)內(nèi)部審計(jì). 2020,(01)
【文章頁數(shù)】:7 頁
【部分圖文】:
批量PCM轉(zhuǎn)換
3.識(shí)別工具的語音識(shí)別模塊采用百度人工智能開放平臺(tái)中的語音識(shí)別引擎進(jìn)行語音識(shí)別,該引擎在希爾貝殼中文普通話開源語音語料庫(kù)的基礎(chǔ)上訓(xùn)練并提供調(diào)用接口,在經(jīng)過了DNN等當(dāng)代流行的語音識(shí)別模型的數(shù)年迭代發(fā)展后,已達(dá)到很好的識(shí)別效果。在自研識(shí)別工具中選中需要識(shí)別的PCM文件,即可對(duì)單個(gè)語音音頻進(jìn)行識(shí)別,識(shí)別速度較快,識(shí)別率在可接受范圍內(nèi),并且可以對(duì)識(shí)別的結(jié)果進(jìn)行半結(jié)構(gòu)化的文本文件保存,如圖4所示。此外,識(shí)別工具支持批量PCM音頻文件的識(shí)別,并在批量識(shí)別完成后自動(dòng)將每個(gè)語音文件對(duì)應(yīng)的識(shí)別結(jié)果在特定的目錄中保存為相應(yīng)的半結(jié)構(gòu)化文本文件,以供后續(xù)分析處理,如圖5所示。圖5 語音識(shí)別批量識(shí)別
2.在識(shí)別工具的音頻識(shí)別模塊中對(duì)轉(zhuǎn)換好的PCM文件進(jìn)行語音活動(dòng)檢測(cè)(Voice Activity Detection,VAD)切分。在切分前因“雙錄”錄音含有客戶敏感信息故采用Audition軟件人工截去客戶敏感信息。由于語音識(shí)別底層引擎并非直接對(duì)任意時(shí)長(zhǎng)的語音進(jìn)行識(shí)別,而是對(duì)數(shù)十秒內(nèi)的語音段進(jìn)行識(shí)別,所以需要對(duì)長(zhǎng)段語音進(jìn)行切分。而語音活動(dòng)檢測(cè)就是對(duì)語音端點(diǎn)(語音邊界)進(jìn)行檢測(cè)的技術(shù),即在語音的靜音處進(jìn)行截?cái)。筆者自研的識(shí)別工具語音活動(dòng)檢測(cè)模塊采用的是Google開源音視頻流項(xiàng)目WebRTC中的語音活動(dòng)檢測(cè)函數(shù)模塊,主要思路是對(duì)音頻的每一幀計(jì)算其高斯概率分布并以此判斷該幀是靜音還是有語音存在,進(jìn)而在連續(xù)靜音后遇到語音的幀之前或連續(xù)語音后遇到靜音的幀之后進(jìn)行切分,以此完成對(duì)長(zhǎng)段語音的切分。語音活動(dòng)檢測(cè)模塊將切分好的小段語音音頻提供給音頻識(shí)別引擎進(jìn)行識(shí)別。圖3 批量PCM轉(zhuǎn)換
【參考文獻(xiàn)】:
期刊論文
[1]基于OCR的審計(jì)技術(shù)創(chuàng)新與實(shí)現(xiàn)[J]. 汪莉,葉健彪. 中國(guó)內(nèi)部審計(jì). 2019(04)
碩士論文
[1]基于DNN的語言識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D]. 呂赫.電子科技大學(xué) 2017
本文編號(hào):3537533
【文章來源】:中國(guó)內(nèi)部審計(jì). 2020,(01)
【文章頁數(shù)】:7 頁
【部分圖文】:
批量PCM轉(zhuǎn)換
3.識(shí)別工具的語音識(shí)別模塊采用百度人工智能開放平臺(tái)中的語音識(shí)別引擎進(jìn)行語音識(shí)別,該引擎在希爾貝殼中文普通話開源語音語料庫(kù)的基礎(chǔ)上訓(xùn)練并提供調(diào)用接口,在經(jīng)過了DNN等當(dāng)代流行的語音識(shí)別模型的數(shù)年迭代發(fā)展后,已達(dá)到很好的識(shí)別效果。在自研識(shí)別工具中選中需要識(shí)別的PCM文件,即可對(duì)單個(gè)語音音頻進(jìn)行識(shí)別,識(shí)別速度較快,識(shí)別率在可接受范圍內(nèi),并且可以對(duì)識(shí)別的結(jié)果進(jìn)行半結(jié)構(gòu)化的文本文件保存,如圖4所示。此外,識(shí)別工具支持批量PCM音頻文件的識(shí)別,并在批量識(shí)別完成后自動(dòng)將每個(gè)語音文件對(duì)應(yīng)的識(shí)別結(jié)果在特定的目錄中保存為相應(yīng)的半結(jié)構(gòu)化文本文件,以供后續(xù)分析處理,如圖5所示。圖5 語音識(shí)別批量識(shí)別
2.在識(shí)別工具的音頻識(shí)別模塊中對(duì)轉(zhuǎn)換好的PCM文件進(jìn)行語音活動(dòng)檢測(cè)(Voice Activity Detection,VAD)切分。在切分前因“雙錄”錄音含有客戶敏感信息故采用Audition軟件人工截去客戶敏感信息。由于語音識(shí)別底層引擎并非直接對(duì)任意時(shí)長(zhǎng)的語音進(jìn)行識(shí)別,而是對(duì)數(shù)十秒內(nèi)的語音段進(jìn)行識(shí)別,所以需要對(duì)長(zhǎng)段語音進(jìn)行切分。而語音活動(dòng)檢測(cè)就是對(duì)語音端點(diǎn)(語音邊界)進(jìn)行檢測(cè)的技術(shù),即在語音的靜音處進(jìn)行截?cái)。筆者自研的識(shí)別工具語音活動(dòng)檢測(cè)模塊采用的是Google開源音視頻流項(xiàng)目WebRTC中的語音活動(dòng)檢測(cè)函數(shù)模塊,主要思路是對(duì)音頻的每一幀計(jì)算其高斯概率分布并以此判斷該幀是靜音還是有語音存在,進(jìn)而在連續(xù)靜音后遇到語音的幀之前或連續(xù)語音后遇到靜音的幀之后進(jìn)行切分,以此完成對(duì)長(zhǎng)段語音的切分。語音活動(dòng)檢測(cè)模塊將切分好的小段語音音頻提供給音頻識(shí)別引擎進(jìn)行識(shí)別。圖3 批量PCM轉(zhuǎn)換
【參考文獻(xiàn)】:
期刊論文
[1]基于OCR的審計(jì)技術(shù)創(chuàng)新與實(shí)現(xiàn)[J]. 汪莉,葉健彪. 中國(guó)內(nèi)部審計(jì). 2019(04)
碩士論文
[1]基于DNN的語言識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D]. 呂赫.電子科技大學(xué) 2017
本文編號(hào):3537533
本文鏈接:http://sikaile.net/jingjilunwen/sjlw/3537533.html
最近更新
教材專著