基于Raspberry Pi的語音傳輸及識別系統(tǒng)的設計與實現(xiàn)
發(fā)布時間:2022-02-18 15:54
以人類語言和計算機進行交互一直是近幾十年自動語音識別(Automatic Speech Recognition,ASR)研究的主要方向。20世紀下半葉,各種ASR技術如雨后春筍應運而生,例如:梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)、高斯混合模型(Gaussian Mixture Model,GMM)、隱馬爾科夫模型(Hidden Markov Model,HMM)等。這些理論與技術的提出為ASR發(fā)展帶來很好的契機。在21世紀的第二個十年里,由于移動終端的普及,ASR又迎來了研究的高潮,各種新技術、新模型被提出并應用于實踐。為了降低系統(tǒng)的成本,方便攜帶、安裝以及配置,本文基于樹莓派(Raspberry Pi)設計一種語音傳輸識別系統(tǒng),可以對火車站的廣播語音實現(xiàn)采集、傳輸和識別功能。本文設計的ASR系統(tǒng)避免傳統(tǒng)語音采集傳輸設備體積大、成本高、工作量大等問題,還可以遠程終端連接,從而更加靈活方便地修改系統(tǒng)配置。本系統(tǒng)包括軟件和硬件兩個部分。其中,硬件由Raspberry Pi、拾音器等構(gòu)成,主要實現(xiàn)語音的采集功能。軟件方面則分為兩...
【文章來源】:山西大學山西省
【文章頁數(shù)】:82 頁
【學位級別】:碩士
【部分圖文】:
ASR的主要流程
因此需要對其進行 AD 轉(zhuǎn)換,將其轉(zhuǎn)化 1-4000Hz,在本文設計系統(tǒng)中,根據(jù)奈奎斯特采樣本文中采用的語音采集是利用拾音器和 Raspberry Pi 音頻信號的采集、傳輸?shù)裙δ。的預加重預處理的一種手段,其目的是減輕口唇輻射對音頻的率。因為在 800Hz 以上的高頻端,音頻會以 6dB/oc的高頻部分進行加重,以此補償衰減。高通濾波器(HPF)來實現(xiàn)音頻信號預加重,傳遞函1()1 H Z Z中, 為濾波系數(shù),且 [ 0.9,1],通常取 0.9735。頻(AFR)相頻(PFR)曲線變化如圖 2.2。
??Raspberry Pi 的語音傳輸及識別系統(tǒng)的設計與實現(xiàn)8圖 2.3 展示了初始信號與經(jīng)過 HPF 后的音頻信號樣點數(shù)的變化圖 2.3 初始音頻信號與經(jīng) HPF 后的音頻信號樣點數(shù)變化圖 2.4 展示了初始信號與經(jīng)過 HPF 的信號幅度的變化。圖 2.4 信號與經(jīng)過 HPF 后的語音信號幅度對比2.3.3 語音信號的加窗分幀雖然音頻信號具有時變特性,但是一般認為在 10~30ms 內(nèi),音頻信號的特性會保持相對穩(wěn)定。利用這個特性,我們可以對音頻信號進行分幀,即將一段音頻信號劃分為若干個 10~30ms 的音頻片段。分幀一般采用交疊分段的方法,以確保各幀之間平穩(wěn)過渡。幀移指的是各相鄰兩幀間的交疊重復部分。幀移與幀長的比率通常為
【參考文獻】:
期刊論文
[1]幾種語音識別特征參數(shù)的研究[J]. 劉雅琴,智愛娟. 計算機技術與發(fā)展. 2009(12)
[2]語音信號的預處理和特征提取技術[J]. 張節(jié). 電腦知識與技術. 2009(22)
[3]語音識別技術的發(fā)展現(xiàn)狀及應用前景[J]. 高新濤,陳乖麗. 甘肅科技縱橫. 2007(04)
[4]語音識別關鍵技術研究[J]. 息曉靜,林坤輝,周昌樂,蔡駿. 計算機工程與應用. 2006(11)
[5]基于ANN的漢語數(shù)字語音識別[J]. 張保軒,邵獻之. 山東電子. 1995(01)
碩士論文
[1]語音信號端點檢測算法的研究[D]. 邢立釗.鄭州大學 2016
[2]基于HMM的語音識別系統(tǒng)的研究與實現(xiàn)[D]. 崔天宇.吉林大學 2016
[3]語音識別關鍵技術研究及系統(tǒng)實現(xiàn)[D]. 黃文龍.重慶大學 2010
[4]基于HMM和ANN的語音識別算法研究[D]. 徐曉娜.長春理工大學 2009
[5]基于人耳聽覺特性的語音特征提取研究[D]. 方鶴鶴.西北大學 2006
本文編號:3631116
【文章來源】:山西大學山西省
【文章頁數(shù)】:82 頁
【學位級別】:碩士
【部分圖文】:
ASR的主要流程
因此需要對其進行 AD 轉(zhuǎn)換,將其轉(zhuǎn)化 1-4000Hz,在本文設計系統(tǒng)中,根據(jù)奈奎斯特采樣本文中采用的語音采集是利用拾音器和 Raspberry Pi 音頻信號的采集、傳輸?shù)裙δ。的預加重預處理的一種手段,其目的是減輕口唇輻射對音頻的率。因為在 800Hz 以上的高頻端,音頻會以 6dB/oc的高頻部分進行加重,以此補償衰減。高通濾波器(HPF)來實現(xiàn)音頻信號預加重,傳遞函1()1 H Z Z中, 為濾波系數(shù),且 [ 0.9,1],通常取 0.9735。頻(AFR)相頻(PFR)曲線變化如圖 2.2。
??Raspberry Pi 的語音傳輸及識別系統(tǒng)的設計與實現(xiàn)8圖 2.3 展示了初始信號與經(jīng)過 HPF 后的音頻信號樣點數(shù)的變化圖 2.3 初始音頻信號與經(jīng) HPF 后的音頻信號樣點數(shù)變化圖 2.4 展示了初始信號與經(jīng)過 HPF 的信號幅度的變化。圖 2.4 信號與經(jīng)過 HPF 后的語音信號幅度對比2.3.3 語音信號的加窗分幀雖然音頻信號具有時變特性,但是一般認為在 10~30ms 內(nèi),音頻信號的特性會保持相對穩(wěn)定。利用這個特性,我們可以對音頻信號進行分幀,即將一段音頻信號劃分為若干個 10~30ms 的音頻片段。分幀一般采用交疊分段的方法,以確保各幀之間平穩(wěn)過渡。幀移指的是各相鄰兩幀間的交疊重復部分。幀移與幀長的比率通常為
【參考文獻】:
期刊論文
[1]幾種語音識別特征參數(shù)的研究[J]. 劉雅琴,智愛娟. 計算機技術與發(fā)展. 2009(12)
[2]語音信號的預處理和特征提取技術[J]. 張節(jié). 電腦知識與技術. 2009(22)
[3]語音識別技術的發(fā)展現(xiàn)狀及應用前景[J]. 高新濤,陳乖麗. 甘肅科技縱橫. 2007(04)
[4]語音識別關鍵技術研究[J]. 息曉靜,林坤輝,周昌樂,蔡駿. 計算機工程與應用. 2006(11)
[5]基于ANN的漢語數(shù)字語音識別[J]. 張保軒,邵獻之. 山東電子. 1995(01)
碩士論文
[1]語音信號端點檢測算法的研究[D]. 邢立釗.鄭州大學 2016
[2]基于HMM的語音識別系統(tǒng)的研究與實現(xiàn)[D]. 崔天宇.吉林大學 2016
[3]語音識別關鍵技術研究及系統(tǒng)實現(xiàn)[D]. 黃文龍.重慶大學 2010
[4]基于HMM和ANN的語音識別算法研究[D]. 徐曉娜.長春理工大學 2009
[5]基于人耳聽覺特性的語音特征提取研究[D]. 方鶴鶴.西北大學 2006
本文編號:3631116
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3631116.html
最近更新
教材專著