深度學(xué)習(xí)驅(qū)動的基于智能手表的手語翻譯系統(tǒng)
發(fā)布時間:2021-07-08 14:18
手語是聽力及語言障礙人群廣泛使用的功能全面,結(jié)構(gòu)復(fù)雜的交流語言。而普通人群對手語缺乏了解,這導(dǎo)致聽力及語言障礙群體與外部群體群在巨大的溝通障礙,F(xiàn)有手語研究受限于感知設(shè)備、系統(tǒng)價格、識別精度、計算時間和電量消耗等方面而無法提供實時的,可靠的、低成本的、便攜且適應(yīng)日常使用場景的手語識別服務(wù)。考慮到當(dāng)前以智能手表為代表的智能可穿戴設(shè)備的計算能力、感知能力大大提升,出貨量快速增長的同時價格越來越低。本文提出并實現(xiàn)了一種基于智能手表的深度學(xué)習(xí)驅(qū)動的手語識別系統(tǒng)。該系統(tǒng)包括數(shù)據(jù)采集系統(tǒng),離線的模型訓(xùn)練系統(tǒng)和部署在由智能手機和智能手表構(gòu)成的硬件系統(tǒng)上的實時推斷子系統(tǒng)。該系統(tǒng)的智能手表程序采集手表內(nèi)置的運動傳感器數(shù)據(jù)獲取手語信息,智能手機端APP加載離線訓(xùn)練好的模型,并將手語數(shù)據(jù)翻譯為文本,再使用TTS(文本-語音轉(zhuǎn)換)系統(tǒng)轉(zhuǎn)換為語音。本文首先采集了手勢數(shù)據(jù)集,手勢識別模型在該數(shù)據(jù)集上平均識別率達到96%%,可以證明佩戴在手腕的智能手表可以感知足夠的手指以及手形的變化信息用以分類。本文創(chuàng)建了包含103個單詞,73個常用語句,11680個語句樣本的大規(guī)模手語數(shù)據(jù)集。本文提出了一系列針對手語感知數(shù)據(jù)的預(yù)...
【文章來源】:中國科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
手語字母
語識別系統(tǒng)是可行的。??盡管每個手語單詞都有自己的特點,但存在一些手勢的大部分軌跡非常相??似,只是在動作的結(jié)束部分有所區(qū)別。例如圖2.2所示,單詞WHAT與WANT的??開始的動作軌跡相同,只在最后手掌的運動方向有區(qū)別。由于基于傳統(tǒng)的單向循??環(huán)神經(jīng)網(wǎng)絡(luò)只單向地基于數(shù)據(jù)序列中過去的數(shù)據(jù)來對當(dāng)前信號進行推理,對于??這種“前綴”相同的手語動作的識別系統(tǒng)是一種挑戰(zhàn)。因此需要一種神經(jīng)網(wǎng)絡(luò)結(jié)??構(gòu)能夠根據(jù)整個手語動作軌跡來進行手語翻譯。??此外,為正確地表達手語,在美式手語系統(tǒng)中存在一些非手部符號,需要使??用多種面部表情[38,41]。例如,手語單詞“NOT-YET”與“LATE”需要使用非手??部符號來辨識,因為這兩個單詞無論手形、動作還是手部位置完全相同。在此項??基于智能手表的手語翻譯系統(tǒng)研宄中,暫時未考慮非手部符號的識別,而將其作??為開放問題留作下一步的研宄。??2.1.2.句子級別的手語??Grosjean等分析了在連續(xù)做手語交流時的停頓,發(fā)現(xiàn)一段話結(jié)束后存在??一個標(biāo)志性的長停頓
2.2.1.雙向?LSTM??上述RNN網(wǎng)絡(luò)只包含一個隱藏層,且只能挖掘單向的上下文信息,所以用單向RNN進行推斷時,在任意時刻只能根據(jù)過去的信息來推斷輸出結(jié)果。在手語識別的場景中,因為一些手語單詞具有非常相似的起手動作,單向神經(jīng)絡(luò)無法有效挖掘全部傳感數(shù)據(jù)的上下文依賴關(guān)系。為應(yīng)對這種挑戰(zhàn),本文提出用雙向LSTM?(Bidirectional?LSTM,B-LSTM)來作為構(gòu)建本系統(tǒng)神經(jīng)網(wǎng)絡(luò)模的基本單元。如圖2.4所示,雙向LSTM網(wǎng)絡(luò)的結(jié)構(gòu)包含兩個獨立的循環(huán)神經(jīng)網(wǎng)??絡(luò)隱藏層;前向隱藏層和后向隱藏層。經(jīng)過訓(xùn)練,該網(wǎng)絡(luò)模型在可以使用雙向上下文信息進行推理,因此可以更好地處理復(fù)雜時間序列數(shù)據(jù)。??2.2.2.?SRU??
【參考文獻】:
期刊論文
[1]第二次全國殘疾人抽樣調(diào)查最新數(shù)據(jù)公報[J]. 薛靜. 中國聽力語言康復(fù)科學(xué). 2007(01)
本文編號:3271734
【文章來源】:中國科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
手語字母
語識別系統(tǒng)是可行的。??盡管每個手語單詞都有自己的特點,但存在一些手勢的大部分軌跡非常相??似,只是在動作的結(jié)束部分有所區(qū)別。例如圖2.2所示,單詞WHAT與WANT的??開始的動作軌跡相同,只在最后手掌的運動方向有區(qū)別。由于基于傳統(tǒng)的單向循??環(huán)神經(jīng)網(wǎng)絡(luò)只單向地基于數(shù)據(jù)序列中過去的數(shù)據(jù)來對當(dāng)前信號進行推理,對于??這種“前綴”相同的手語動作的識別系統(tǒng)是一種挑戰(zhàn)。因此需要一種神經(jīng)網(wǎng)絡(luò)結(jié)??構(gòu)能夠根據(jù)整個手語動作軌跡來進行手語翻譯。??此外,為正確地表達手語,在美式手語系統(tǒng)中存在一些非手部符號,需要使??用多種面部表情[38,41]。例如,手語單詞“NOT-YET”與“LATE”需要使用非手??部符號來辨識,因為這兩個單詞無論手形、動作還是手部位置完全相同。在此項??基于智能手表的手語翻譯系統(tǒng)研宄中,暫時未考慮非手部符號的識別,而將其作??為開放問題留作下一步的研宄。??2.1.2.句子級別的手語??Grosjean等分析了在連續(xù)做手語交流時的停頓,發(fā)現(xiàn)一段話結(jié)束后存在??一個標(biāo)志性的長停頓
2.2.1.雙向?LSTM??上述RNN網(wǎng)絡(luò)只包含一個隱藏層,且只能挖掘單向的上下文信息,所以用單向RNN進行推斷時,在任意時刻只能根據(jù)過去的信息來推斷輸出結(jié)果。在手語識別的場景中,因為一些手語單詞具有非常相似的起手動作,單向神經(jīng)絡(luò)無法有效挖掘全部傳感數(shù)據(jù)的上下文依賴關(guān)系。為應(yīng)對這種挑戰(zhàn),本文提出用雙向LSTM?(Bidirectional?LSTM,B-LSTM)來作為構(gòu)建本系統(tǒng)神經(jīng)網(wǎng)絡(luò)模的基本單元。如圖2.4所示,雙向LSTM網(wǎng)絡(luò)的結(jié)構(gòu)包含兩個獨立的循環(huán)神經(jīng)網(wǎng)??絡(luò)隱藏層;前向隱藏層和后向隱藏層。經(jīng)過訓(xùn)練,該網(wǎng)絡(luò)模型在可以使用雙向上下文信息進行推理,因此可以更好地處理復(fù)雜時間序列數(shù)據(jù)。??2.2.2.?SRU??
【參考文獻】:
期刊論文
[1]第二次全國殘疾人抽樣調(diào)查最新數(shù)據(jù)公報[J]. 薛靜. 中國聽力語言康復(fù)科學(xué). 2007(01)
本文編號:3271734
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3271734.html
最近更新
教材專著