利用拼音特征的深度學習文本分類模型
本文選題:文本分類 + 意圖理解。 參考:《高技術(shù)通訊》2017年07期
【摘要】:針對人-機器人語音交互中經(jīng)過語音識別的文本指令,提出了一種利用漢語拼音中聲韻母作為特征的深度學習文本分類模型。首先,以無人駕駛車語音導航控制為人機交互的應用背景,分析其文本指令結(jié)構(gòu)并分別構(gòu)建單一意圖與復雜意圖語料庫;其次,在以字符作為文本分類特征的基礎上,結(jié)合漢語拼音與英文單詞的區(qū)別,提出了一種利用拼音聲韻母字符作為中文文本分類的特征表示方法;然后,用門控遞歸單元(GRU)代替?zhèn)鹘y(tǒng)遞歸神經(jīng)網(wǎng)絡單元以解決其難以捕獲長時間維度特征的不足,為提取信息的高階特征、縮短特征序列長度并加快模型收斂速度,建立了一種結(jié)合卷積神經(jīng)網(wǎng)絡及GRU遞歸神經(jīng)網(wǎng)絡的深度學習文本分類模型。最后,為驗證模型在處理長、短序列任務上的表現(xiàn),在上述兩個語料庫上對提出的模型分別進行十折交叉測試,并與其他分類方法進行比較與分析,結(jié)果表明該模型顯著地提高了分類準確率。
[Abstract]:In this paper, a deep learning text classification model based on phonetic mother in Chinese pinyin is proposed for the text instruction of speech recognition in human-robot speech interaction. Firstly, the structure of text instruction is analyzed and the corpus of single intention and complex intention is constructed based on the application background of man-machine interaction based on the voice navigation control of driverless vehicle. Secondly, on the basis of the character as the text classification feature, the structure of the text instruction structure is analyzed and the corpus of single intention and complex intention is constructed separately. Combined with the difference between Chinese phonetic alphabet and English words, this paper proposes a method of feature representation of Chinese text classification by using phonetic rhyme characters as Chinese text classification. In order to extract the high order feature of information, shorten the length of feature sequence and speed up the convergence of model, grub is used to replace the traditional recursive neural network unit to solve the problem that it is difficult to capture the feature of long time dimension. An in-depth learning text classification model combining convolution neural network and GRU recurrent neural network is established. Finally, in order to verify the performance of the model in processing long and short sequence tasks, the proposed models are tested on the above two corpora, and compared with other classification methods. The results show that the classification accuracy of the model is improved significantly.
【作者單位】: 上海交通大學自動化系系統(tǒng)控制與信息處理教育部重點實驗室;上海交通大學人文學院;上海交通大學安泰經(jīng)濟與管理學院;
【基金】:國家自然科學基金(91646205)資助項目
【分類號】:TP18;TP391.1
【相似文獻】
相關期刊論文 前6條
1 金仁貴;;帶有偏差單元的遞歸神經(jīng)網(wǎng)絡在故障診斷方面的應用[J];電腦知識與技術(shù);2006年29期
2 宣森炎;龔小謹;劉濟林;;基于聯(lián)合卷積和遞歸神經(jīng)網(wǎng)絡的交通標志識別[J];傳感器與微系統(tǒng);2014年08期
3 覃光華,丁晶;帶偏差單元的遞歸神經(jīng)網(wǎng)絡及其運用[J];人民長江;2002年01期
4 賀志強;馮寅;;長的短時記憶(LSTM)在五聲調(diào)式和聲的應用[J];福建電腦;2007年04期
5 劉章;陳小平;;聯(lián)合無監(jiān)督詞聚類的遞歸神經(jīng)網(wǎng)絡語言模型[J];計算機系統(tǒng)應用;2014年05期
6 陳睿;黃曙光;葉春明;張亮;;基于二維RNN的CAPTCHA識別[J];小型微型計算機系統(tǒng);2014年03期
相關會議論文 前1條
1 蘇彩紅;曾永發(fā);張志飛;吳菁;;一種突觸后抑制遞歸神經(jīng)網(wǎng)絡結(jié)構(gòu)及其在模式識別中的應用[A];第二十六屆中國控制會議論文集[C];2007年
相關博士學位論文 前1條
1 王揚帆;基于偏微分方程的時滯遞歸神經(jīng)網(wǎng)絡的動力分析與多尺度圖像處理研究[D];中國海洋大學;2011年
相關碩士學位論文 前8條
1 李克強;基于Spark的大規(guī)模RNNLM系統(tǒng)[D];江蘇大學;2016年
2 梁軍;基于深度學習的文本特征表示及分類應用[D];鄭州大學;2016年
3 王瑞剛;基于遞歸神經(jīng)網(wǎng)絡的英文手寫輸入法的設計與實現(xiàn)[D];哈爾濱工業(yè)大學;2016年
4 金留可;基于遞歸神經(jīng)網(wǎng)絡的生物醫(yī)學命名實體識別[D];大連理工大學;2016年
5 孫超紅;基于遞歸神經(jīng)網(wǎng)絡的微博情感分類研究[D];浙江理工大學;2017年
6 衛(wèi)曉欣;基于長短型記憶遞歸神經(jīng)網(wǎng)絡的英文手寫識別[D];華南理工大學;2014年
7 崔志超;基于產(chǎn)品特征的中文評論情感分析系統(tǒng)設計與實現(xiàn)[D];河北科技大學;2015年
8 商俊蓓;基于雙向長短時記憶遞歸神經(jīng)網(wǎng)絡的聯(lián)機手寫數(shù)字公式字符識別[D];華南理工大學;2015年
,本文編號:1823860
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1823860.html