基于門循環(huán)單元神經(jīng)網(wǎng)絡(luò)的中文分詞法
本文選題:自然語言處理 + 中文分詞 ; 參考:《廈門大學(xué)學(xué)報(自然科學(xué)版)》2017年02期
【摘要】:目前,學(xué)術(shù)界主流的中文分詞法是基于字符序列標(biāo)注的傳統(tǒng)機(jī)器學(xué)習(xí)方法,該方法存在需要人工定義特征、特征稀疏等問題.隨著深度學(xué)習(xí)的研究和應(yīng)用的興起,研究者提出了將長短時記憶(long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)應(yīng)用于中文分詞任務(wù)的方法,該方法可以自動學(xué)習(xí)特征,并有效建模長距離依賴信息,但是該模型較為復(fù)雜,存在模型訓(xùn)練和預(yù)測時間長的缺陷.針對該問題,提出了基于門循環(huán)單元(gated recurrent unit,GRU)神經(jīng)網(wǎng)絡(luò)的中文分詞法,該方法繼承了LSTM模型可自動學(xué)習(xí)特征、能有效建立長距離依賴信息的優(yōu)點,具有與基于LSTM神經(jīng)網(wǎng)絡(luò)中文分詞法相當(dāng)?shù)男阅?并在速度上有顯著提升.
[Abstract]:At present, the mainstream Chinese word segmentation method in academic circles is a traditional machine learning method based on character sequence tagging. With the development of the research and application of deep learning, researchers put forward a method of applying long short-term memory LSTM neural network to Chinese word segmentation tasks. This method can automatically learn features and effectively model long distance dependent information. However, the model is complex and has the defects of long training and prediction time. In order to solve this problem, a Chinese word segmentation method based on gate loop unit (gated recurrent unit GRU) neural network is proposed. This method inherits the advantages of LSTM model which can automatically learn features and can effectively establish long distance dependent information. It has the same performance as the Chinese word segmentation method based on LSTM neural network, and has a remarkable improvement in speed.
【作者單位】: 廈門大學(xué)軟件學(xué)院;
【基金】:福建省自然科學(xué)基金(2013J01250)
【分類號】:TP391.1;TP183
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 吳春穎;王士同;;基于二元語法的N-最大概率中文粗分模型[J];計算機(jī)應(yīng)用;2007年12期
2 張華平,劉群;基于N-最短路徑方法的中文詞語粗分模型[J];中文信息學(xué)報;2002年05期
3 駱正清,陳增武,胡上序;一種改進(jìn)的MM分詞方法的算法設(shè)計[J];中文信息學(xué)報;1996年03期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李雪蓮;段鴻;許牧;;基于門循環(huán)單元神經(jīng)網(wǎng)絡(luò)的中文分詞法[J];廈門大學(xué)學(xué)報(自然科學(xué)版);2017年02期
2 劉亮亮;曹存根;;中文“非多字詞錯誤”自動校對方法研究[J];計算機(jī)科學(xué);2016年10期
3 朱碧穎;趙爽;;基于市場情緒挖掘的PSM_Black_Litterman資產(chǎn)配置模型[J];時代金融;2016年18期
4 黃鵬;張姝;陳玉華;文斌;;一種基于無監(jiān)督學(xué)習(xí)的交集型歧義處理改進(jìn)方法[J];云南師范大學(xué)學(xué)報(自然科學(xué)版);2015年06期
5 付媛;朱禮軍;韓紅旗;;K最短路徑算法與應(yīng)用分析[J];情報工程;2015年01期
6 郭遠(yuǎn);喻志浩;周蓮英;;輿論智能干預(yù)中詞法分析與匹配的研究與設(shè)計[J];數(shù)據(jù)通信;2014年05期
7 王松;吳亞東;李秋生;蔣宏宇;鄒勇剛;;基于時空分析的微博演化可視化[J];西南科技大學(xué)學(xué)報;2014年03期
8 陶非凡;;基于層疊隱馬模型的屏蔽關(guān)鍵詞研究[J];計算機(jī)技術(shù)與發(fā)展;2014年11期
9 施恒利;劉亮亮;王石;符建輝;張再躍;曹存根;;漢字種子混淆集的構(gòu)建方法研究[J];計算機(jī)科學(xué);2014年08期
10 顧曉雪;章成志;;中文博客標(biāo)簽的聚類及可視化研究[J];情報理論與實踐;2014年07期
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王峰;游志勝;曼麗春;高燕;湯麗萍;;Dijkstra及基于Dijkstra的前N條最短路徑算法在智能交通系統(tǒng)中的應(yīng)用[J];計算機(jī)應(yīng)用研究;2006年09期
2 陳小荷;用基于詞的二元模型消解交集型分詞歧義[J];南京師大學(xué)報(社會科學(xué)版);2004年06期
3 萬建成,楊春花;書面漢語的全切分分詞算法模型[J];小型微型計算機(jī)系統(tǒng);2003年07期
4 馮書曉,徐新,楊春梅;國內(nèi)中文分詞技術(shù)研究新進(jìn)展[J];情報雜志;2002年11期
5 張華平,劉群;基于N-最短路徑方法的中文詞語粗分模型[J];中文信息學(xué)報;2002年05期
6 李家福,張亞非;基于EM算法的漢語自動分詞方法[J];情報學(xué)報;2002年03期
7 吳應(yīng)良,韋崗,李海洲;一種基于N-gram模型和機(jī)器學(xué)習(xí)的漢語分詞算法[J];電子與信息學(xué)報;2001年11期
8 周強(qiáng);規(guī)則和統(tǒng)計相結(jié)合的漢語詞類標(biāo)注方法[J];中文信息學(xué)報;1995年03期
9 張國煊,王小華,周必水;快速書面漢語自動分詞系統(tǒng)及其算法設(shè)計[J];計算機(jī)研究與發(fā)展;1993年01期
10 揭春雨,劉源,梁南元;漢語自動分詞實用系統(tǒng)CASS的設(shè)計和實現(xiàn)[J];中文信息學(xué)報;1991年04期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張茂元,盧正鼎,鄒春燕;一種基于語境的中文分詞方法研究[J];小型微型計算機(jī)系統(tǒng);2005年01期
2 程傳鵬;;一種簡單高效的中文分詞方法[J];鄭州輕工業(yè)學(xué)院學(xué)報;2006年03期
3 張博;姜建國;萬平國;;對互聯(lián)網(wǎng)環(huán)境下中文分詞系統(tǒng)的一種架構(gòu)改進(jìn)[J];計算機(jī)應(yīng)用研究;2006年11期
4 夏新松;肖建國;;一種新的錯誤驅(qū)動學(xué)習(xí)方法在中文分詞中的應(yīng)用[J];計算機(jī)科學(xué);2006年03期
5 周軍;王艷紅;;一種基于詞典的中文分詞法的設(shè)計與實現(xiàn)[J];黑龍江科技信息;2008年25期
6 許高建;胡學(xué)鋼;路遙;王慶人;;一種改進(jìn)的中文分詞歧義消除算法研究[J];合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2008年10期
7 張培穎;;運(yùn)用有向圖進(jìn)行中文分詞研究[J];計算機(jī)工程與應(yīng)用;2009年22期
8 吳晶晶;荊繼武;聶曉峰;王平建;;一種快速中文分詞詞典機(jī)制[J];中國科學(xué)院研究生院學(xué)報;2009年05期
9 袁健;張勁松;馬良;;二次回溯中文分詞方法[J];計算機(jī)應(yīng)用研究;2009年09期
10 劉智文;;利用系統(tǒng)整合提高中文分詞精度的方法研究[J];現(xiàn)代計算機(jī)(專業(yè)版);2009年10期
相關(guān)會議論文 前10條
1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計[A];全國第22屆計算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會議論文摘要集[C];2011年
2 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
3 任飛亮;石磊;姚天順;;應(yīng)用支持向量機(jī)進(jìn)行中文分詞[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
4 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機(jī)制[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
5 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細(xì)則[A];第五屆全國語言文字應(yīng)用學(xué)術(shù)研討會論文集[C];2007年
6 修馳;宋柔;;基于“大詞”實例的中文分詞研究[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
7 黃居仁;;瓶頸,挑戰(zhàn),與轉(zhuǎn)機(jī):中文分詞研究的新思維[A];中國計算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
8 趙海;揭春雨;;基于子串標(biāo)注的中文分詞:尋找更佳的標(biāo)注單元[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
9 李壽山;黃居仁;;基于詞邊界分類的中文分詞方法[A];中國計算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
10 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
相關(guān)重要報紙文章 前2條
1 本報記者 張彤;讓計算機(jī)說中國話[N];網(wǎng)絡(luò)世界;2004年
2 清華大學(xué)IT可用性實驗室;2005中文搜索引擎質(zhì)量對比[N];計算機(jī)世界;2005年
相關(guān)博士學(xué)位論文 前4條
1 奚寧;統(tǒng)計機(jī)器翻譯中的中文分詞策略研究[D];南京大學(xué);2013年
2 修馳;適應(yīng)于不同領(lǐng)域的中文分詞方法研究與實現(xiàn)[D];北京工業(yè)大學(xué);2013年
3 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年
4 李志國;面向分布式文本知識管理的中文分詞與文本分類研究[D];重慶大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 顧輝;基于中文分詞的購物中心微信平臺購物導(dǎo)航的設(shè)計與實現(xiàn)[D];華中師范大學(xué);2015年
2 韓冰;基于感知器算法的中文分詞增量系統(tǒng)設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
3 杜麗萍;基于互聯(lián)網(wǎng)海量語料的新詞發(fā)現(xiàn)研究及中文分詞系統(tǒng)改進(jìn)[D];西安郵電大學(xué);2015年
4 周祺;基于統(tǒng)計與詞典相結(jié)合的中文分詞的研究與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
5 梁喜濤;基于主動學(xué)習(xí)的中文分詞方法研究[D];南京郵電大學(xué);2015年
6 楊淦;基于條件隨機(jī)場模型的中文分詞系統(tǒng)研究與實現(xiàn)[D];重慶大學(xué);2015年
7 朱云杰;大數(shù)據(jù)環(huán)境下垃圾評論過濾系統(tǒng)的研究與實現(xiàn)[D];東南大學(xué);2015年
8 呂先超;視障漢語轉(zhuǎn)換軟件SunBraille的設(shè)計實現(xiàn)[D];蘭州大學(xué);2016年
9 黃積楊;基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D];南京大學(xué);2016年
10 梁科;面向中醫(yī)醫(yī)案的數(shù)據(jù)挖掘技術(shù)研究及應(yīng)用[D];山東大學(xué);2016年
,本文編號:2066452
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2066452.html