基于LSTM網(wǎng)絡(luò)的序列標(biāo)注中文分詞法
本文關(guān)鍵詞: 中文分詞 LSTM 字嵌入 自然語言處理 出處:《計算機應(yīng)用研究》2017年05期 論文類型:期刊論文
【摘要】:當(dāng)前主流的中文分詞方法是基于字標(biāo)注的傳統(tǒng)機器學(xué)習(xí)方法,但傳統(tǒng)機器學(xué)習(xí)方法需要人為地從中文文本中配置并提取特征,存在詞庫維度高且利用CPU訓(xùn)練模型時間長的缺點。針對以上問題進行了研究,提出基于LSTM(long short-term memory)網(wǎng)絡(luò)模型的改進方法,采用不同詞位標(biāo)注集并加入預(yù)先訓(xùn)練的字嵌入向量(character embedding)進行中文分詞。在中文分詞評測常用的語料上進行實驗對比結(jié)果表明,基于LSTM網(wǎng)絡(luò)模型的方法能得到比當(dāng)前傳統(tǒng)機器學(xué)習(xí)方法更好的性能;采用六詞位標(biāo)注并加入預(yù)先訓(xùn)練的字嵌入向量能夠取得相對最好的分詞性能;而且利用GPU可以大大縮短深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練時間;LSTM網(wǎng)絡(luò)模型的方法也更容易推廣并應(yīng)用到其他自然語言處理中序列標(biāo)注的任務(wù)。
[Abstract]:At present, the mainstream Chinese word segmentation method is the traditional machine learning method based on word tagging, but the traditional machine learning method needs to artificially configure and extract features from the Chinese text. There are some disadvantages such as high lexicon dimension and long time using CPU to train the model. An improved network model based on LSTM(long short-term memory is proposed. Tagging a set of different words and adding a pre-trained character embedding vector). Chinese word segmentation. In the Chinese word segmentation commonly used on the corpus, the experimental results show that. The method based on LSTM network model can get better performance than the traditional machine learning method. The better performance of word segmentation can be achieved by using six-word position tagging and adding pre-trained word embedding vector. Moreover, the training time of the deep neural network model can be greatly shortened by using GPU. The method of LSTM network model is also easy to popularize and be applied to other tasks of sequence tagging in natural language processing.
【作者單位】: 上海大學(xué)通信與信息工程學(xué)院;中國科學(xué)院上海高等研究院;中國科學(xué)院大學(xué);
【基金】:國家自然科學(xué)基金資助項目(61471231) 中國科學(xué)院先導(dǎo)資助項目(XDA06010301)
【分類號】:TP391.1
【正文快照】: 大學(xué),北京100049)0引言在基于中文的自然語言處理中,由于不像英文中詞與詞之間有固定的自然分界符,所以對中文進行分詞通常是處理中文信息任務(wù)的基礎(chǔ);同時由于中文自身的復(fù)雜性,中文分詞也一直是中文信息處理任務(wù)的難題。中文分詞是進行詞性標(biāo)注、命名實體識別、關(guān)鍵詞提取和
【相似文獻】
相關(guān)期刊論文 前10條
1 張茂元,盧正鼎,鄒春燕;一種基于語境的中文分詞方法研究[J];小型微型計算機系統(tǒng);2005年01期
2 程傳鵬;;一種簡單高效的中文分詞方法[J];鄭州輕工業(yè)學(xué)院學(xué)報;2006年03期
3 張博;姜建國;萬平國;;對互聯(lián)網(wǎng)環(huán)境下中文分詞系統(tǒng)的一種架構(gòu)改進[J];計算機應(yīng)用研究;2006年11期
4 夏新松;肖建國;;一種新的錯誤驅(qū)動學(xué)習(xí)方法在中文分詞中的應(yīng)用[J];計算機科學(xué);2006年03期
5 周軍;王艷紅;;一種基于詞典的中文分詞法的設(shè)計與實現(xiàn)[J];黑龍江科技信息;2008年25期
6 許高建;胡學(xué)鋼;路遙;王慶人;;一種改進的中文分詞歧義消除算法研究[J];合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2008年10期
7 張培穎;;運用有向圖進行中文分詞研究[J];計算機工程與應(yīng)用;2009年22期
8 吳晶晶;荊繼武;聶曉峰;王平建;;一種快速中文分詞詞典機制[J];中國科學(xué)院研究生院學(xué)報;2009年05期
9 袁健;張勁松;馬良;;二次回溯中文分詞方法[J];計算機應(yīng)用研究;2009年09期
10 劉智文;;利用系統(tǒng)整合提高中文分詞精度的方法研究[J];現(xiàn)代計算機(專業(yè)版);2009年10期
相關(guān)會議論文 前10條
1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計[A];全國第22屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會議論文摘要集[C];2011年
2 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
3 任飛亮;石磊;姚天順;;應(yīng)用支持向量機進行中文分詞[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
4 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機制[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
5 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細則[A];第五屆全國語言文字應(yīng)用學(xué)術(shù)研討會論文集[C];2007年
6 修馳;宋柔;;基于“大詞”實例的中文分詞研究[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年
7 黃居仁;;瓶頸,挑戰(zhàn),與轉(zhuǎn)機:中文分詞研究的新思維[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年
8 李壽山;黃居仁;;基于詞邊界分類的中文分詞方法[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年
9 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年
10 王屹林;朱慕華;朱靖波;;針對SVM中文分詞特性的個性化后處理設(shè)計[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
相關(guān)博士學(xué)位論文 前4條
1 奚寧;統(tǒng)計機器翻譯中的中文分詞策略研究[D];南京大學(xué);2013年
2 修馳;適應(yīng)于不同領(lǐng)域的中文分詞方法研究與實現(xiàn)[D];北京工業(yè)大學(xué);2013年
3 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年
4 李志國;面向分布式文本知識管理的中文分詞與文本分類研究[D];重慶大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 顧輝;基于中文分詞的購物中心微信平臺購物導(dǎo)航的設(shè)計與實現(xiàn)[D];華中師范大學(xué);2015年
2 韓冰;基于感知器算法的中文分詞增量系統(tǒng)設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
3 杜麗萍;基于互聯(lián)網(wǎng)海量語料的新詞發(fā)現(xiàn)研究及中文分詞系統(tǒng)改進[D];西安郵電大學(xué);2015年
4 周祺;基于統(tǒng)計與詞典相結(jié)合的中文分詞的研究與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
5 梁喜濤;基于主動學(xué)習(xí)的中文分詞方法研究[D];南京郵電大學(xué);2015年
6 朱云杰;大數(shù)據(jù)環(huán)境下垃圾評論過濾系統(tǒng)的研究與實現(xiàn)[D];東南大學(xué);2015年
7 呂先超;視障漢語轉(zhuǎn)換軟件SunBraille的設(shè)計實現(xiàn)[D];蘭州大學(xué);2016年
8 黃積楊;基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D];南京大學(xué);2016年
9 梁科;面向中醫(yī)醫(yī)案的數(shù)據(jù)挖掘技術(shù)研究及應(yīng)用[D];山東大學(xué);2016年
10 鄭宗榮;基于實例的中文分詞系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2016年
,本文編號:1490060
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1490060.html