雙向循環(huán)網絡中文分詞模型
本文選題:分詞 + 序列標注��; 參考:《小型微型計算機系統(tǒng)》2017年03期
【摘要】:針對統(tǒng)計方法的中文分詞模型主要依賴于特征工程,難以捕捉句子中長距離依賴關系等問題,提出一種雙向循環(huán)網絡中文分詞模型.為能有效獲取待分類字符的上下文特征,避免局部窗口大小的限制,使用長短時記憶網絡(Long Short-Term M emory Neural Netw ork,LSTM)作為神經網絡隱藏層,同時增加一層反向LSTM抽取字符的將來信息特征.提出一種語言模型預訓練的網絡權值初始化方法,該模型同時得到中文字符embeddings分布式向量特征.在標準分詞數據集上測試表明該模型取得比以往統(tǒng)計標注方法更好的效果.通過對比實驗結果發(fā)現深層神經網絡能提取出不遜于人工總結的分詞特征.
[Abstract]:Aiming at the problem that the Chinese word segmentation model of statistical method mainly depends on feature engineering and it is difficult to capture the middle and long distance dependency of sentences, a bidirectional cyclic network Chinese word segmentation model is proposed.In order to obtain the context features of the characters to be classified effectively and avoid the limitation of the local window size, the long and short time memory network long Short-Term M emory Neural Netw or LSTM) is used as the hidden layer of the neural network, and a layer of reverse LSTM is added to extract the future information features of the characters.A network weight initialization method for pre-training of language model is proposed. The model also obtains the embeddings distributed vector features of Chinese characters.The test on the standard word segmentation data set shows that the model is more effective than the previous statistical annotation methods.By comparing the experimental results, it is found that the deep neural network can extract the word segmentation features which are not inferior to the artificial summary.
【作者單位】: 湖北大學計算機與信息工程學院;
【基金】:國家自然科學基金項目(61202100)資助
【分類號】:TP391.1
【參考文獻】
相關期刊論文 前2條
1 劉建偉;劉媛;羅雄麟;;玻爾茲曼機研究進展[J];計算機研究與發(fā)展;2014年01期
2 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學報;2007年03期
【共引文獻】
相關期刊論文 前10條
1 胡婕;張俊馳;;雙向循環(huán)網絡中文分詞模型[J];小型微型計算機系統(tǒng);2017年03期
2 馬世龍;烏尼日其其格;李小平;;大數據與深度學習綜述[J];智能系統(tǒng)學報;2016年06期
3 袁成;張榆平;梁洲;張陳方;;受限玻爾茲曼機在裝備保障方案評價中的應用[J];太赫茲科學與電子信息學報;2016年06期
4 徐浩煜;任智慧;施俊;周晗;;基于鏈式條件隨機場的中文分詞改進方法[J];計算機應用與軟件;2016年12期
5 徐建忠;朱俊;趙瑞;張亮;李嬌嬌;;基于Web技術的航天文本分類系統(tǒng)研究與應用[J];軍民兩用技術與產品;2016年23期
6 韓俊波;;深度學習算法與應用探究[J];湖州師范學院學報;2016年10期
7 錢建生;邱春榮;李紫陽;吳響;;深度學習耦合粒子群優(yōu)化SVM的瓦斯?jié)舛阮A測[J];煤礦安全;2016年11期
8 昝紅英;許鴻飛;張坤麗;穗志方;;網絡用語詞典的構建及問題分析[J];中文信息學報;2016年06期
9 樓小帆;吳軍;馬嚴;林昭文;;基于LDA模型的高校論壇熱點提取系統(tǒng)[J];華中科技大學學報(自然科學版);2016年S1期
10 柴瑞敏;O@稱稱;;一種改進的深度置信網絡及其在自然圖像分類中的應用[J];計算機應用與軟件;2016年09期
【二級參考文獻】
相關期刊論文 前6條
1 楊瑩;吳誠煒;胡蘇;;基于受限玻爾茲曼機的中文文檔分類[J];科技創(chuàng)新導報;2012年16期
2 楊爾弘;方瑩;劉冬明;喬羽;;漢語自動分詞和詞性標注評測[J];中文信息學報;2006年01期
3 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當代語言學;2001年01期
4 孫茂松;談談漢語分詞語料庫的一致性問題[J];語言文字應用;1999年02期
5 黃昌寧;中文信息處理中的分詞問題[J];語言文字應用;1997年01期
6 劉開瑛;現代漢語自動分詞評測技術研究[J];語言文字應用;1997年01期
【相似文獻】
相關期刊論文 前10條
1 張茂元,盧正鼎,鄒春燕;一種基于語境的中文分詞方法研究[J];小型微型計算機系統(tǒng);2005年01期
2 程傳鵬;;一種簡單高效的中文分詞方法[J];鄭州輕工業(yè)學院學報;2006年03期
3 張博;姜建國;萬平國;;對互聯網環(huán)境下中文分詞系統(tǒng)的一種架構改進[J];計算機應用研究;2006年11期
4 夏新松;肖建國;;一種新的錯誤驅動學習方法在中文分詞中的應用[J];計算機科學;2006年03期
5 周軍;王艷紅;;一種基于詞典的中文分詞法的設計與實現[J];黑龍江科技信息;2008年25期
6 許高建;胡學鋼;路遙;王慶人;;一種改進的中文分詞歧義消除算法研究[J];合肥工業(yè)大學學報(自然科學版);2008年10期
7 張培穎;;運用有向圖進行中文分詞研究[J];計算機工程與應用;2009年22期
8 吳晶晶;荊繼武;聶曉峰;王平建;;一種快速中文分詞詞典機制[J];中國科學院研究生院學報;2009年05期
9 袁健;張勁松;馬良;;二次回溯中文分詞方法[J];計算機應用研究;2009年09期
10 劉智文;;利用系統(tǒng)整合提高中文分詞精度的方法研究[J];現代計算機(專業(yè)版);2009年10期
相關會議論文 前10條
1 王敏;葉寬余;薛峰;;一種面向網店商品搜索的中文分詞系統(tǒng)設計[A];全國第22屆計算機技術與應用學術會議(CACIS·2011)暨全國第3屆安全關鍵技術與應用(SCA·2011)學術會議論文摘要集[C];2011年
2 黃昌寧;趙海;;由字構詞——中文分詞新方法[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年
3 任飛亮;石磊;姚天順;;應用支持向量機進行中文分詞[A];全國第八屆計算語言學聯合學術會議(JSCL-2005)論文集[C];2005年
4 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機制[A];全國網絡與信息安全技術研討會論文集(上冊)[C];2007年
5 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細則[A];第五屆全國語言文字應用學術研討會論文集[C];2007年
6 修馳;宋柔;;基于“大詞”實例的中文分詞研究[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
7 黃居仁;;瓶頸,挑戰(zhàn),與轉機:中文分詞研究的新思維[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
8 趙海;揭春雨;;基于子串標注的中文分詞:尋找更佳的標注單元[A];內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年
9 李壽山;黃居仁;;基于詞邊界分類的中文分詞方法[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
10 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計與詞典相結合的領域自適應中文分詞[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
相關重要報紙文章 前2條
1 本報記者 張彤;讓計算機說中國話[N];網絡世界;2004年
2 清華大學IT可用性實驗室;2005中文搜索引擎質量對比[N];計算機世界;2005年
相關博士學位論文 前4條
1 奚寧;統(tǒng)計機器翻譯中的中文分詞策略研究[D];南京大學;2013年
2 修馳;適應于不同領域的中文分詞方法研究與實現[D];北京工業(yè)大學;2013年
3 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學;2012年
4 李志國;面向分布式文本知識管理的中文分詞與文本分類研究[D];重慶大學;2008年
相關碩士學位論文 前10條
1 顧輝;基于中文分詞的購物中心微信平臺購物導航的設計與實現[D];華中師范大學;2015年
2 韓冰;基于感知器算法的中文分詞增量系統(tǒng)設計與實現[D];哈爾濱工業(yè)大學;2015年
3 杜麗萍;基于互聯網海量語料的新詞發(fā)現研究及中文分詞系統(tǒng)改進[D];西安郵電大學;2015年
4 周祺;基于統(tǒng)計與詞典相結合的中文分詞的研究與實現[D];哈爾濱工業(yè)大學;2015年
5 梁喜濤;基于主動學習的中文分詞方法研究[D];南京郵電大學;2015年
6 楊淦;基于條件隨機場模型的中文分詞系統(tǒng)研究與實現[D];重慶大學;2015年
7 朱云杰;大數據環(huán)境下垃圾評論過濾系統(tǒng)的研究與實現[D];東南大學;2015年
8 呂先超;視障漢語轉換軟件SunBraille的設計實現[D];蘭州大學;2016年
9 黃積楊;基于雙向LSTMN神經網絡的中文分詞研究分析[D];南京大學;2016年
10 梁科;面向中醫(yī)醫(yī)案的數據挖掘技術研究及應用[D];山東大學;2016年
,本文編號:1757913
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1757913.html