天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于雙向長短時記憶模型的中文分詞方法

發(fā)布時間:2018-06-02 16:29

  本文選題:深度學習 + 神經網絡; 參考:《華南理工大學學報(自然科學版)》2017年03期


【摘要】:中文分詞是中文自然語言處理中的關鍵基礎技術之一.目前,傳統(tǒng)分詞算法依賴于特征工程,而驗證特征的有效性需要大量的工作.基于神經網絡的深度學習算法的興起使得模型自動學習特征成為可能.文中基于深度學習中的雙向長短時記憶(BLSTM)神經網絡模型對中文分詞進行了研究.首先從大規(guī)模語料中學習中文字的語義向量,再將字向量應用于BLSTM模型實現(xiàn)分詞,并在簡體中文數(shù)據(jù)集(PKU、MSRA、CTB)和繁體中文數(shù)據(jù)集(HKCity U)等數(shù)據(jù)集上進行了實驗.實驗表明,在不依賴特征工程的情況下,基于BLSTM的中文分詞方法仍可取得很好的效果.
[Abstract]:Chinese word segmentation is one of the key basic technologies in Chinese Natural Language Processing. At present, the traditional word segmentation algorithm depends on the feature engineering, and the validity of the validation features needs a lot of work. The rise of the depth learning algorithm based on neural network makes the model automatic learning feature possible. The Chinese word segmentation is studied by the time memory (BLSTM) neural network model. First, we learn the semantic vector of the text from the large corpus, then apply the word vector to the BLSTM model to realize the segmentation, and the experiments are carried out on the data sets such as the simplified Chinese data set (PKU, MSRA, CTB) and the traditional Chinese data set (HKCity U). The experiment shows that it is not dependent on the data set of the simplified Chinese data set (PKU, MSRA, CTB) and the traditional Chinese data set. In the case of Feature Engineering, the Chinese word segmentation method based on BLSTM can still achieve good results.
【作者單位】: 北京郵電大學信息與通信工程學院;
【基金】:國家自然科學基金青年基金資助項目(61601042)~~
【分類號】:TP391.1

【相似文獻】

相關期刊論文 前10條

1 張茂元,盧正鼎,鄒春燕;一種基于語境的中文分詞方法研究[J];小型微型計算機系統(tǒng);2005年01期

2 程傳鵬;;一種簡單高效的中文分詞方法[J];鄭州輕工業(yè)學院學報;2006年03期

3 張博;姜建國;萬平國;;對互聯(lián)網環(huán)境下中文分詞系統(tǒng)的一種架構改進[J];計算機應用研究;2006年11期

4 夏新松;肖建國;;一種新的錯誤驅動學習方法在中文分詞中的應用[J];計算機科學;2006年03期

5 周軍;王艷紅;;一種基于詞典的中文分詞法的設計與實現(xiàn)[J];黑龍江科技信息;2008年25期

6 許高建;胡學鋼;路遙;王慶人;;一種改進的中文分詞歧義消除算法研究[J];合肥工業(yè)大學學報(自然科學版);2008年10期

7 張培穎;;運用有向圖進行中文分詞研究[J];計算機工程與應用;2009年22期

8 吳晶晶;荊繼武;聶曉峰;王平建;;一種快速中文分詞詞典機制[J];中國科學院研究生院學報;2009年05期

9 袁健;張勁松;馬良;;二次回溯中文分詞方法[J];計算機應用研究;2009年09期

10 劉智文;;利用系統(tǒng)整合提高中文分詞精度的方法研究[J];現(xiàn)代計算機(專業(yè)版);2009年10期

相關會議論文 前10條

1 王敏;葉寬余;薛峰;;一種面向網店商品搜索的中文分詞系統(tǒng)設計[A];全國第22屆計算機技術與應用學術會議(CACIS·2011)暨全國第3屆安全關鍵技術與應用(SCA·2011)學術會議論文摘要集[C];2011年

2 黃昌寧;趙海;;由字構詞——中文分詞新方法[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年

3 任飛亮;石磊;姚天順;;應用支持向量機進行中文分詞[A];全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集[C];2005年

4 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機制[A];全國網絡與信息安全技術研討會論文集(上冊)[C];2007年

5 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細則[A];第五屆全國語言文字應用學術研討會論文集[C];2007年

6 修馳;宋柔;;基于“大詞”實例的中文分詞研究[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

7 黃居仁;;瓶頸,挑戰(zhàn),與轉機:中文分詞研究的新思維[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年

8 李壽山;黃居仁;;基于詞邊界分類的中文分詞方法[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年

9 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計與詞典相結合的領域自適應中文分詞[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

10 王屹林;朱慕華;朱靖波;;針對SVM中文分詞特性的個性化后處理設計[A];第三屆學生計算語言學研討會論文集[C];2006年

相關博士學位論文 前4條

1 奚寧;統(tǒng)計機器翻譯中的中文分詞策略研究[D];南京大學;2013年

2 修馳;適應于不同領域的中文分詞方法研究與實現(xiàn)[D];北京工業(yè)大學;2013年

3 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學;2012年

4 李志國;面向分布式文本知識管理的中文分詞與文本分類研究[D];重慶大學;2008年

相關碩士學位論文 前10條

1 顧輝;基于中文分詞的購物中心微信平臺購物導航的設計與實現(xiàn)[D];華中師范大學;2015年

2 韓冰;基于感知器算法的中文分詞增量系統(tǒng)設計與實現(xiàn)[D];哈爾濱工業(yè)大學;2015年

3 杜麗萍;基于互聯(lián)網海量語料的新詞發(fā)現(xiàn)研究及中文分詞系統(tǒng)改進[D];西安郵電大學;2015年

4 周祺;基于統(tǒng)計與詞典相結合的中文分詞的研究與實現(xiàn)[D];哈爾濱工業(yè)大學;2015年

5 梁喜濤;基于主動學習的中文分詞方法研究[D];南京郵電大學;2015年

6 朱云杰;大數(shù)據(jù)環(huán)境下垃圾評論過濾系統(tǒng)的研究與實現(xiàn)[D];東南大學;2015年

7 呂先超;視障漢語轉換軟件SunBraille的設計實現(xiàn)[D];蘭州大學;2016年

8 黃積楊;基于雙向LSTMN神經網絡的中文分詞研究分析[D];南京大學;2016年

9 梁科;面向中醫(yī)醫(yī)案的數(shù)據(jù)挖掘技術研究及應用[D];山東大學;2016年

10 鄭宗榮;基于實例的中文分詞系統(tǒng)設計與實現(xiàn)[D];電子科技大學;2016年

,

本文編號:1969427

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1969427.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶6d66f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com