基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析
本文關(guān)鍵詞:基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析
更多相關(guān)文章: 深度學(xué)習(xí) 長短期記憶神經(jīng)網(wǎng)絡(luò) 中文分詞 注意力機(jī)制
【摘要】:在2002年之前,利用算法實(shí)現(xiàn)分詞的方法基本上是基于字典、詞庫匹配的。在2002年發(fā)表了第一篇基于字標(biāo)注的分詞論文,首次把中文分詞抽象成序列生成序列的問題,隨后在一些模型上實(shí)現(xiàn)的基于字標(biāo)注的分詞系統(tǒng)取得了不錯(cuò)的效果,如:最大熵模型、隱含馬爾可夫模型、條件隨機(jī)場模型、支持向量機(jī)模型等。目前主流的分詞系統(tǒng)使用的是條件隨機(jī)場模型。在2006年深度學(xué)習(xí)的概念被提出,隨后應(yīng)用于計(jì)算機(jī)視覺、自然語言處理、語音識別等領(lǐng)域,成功地取得諸多突破性的進(jìn)展,其中的遞歸神經(jīng)網(wǎng)絡(luò)更是被廣泛運(yùn)用于解決詞性標(biāo)注、翻譯、命名實(shí)體識別等自然語言處理問題。把多數(shù)自然語言處理問題抽象成序列生成序列,并采用合適的遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)處理,成為當(dāng)前的熱點(diǎn)和主流;谧謽(biāo)注的分詞本質(zhì)上是序列生成序列的問題,因此本論文中,采用改進(jìn)的雙向長短期記憶神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)中文分詞。改進(jìn)的長短期記憶單元與標(biāo)準(zhǔn)的長短期記憶單元不同在于,采用存儲帶來保存過去的信息,并通過注意力機(jī)制合理利用這些信息,避免僅僅向后傳遞一個(gè)隱藏狀態(tài)向量而造成的信息壓縮。標(biāo)準(zhǔn)的長短期記憶神經(jīng)網(wǎng)絡(luò)能很好地解決詞與詞之間遠(yuǎn)距離的依賴關(guān)系,而雙向長短期記憶神經(jīng)網(wǎng)絡(luò)能捕獲到句子中一個(gè)詞的上下文信息,從而網(wǎng)絡(luò)結(jié)構(gòu)能更好地理解語義并正確實(shí)現(xiàn)分詞。同時(shí)提出標(biāo)準(zhǔn)雙向長短期記憶神經(jīng)網(wǎng)絡(luò)層加注意力機(jī)制層的方式實(shí)現(xiàn)中文分詞,研究在不同位置上添加注意力機(jī)制對中文分詞的影響。
【關(guān)鍵詞】:深度學(xué)習(xí) 長短期記憶神經(jīng)網(wǎng)絡(luò) 中文分詞 注意力機(jī)制
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-11
- 第一章 緒論11-17
- 1.1 研究背景11-15
- 1.1.1 中文分詞的重要性與傳統(tǒng)方法11-13
- 1.1.2 中文分詞與深度學(xué)習(xí)13-15
- 1.2 論文主要工作和貢獻(xiàn)15
- 1.3 論文組織15-17
- 第二章 深度學(xué)習(xí)理論基礎(chǔ)17-34
- 2.1 為什么深度學(xué)習(xí)流行17-18
- 2.2 神經(jīng)網(wǎng)絡(luò)模型和神經(jīng)元18-21
- 2.3 神經(jīng)網(wǎng)絡(luò)參數(shù)的訓(xùn)練方式與BP算法21-23
- 2.4 深度學(xué)習(xí)的二分類與多分類函數(shù)23-27
- 2.5 RNN和經(jīng)典的LSTM神經(jīng)網(wǎng)絡(luò)27-32
- 2.6 本章小結(jié)32-34
- 第三章 深度學(xué)習(xí)與自然語言處理34-48
- 3.1 基于窗口大小的深度學(xué)習(xí)模型34-39
- 3.2 基于RNN的深度學(xué)習(xí)模型39-43
- 3.3 基于注意力機(jī)制的深度學(xué)習(xí)模型43-45
- 3.4 雙向RNN神經(jīng)網(wǎng)絡(luò)45-46
- 3.5 本章小結(jié)46-48
- 第四章 基于BI-LSTMN的中文分詞48-58
- 4.1 LSTM缺點(diǎn)及解決方式48-51
- 4.2 LSTMN單元51-54
- 4.3 雙向LSTMN神經(jīng)網(wǎng)絡(luò)54-56
- 4.4 雙向LSTM加注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)56-57
- 4.5 本章小結(jié)57-58
- 第五章 實(shí)驗(yàn)與分析58-61
- 5.1 實(shí)驗(yàn)設(shè)置58
- 5.1.1 實(shí)驗(yàn)數(shù)據(jù)集58
- 5.1.2 實(shí)驗(yàn)環(huán)境58
- 5.1.3 評測標(biāo)準(zhǔn)58
- 5.2 中文分詞實(shí)驗(yàn)細(xì)節(jié)與分析58-61
- 第六章 總結(jié)與展望61-64
- 6.1 總結(jié)61-62
- 6.2 展望62-64
- 參考文獻(xiàn)64-71
- 致謝71-72
- 參與項(xiàng)目72-74
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張茂元,盧正鼎,鄒春燕;一種基于語境的中文分詞方法研究[J];小型微型計(jì)算機(jī)系統(tǒng);2005年01期
2 程傳鵬;;一種簡單高效的中文分詞方法[J];鄭州輕工業(yè)學(xué)院學(xué)報(bào);2006年03期
3 張博;姜建國;萬平國;;對互聯(lián)網(wǎng)環(huán)境下中文分詞系統(tǒng)的一種架構(gòu)改進(jìn)[J];計(jì)算機(jī)應(yīng)用研究;2006年11期
4 夏新松;肖建國;;一種新的錯(cuò)誤驅(qū)動學(xué)習(xí)方法在中文分詞中的應(yīng)用[J];計(jì)算機(jī)科學(xué);2006年03期
5 周軍;王艷紅;;一種基于詞典的中文分詞法的設(shè)計(jì)與實(shí)現(xiàn)[J];黑龍江科技信息;2008年25期
6 許高建;胡學(xué)鋼;路遙;王慶人;;一種改進(jìn)的中文分詞歧義消除算法研究[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年10期
7 張培穎;;運(yùn)用有向圖進(jìn)行中文分詞研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年22期
8 吳晶晶;荊繼武;聶曉峰;王平建;;一種快速中文分詞詞典機(jī)制[J];中國科學(xué)院研究生院學(xué)報(bào);2009年05期
9 袁健;張勁松;馬良;;二次回溯中文分詞方法[J];計(jì)算機(jī)應(yīng)用研究;2009年09期
10 劉智文;;利用系統(tǒng)整合提高中文分詞精度的方法研究[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2009年10期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計(jì)[A];全國第22屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會議論文摘要集[C];2011年
2 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
3 任飛亮;石磊;姚天順;;應(yīng)用支持向量機(jī)進(jìn)行中文分詞[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
4 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機(jī)制[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
5 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細(xì)則[A];第五屆全國語言文字應(yīng)用學(xué)術(shù)研討會論文集[C];2007年
6 修馳;宋柔;;基于“大詞”實(shí)例的中文分詞研究[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
7 黃居仁;;瓶頸,挑戰(zhàn),與轉(zhuǎn)機(jī):中文分詞研究的新思維[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
8 趙海;揭春雨;;基于子串標(biāo)注的中文分詞:尋找更佳的標(biāo)注單元[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
9 李壽山;黃居仁;;基于詞邊界分類的中文分詞方法[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
10 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
中國重要報(bào)紙全文數(shù)據(jù)庫 前2條
1 本報(bào)記者 張彤;讓計(jì)算機(jī)說中國話[N];網(wǎng)絡(luò)世界;2004年
2 清華大學(xué)IT可用性實(shí)驗(yàn)室;2005中文搜索引擎質(zhì)量對比[N];計(jì)算機(jī)世界;2005年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 奚寧;統(tǒng)計(jì)機(jī)器翻譯中的中文分詞策略研究[D];南京大學(xué);2013年
2 修馳;適應(yīng)于不同領(lǐng)域的中文分詞方法研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2013年
3 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年
4 李志國;面向分布式文本知識管理的中文分詞與文本分類研究[D];重慶大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 顧輝;基于中文分詞的購物中心微信平臺購物導(dǎo)航的設(shè)計(jì)與實(shí)現(xiàn)[D];華中師范大學(xué);2015年
2 韓冰;基于感知器算法的中文分詞增量系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
3 杜麗萍;基于互聯(lián)網(wǎng)海量語料的新詞發(fā)現(xiàn)研究及中文分詞系統(tǒng)改進(jìn)[D];西安郵電大學(xué);2015年
4 周祺;基于統(tǒng)計(jì)與詞典相結(jié)合的中文分詞的研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
5 梁喜濤;基于主動學(xué)習(xí)的中文分詞方法研究[D];南京郵電大學(xué);2015年
6 楊淦;基于條件隨機(jī)場模型的中文分詞系統(tǒng)研究與實(shí)現(xiàn)[D];重慶大學(xué);2015年
7 朱云杰;大數(shù)據(jù)環(huán)境下垃圾評論過濾系統(tǒng)的研究與實(shí)現(xiàn)[D];東南大學(xué);2015年
8 呂先超;視障漢語轉(zhuǎn)換軟件SunBraille的設(shè)計(jì)實(shí)現(xiàn)[D];蘭州大學(xué);2016年
9 黃積楊;基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D];南京大學(xué);2016年
10 王荔;統(tǒng)計(jì)全切分中文分詞系統(tǒng)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
,本文編號:710843
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/710843.html