天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)方法的中文分詞和詞性標(biāo)注研究

發(fā)布時(shí)間:2023-01-15 09:32
  中文詞法分析任務(wù)是中文信息處理中的一項(xiàng)基本任務(wù),主要包括兩大部分,分別是中文分詞和中文詞性標(biāo)注。目前的主流模型雖然表現(xiàn)優(yōu)秀,但是依然忽略了很多要素,像分詞中的相鄰詞特征,詞性標(biāo)注中的字符特征等,導(dǎo)致不能完全解決中文切分歧義和詞性兼類(lèi)等問(wèn)題。本論文的目的是針對(duì)中文分詞和詞性標(biāo)注任務(wù)的特點(diǎn),分別提出了在分詞任務(wù)中加入相鄰詞特征的方法和在詞性標(biāo)注任務(wù)中融合字符特征的方法,并且提出了一種針對(duì)序列標(biāo)注任務(wù)的新型編解碼結(jié)構(gòu)。首先,針對(duì)中文分詞任務(wù)中相鄰字符構(gòu)成詞的特點(diǎn),嘗試在簡(jiǎn)單的序列標(biāo)注模型的基礎(chǔ)上,使用基于窗口采樣的方式得到相鄰字符的特征表示,在表示學(xué)習(xí)層中通過(guò)注意力的方式將相鄰字符特征融合到模型中。這樣的方式不僅充分考慮到了文本的上下文信息,還考慮到了相鄰字符之間的耦合關(guān)系,可以得到每個(gè)字符特征的更加完整的表示。同時(shí)針對(duì)序列標(biāo)注問(wèn)題根據(jù)原始輸入和輸出之間的嚴(yán)格對(duì)齊關(guān)系,受到編解碼結(jié)構(gòu)的啟發(fā),采用詞和標(biāo)簽雙嵌入的方式,在編碼器中增加對(duì)候選標(biāo)簽的預(yù)測(cè),在解碼器中使用基于注意力機(jī)制的隱藏特征監(jiān)督候選標(biāo)簽對(duì)結(jié)果的預(yù)測(cè)來(lái)關(guān)聯(lián)原始輸入和標(biāo)簽之間以及前后標(biāo)簽之間的關(guān)系,提高了模型的泛化能力。然后,在針對(duì)詞... 

【文章頁(yè)數(shù)】:65 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
第一章 緒論
    1.1 研究背景
    1.2 國(guó)內(nèi)外研究進(jìn)展
    1.3 本文研究?jī)?nèi)容
    1.4 本文結(jié)構(gòu)安排
第二章 深度學(xué)習(xí)與自然語(yǔ)言處理
    2.1 詞表示方法
        2.1.1 離散表示
        2.1.2 分布式詞表示
    2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
        2.2.1 RNN
        2.2.2 RNN的訓(xùn)練方法
        2.2.3 LSTM
        2.2.4 GRU
    2.3 模型的正則化
        2.3.1 Dropout
        2.3.2 L2正則化
    2.4 CRF和維特比解碼
    2.5 本章小結(jié)
第三章 基于深度學(xué)習(xí)的中文分詞
    3.1 基于神經(jīng)網(wǎng)絡(luò)的基線序列標(biāo)注方法
        3.1.1 輸入層
        3.1.2 表示學(xué)習(xí)層
        3.1.3 標(biāo)簽預(yù)測(cè)層
        3.1.4 基線序列標(biāo)注方法的實(shí)驗(yàn)
    3.2 考慮相鄰字符關(guān)聯(lián)的序列標(biāo)注方法
        3.2.1 考慮相鄰字符的模型介紹
        3.2.2 考慮相鄰字符關(guān)聯(lián)模型的實(shí)驗(yàn)
    3.3 基于神經(jīng)網(wǎng)絡(luò)的普通編解碼方法
        3.3.1 序列到序列模型
        3.3.2 基于注意力機(jī)制的序列到序列模型
        3.3.3 集束搜索
        3.3.4 序列到序列模型的實(shí)驗(yàn)
    3.4 針對(duì)序列標(biāo)注任務(wù)改進(jìn)的編解碼模型
        3.4.1 改進(jìn)編解碼模型介紹
        3.4.2 改進(jìn)編解碼模型的實(shí)驗(yàn)
        3.4.3 各方法結(jié)果對(duì)比
    3.5 本章小結(jié)
第四章 基于深度學(xué)習(xí)的詞性標(biāo)注
    4.1 問(wèn)題簡(jiǎn)介
    4.2 詞性標(biāo)注基線模型
    4.3 考慮字符特征的詞性標(biāo)注方法
        4.3.1 嘗試加入首尾字符特征
        4.3.2 嘗試加入詞的全部字符特征
    4.4 基于改進(jìn)編解碼結(jié)構(gòu)的詞性標(biāo)注
    4.5 本章小結(jié)
第五章 總結(jié)與展望
    5.1 全文總結(jié)
    5.2 展望
致謝
參考文獻(xiàn)


【參考文獻(xiàn)】:
期刊論文
[1]基于半監(jiān)督CRF的跨領(lǐng)域中文分詞[J]. 鄧麗萍,羅智勇.  中文信息學(xué)報(bào). 2017(04)
[2]基于CNN和LSTM混合模型的中文詞性標(biāo)注[J]. 謝逸,饒文碧,段鵬飛,陳振東.  武漢大學(xué)學(xué)報(bào)(理學(xué)版). 2017(03)
[3]隱馬爾可夫模型在中文文本分詞中應(yīng)用研究[J]. 王慶福.  無(wú)線互聯(lián)科技. 2016(13)
[4]一種基于詞典的中文分詞改進(jìn)算法[J]. 鄭木剛,劉木林,沈昱明.  軟件導(dǎo)刊. 2016(03)
[5]警務(wù)應(yīng)用中基于雙向最大匹配法的中文分詞算法實(shí)現(xiàn)[J]. 陶偉.  電子技術(shù)與軟件工程. 2016(04)
[6]基于改進(jìn)型正反向最大匹配中文分詞算法的研究[J]. 李霞婷.  信息技術(shù)與信息化. 2015(06)
[7]詞典與后綴數(shù)組相結(jié)合的中文分詞方法[J]. 曹月雷,紀(jì)文彥,賈斌.  硅谷. 2012(21)
[8]基于改進(jìn)的隱馬爾科夫模型的詞性標(biāo)注方法[J]. 袁里馳.  中南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2012(08)
[9]基于條件隨機(jī)場(chǎng)的無(wú)監(jiān)督中文詞性標(biāo)注[J]. 孫靜,李軍輝,周?chē)?guó)棟.  計(jì)算機(jī)應(yīng)用與軟件. 2011(04)
[10]基于雙向匹配法和特征選擇算法的中文分詞技術(shù)研究[J]. 麥范金,李東普,岳曉光.  昆明理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(01)



本文編號(hào):3730897

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3730897.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)f4f6f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com