基于深度學(xué)習(xí)的《辭�！贩衷~方法

發(fā)布時(shí)間：2022-02-15 00:24

　　《辭�！肥侵袊�(guó)文化重要資產(chǎn)之一,具有重大研究?jī)r(jià)值。分詞是數(shù)字《辭海》的研究基礎(chǔ),而《辭�！穬�(nèi)容比較復(fù)雜,具有古文類型廣和知識(shí)領(lǐng)域廣等特點(diǎn),給分詞任務(wù)帶來一定挑戰(zhàn)。針對(duì)《辭�！穬�(nèi)容的特點(diǎn),提出基于深度學(xué)習(xí)的分詞方法,首先對(duì)《辭�！穬�(nèi)容進(jìn)行預(yù)處理,去除包括文言文、詩、歌等古文內(nèi)容;其次,選擇《新華字典》,并利用CBOW模型訓(xùn)練字向量;最后,選擇BI-LSTM-CRF模型執(zhí)行《辭�！贩衷~任務(wù)。實(shí)驗(yàn)結(jié)果顯示,提出的分詞方法,準(zhǔn)確率、召回率和F1值到分別達(dá)到94.18%、94.09%和94.13%,具有較好的分詞表現(xiàn)。

【文章來源】：現(xiàn)代計(jì)算機(jī). 2020,(16)

【文章頁數(shù)】：6 頁

【部分圖文】：

圖1 分詞框架

框架圖,向量,框架,新華

字向量訓(xùn)練，本文選擇目前主流的CBOW模型，訓(xùn)練框架如圖2所示。字向量訓(xùn)練主要工作包括：利用結(jié)巴分詞工具對(duì)《新華字典》分詞，然后利用CBOW模型訓(xùn)練字向量，最后輸出字向量矩陣。

模型結(jié)構(gòu),詞典,向量,哈夫曼

CBOW是Mikolov等人提出的Word2Vec[14]分布式表示的一種實(shí)現(xiàn)。Word2Vec具有效率高和表示效果好的優(yōu)勢(shì)，已經(jīng)成為主流的詞向量和字向量訓(xùn)練模型。Word2Vec模型提供兩種實(shí)現(xiàn)CBOW和SkipGram，文獻(xiàn)[15]提到CBOW比較適合常見詞，在本研究中，主要為常見詞，故選擇CBOW實(shí)現(xiàn)。CBOW模型核心思想是通過目標(biāo)詞wt的上下文詞Context(wt)預(yù)測(cè)目標(biāo)詞：。其中，c為窗口，圖3為c=2的CBOW模型結(jié)構(gòu)。在CBOW中，訓(xùn)練之前需要進(jìn)行相關(guān)初始化，包括利用語料庫建立詞典W={w1,…,wN}、基于詞典和詞頻建立哈夫曼樹、隨機(jī)初始化詞向量Wword={v1,…,vN}和哈夫曼樹內(nèi)部節(jié)點(diǎn)Wnode={θ1,…,θN-1}等，其中，N為詞典長(zhǎng)度，wi、vi分別為第i詞和詞向量，θi為第i節(jié)點(diǎn)向量參數(shù)。

【參考文獻(xiàn)】：
期刊論文
[1]《辭海》的創(chuàng)新之路[J]. 張敏.  出版與印刷. 2019(01)
[2]基于領(lǐng)域詞典的動(dòng)態(tài)規(guī)劃分詞算法[J]. 蔣衛(wèi)麗,陳振華,邵黨國(guó),馬磊,相艷,鄭娜,余正濤.  南京理工大學(xué)學(xué)報(bào). 2019(01)
[3]循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 楊麗,吳雨茜,王俊麗,劉義理.  計(jì)算機(jī)應(yīng)用. 2018(S2)
[4]中文分詞技術(shù)綜述[J]. 馮俐.  現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2018(34)
[5]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的中文分詞[J]. 金宸,李維華,姬晨,金緒澤,郭延哺.  中文信息學(xué)報(bào). 2018(02)
[6]基于雙向長(zhǎng)短時(shí)記憶模型的中文分詞方法[J]. 張洪剛,李煥.  華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(03)

碩士論文
[1]基于深度學(xué)習(xí)中文分詞的研究[D]. 王夢(mèng)鴿.西安郵電大學(xué) 2018
[2]基于深度學(xué)習(xí)的中文分詞方法研究[D]. 劉玉德.華南理工大學(xué) 2018
[3]基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D]. 黃積楊.南京大學(xué) 2016
[4]基于詞典的中文分詞算法改進(jìn)與實(shí)現(xiàn)[D]. 顧劍云.湖南大學(xué) 2016
[5]基于統(tǒng)計(jì)學(xué)習(xí)的中文分詞方法的研究[D]. 王威.東北大學(xué) 2015

本文編號(hào)：3625537

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/wenyilunwen/hanyulw/3625537.html

上一篇：互動(dòng)視角下的漢語口語評(píng)價(jià)表達(dá)研究
下一篇：協(xié)同創(chuàng)新視域下漢語國(guó)際教育人才培養(yǎng)問題探析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的《辭�！贩衷~方法

基于深度學(xué)習(xí)的《辭�！贩衷~方法