天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 漢語言論文 >

基于深度學(xué)習(xí)的《辭!贩衷~方法

發(fā)布時(shí)間:2022-02-15 00:24
  《辭!肥侵袊(guó)文化重要資產(chǎn)之一,具有重大研究?jī)r(jià)值。分詞是數(shù)字《辭海》的研究基礎(chǔ),而《辭!穬(nèi)容比較復(fù)雜,具有古文類型廣和知識(shí)領(lǐng)域廣等特點(diǎn),給分詞任務(wù)帶來一定挑戰(zhàn)。針對(duì)《辭!穬(nèi)容的特點(diǎn),提出基于深度學(xué)習(xí)的分詞方法,首先對(duì)《辭!穬(nèi)容進(jìn)行預(yù)處理,去除包括文言文、詩、歌等古文內(nèi)容;其次,選擇《新華字典》,并利用CBOW模型訓(xùn)練字向量;最后,選擇BI-LSTM-CRF模型執(zhí)行《辭!贩衷~任務(wù)。實(shí)驗(yàn)結(jié)果顯示,提出的分詞方法,準(zhǔn)確率、召回率和F1值到分別達(dá)到94.18%、94.09%和94.13%,具有較好的分詞表現(xiàn)。 

【文章來源】:現(xiàn)代計(jì)算機(jī). 2020,(16)

【文章頁數(shù)】:6 頁

【部分圖文】:

基于深度學(xué)習(xí)的《辭!贩衷~方法


圖1 分詞框架

框架圖,向量,框架,新華


字向量訓(xùn)練,本文選擇目前主流的CBOW模型,訓(xùn)練框架如圖2所示。字向量訓(xùn)練主要工作包括:利用結(jié)巴分詞工具對(duì)《新華字典》分詞,然后利用CBOW模型訓(xùn)練字向量,最后輸出字向量矩陣。

模型結(jié)構(gòu),詞典,向量,哈夫曼


CBOW是Mikolov等人提出的Word2Vec[14]分布式表示的一種實(shí)現(xiàn)。Word2Vec具有效率高和表示效果好的優(yōu)勢(shì),已經(jīng)成為主流的詞向量和字向量訓(xùn)練模型。Word2Vec模型提供兩種實(shí)現(xiàn)CBOW和SkipGram,文獻(xiàn)[15]提到CBOW比較適合常見詞,在本研究中,主要為常見詞,故選擇CBOW實(shí)現(xiàn)。CBOW模型核心思想是通過目標(biāo)詞wt的上下文詞Context(wt)預(yù)測(cè)目標(biāo)詞:。其中,c為窗口,圖3為c=2的CBOW模型結(jié)構(gòu)。在CBOW中,訓(xùn)練之前需要進(jìn)行相關(guān)初始化,包括利用語料庫建立詞典W={w1,…,wN}、基于詞典和詞頻建立哈夫曼樹、隨機(jī)初始化詞向量Wword={v1,…,vN}和哈夫曼樹內(nèi)部節(jié)點(diǎn)Wnode={θ1,…,θN-1}等,其中,N為詞典長(zhǎng)度,wi、vi分別為第i詞和詞向量,θi為第i節(jié)點(diǎn)向量參數(shù)。

【參考文獻(xiàn)】:
期刊論文
[1]《辭海》的創(chuàng)新之路[J]. 張敏.  出版與印刷. 2019(01)
[2]基于領(lǐng)域詞典的動(dòng)態(tài)規(guī)劃分詞算法[J]. 蔣衛(wèi)麗,陳振華,邵黨國(guó),馬磊,相艷,鄭娜,余正濤.  南京理工大學(xué)學(xué)報(bào). 2019(01)
[3]循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 楊麗,吳雨茜,王俊麗,劉義理.  計(jì)算機(jī)應(yīng)用. 2018(S2)
[4]中文分詞技術(shù)綜述[J]. 馮俐.  現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2018(34)
[5]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的中文分詞[J]. 金宸,李維華,姬晨,金緒澤,郭延哺.  中文信息學(xué)報(bào). 2018(02)
[6]基于雙向長(zhǎng)短時(shí)記憶模型的中文分詞方法[J]. 張洪剛,李煥.  華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(03)

碩士論文
[1]基于深度學(xué)習(xí)中文分詞的研究[D]. 王夢(mèng)鴿.西安郵電大學(xué) 2018
[2]基于深度學(xué)習(xí)的中文分詞方法研究[D]. 劉玉德.華南理工大學(xué) 2018
[3]基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D]. 黃積楊.南京大學(xué) 2016
[4]基于詞典的中文分詞算法改進(jìn)與實(shí)現(xiàn)[D]. 顧劍云.湖南大學(xué) 2016
[5]基于統(tǒng)計(jì)學(xué)習(xí)的中文分詞方法的研究[D]. 王威.東北大學(xué) 2015



本文編號(hào):3625537

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3625537.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ecda3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com