基于深度學(xué)習(xí)的《辭!贩衷~方法
發(fā)布時(shí)間:2022-02-15 00:24
《辭!肥侵袊(guó)文化重要資產(chǎn)之一,具有重大研究?jī)r(jià)值。分詞是數(shù)字《辭!返难芯炕A(chǔ),而《辭!穬(nèi)容比較復(fù)雜,具有古文類(lèi)型廣和知識(shí)領(lǐng)域廣等特點(diǎn),給分詞任務(wù)帶來(lái)一定挑戰(zhàn)。針對(duì)《辭!穬(nèi)容的特點(diǎn),提出基于深度學(xué)習(xí)的分詞方法,首先對(duì)《辭!穬(nèi)容進(jìn)行預(yù)處理,去除包括文言文、詩(shī)、歌等古文內(nèi)容;其次,選擇《新華字典》,并利用CBOW模型訓(xùn)練字向量;最后,選擇BI-LSTM-CRF模型執(zhí)行《辭!贩衷~任務(wù)。實(shí)驗(yàn)結(jié)果顯示,提出的分詞方法,準(zhǔn)確率、召回率和F1值到分別達(dá)到94.18%、94.09%和94.13%,具有較好的分詞表現(xiàn)。
【文章來(lái)源】:現(xiàn)代計(jì)算機(jī). 2020,(16)
【文章頁(yè)數(shù)】:6 頁(yè)
【部分圖文】:
圖1 分詞框架
字向量訓(xùn)練,本文選擇目前主流的CBOW模型,訓(xùn)練框架如圖2所示。字向量訓(xùn)練主要工作包括:利用結(jié)巴分詞工具對(duì)《新華字典》分詞,然后利用CBOW模型訓(xùn)練字向量,最后輸出字向量矩陣。
CBOW是Mikolov等人提出的Word2Vec[14]分布式表示的一種實(shí)現(xiàn)。Word2Vec具有效率高和表示效果好的優(yōu)勢(shì),已經(jīng)成為主流的詞向量和字向量訓(xùn)練模型。Word2Vec模型提供兩種實(shí)現(xiàn)CBOW和SkipGram,文獻(xiàn)[15]提到CBOW比較適合常見(jiàn)詞,在本研究中,主要為常見(jiàn)詞,故選擇CBOW實(shí)現(xiàn)。CBOW模型核心思想是通過(guò)目標(biāo)詞wt的上下文詞Context(wt)預(yù)測(cè)目標(biāo)詞:。其中,c為窗口,圖3為c=2的CBOW模型結(jié)構(gòu)。在CBOW中,訓(xùn)練之前需要進(jìn)行相關(guān)初始化,包括利用語(yǔ)料庫(kù)建立詞典W={w1,…,wN}、基于詞典和詞頻建立哈夫曼樹(shù)、隨機(jī)初始化詞向量Wword={v1,…,vN}和哈夫曼樹(shù)內(nèi)部節(jié)點(diǎn)Wnode={θ1,…,θN-1}等,其中,N為詞典長(zhǎng)度,wi、vi分別為第i詞和詞向量,θi為第i節(jié)點(diǎn)向量參數(shù)。
【參考文獻(xiàn)】:
期刊論文
[1]《辭!返膭(chuàng)新之路[J]. 張敏. 出版與印刷. 2019(01)
[2]基于領(lǐng)域詞典的動(dòng)態(tài)規(guī)劃分詞算法[J]. 蔣衛(wèi)麗,陳振華,邵黨國(guó),馬磊,相艷,鄭娜,余正濤. 南京理工大學(xué)學(xué)報(bào). 2019(01)
[3]循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 楊麗,吳雨茜,王俊麗,劉義理. 計(jì)算機(jī)應(yīng)用. 2018(S2)
[4]中文分詞技術(shù)綜述[J]. 馮俐. 現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版). 2018(34)
[5]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的中文分詞[J]. 金宸,李維華,姬晨,金緒澤,郭延哺. 中文信息學(xué)報(bào). 2018(02)
[6]基于雙向長(zhǎng)短時(shí)記憶模型的中文分詞方法[J]. 張洪剛,李煥. 華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(03)
碩士論文
[1]基于深度學(xué)習(xí)中文分詞的研究[D]. 王夢(mèng)鴿.西安郵電大學(xué) 2018
[2]基于深度學(xué)習(xí)的中文分詞方法研究[D]. 劉玉德.華南理工大學(xué) 2018
[3]基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D]. 黃積楊.南京大學(xué) 2016
[4]基于詞典的中文分詞算法改進(jìn)與實(shí)現(xiàn)[D]. 顧劍云.湖南大學(xué) 2016
[5]基于統(tǒng)計(jì)學(xué)習(xí)的中文分詞方法的研究[D]. 王威.東北大學(xué) 2015
本文編號(hào):3625537
【文章來(lái)源】:現(xiàn)代計(jì)算機(jī). 2020,(16)
【文章頁(yè)數(shù)】:6 頁(yè)
【部分圖文】:
圖1 分詞框架
字向量訓(xùn)練,本文選擇目前主流的CBOW模型,訓(xùn)練框架如圖2所示。字向量訓(xùn)練主要工作包括:利用結(jié)巴分詞工具對(duì)《新華字典》分詞,然后利用CBOW模型訓(xùn)練字向量,最后輸出字向量矩陣。
CBOW是Mikolov等人提出的Word2Vec[14]分布式表示的一種實(shí)現(xiàn)。Word2Vec具有效率高和表示效果好的優(yōu)勢(shì),已經(jīng)成為主流的詞向量和字向量訓(xùn)練模型。Word2Vec模型提供兩種實(shí)現(xiàn)CBOW和SkipGram,文獻(xiàn)[15]提到CBOW比較適合常見(jiàn)詞,在本研究中,主要為常見(jiàn)詞,故選擇CBOW實(shí)現(xiàn)。CBOW模型核心思想是通過(guò)目標(biāo)詞wt的上下文詞Context(wt)預(yù)測(cè)目標(biāo)詞:。其中,c為窗口,圖3為c=2的CBOW模型結(jié)構(gòu)。在CBOW中,訓(xùn)練之前需要進(jìn)行相關(guān)初始化,包括利用語(yǔ)料庫(kù)建立詞典W={w1,…,wN}、基于詞典和詞頻建立哈夫曼樹(shù)、隨機(jī)初始化詞向量Wword={v1,…,vN}和哈夫曼樹(shù)內(nèi)部節(jié)點(diǎn)Wnode={θ1,…,θN-1}等,其中,N為詞典長(zhǎng)度,wi、vi分別為第i詞和詞向量,θi為第i節(jié)點(diǎn)向量參數(shù)。
【參考文獻(xiàn)】:
期刊論文
[1]《辭!返膭(chuàng)新之路[J]. 張敏. 出版與印刷. 2019(01)
[2]基于領(lǐng)域詞典的動(dòng)態(tài)規(guī)劃分詞算法[J]. 蔣衛(wèi)麗,陳振華,邵黨國(guó),馬磊,相艷,鄭娜,余正濤. 南京理工大學(xué)學(xué)報(bào). 2019(01)
[3]循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 楊麗,吳雨茜,王俊麗,劉義理. 計(jì)算機(jī)應(yīng)用. 2018(S2)
[4]中文分詞技術(shù)綜述[J]. 馮俐. 現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版). 2018(34)
[5]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的中文分詞[J]. 金宸,李維華,姬晨,金緒澤,郭延哺. 中文信息學(xué)報(bào). 2018(02)
[6]基于雙向長(zhǎng)短時(shí)記憶模型的中文分詞方法[J]. 張洪剛,李煥. 華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(03)
碩士論文
[1]基于深度學(xué)習(xí)中文分詞的研究[D]. 王夢(mèng)鴿.西安郵電大學(xué) 2018
[2]基于深度學(xué)習(xí)的中文分詞方法研究[D]. 劉玉德.華南理工大學(xué) 2018
[3]基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D]. 黃積楊.南京大學(xué) 2016
[4]基于詞典的中文分詞算法改進(jìn)與實(shí)現(xiàn)[D]. 顧劍云.湖南大學(xué) 2016
[5]基于統(tǒng)計(jì)學(xué)習(xí)的中文分詞方法的研究[D]. 王威.東北大學(xué) 2015
本文編號(hào):3625537
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3625537.html
最近更新
教材專(zhuān)著