天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于主題模型詞向量的柬埔寨語(yǔ)命名實(shí)體識(shí)別

發(fā)布時(shí)間:2021-11-27 00:06
  命名實(shí)體識(shí)別任務(wù)作為自然語(yǔ)言處理領(lǐng)域中的一項(xiàng)基本任務(wù),其對(duì)于文本的理解和翻譯均具有積極的推動(dòng)作用。由于不同語(yǔ)言之間的差異性使得傳統(tǒng)中英文命名實(shí)體技術(shù)難以移植到柬埔寨語(yǔ)上。為了豐富柬埔寨語(yǔ)自然語(yǔ)言處理工作的理論和應(yīng)用,本文使用BiLSTM-CRF模型進(jìn)行柬埔寨語(yǔ)命名實(shí)體識(shí)別的研究,并將基于HDP主題模型得到的主題詞向量作為BiLSTM神經(jīng)網(wǎng)絡(luò)的輸入特征。本文的主要工作具體如下:(1)針對(duì)單一詞向量中存在的一詞多義和一義多詞的問(wèn)題,提出了一種基于HDP主題模型的主題詞向量的構(gòu)造方法。該方法是在單一詞向量基礎(chǔ)上融入了主題信息,首先通過(guò)HDP主題模型得到單詞主題標(biāo)簽,然后將其視為偽單詞與單詞一起輸入Skip-gram模型同時(shí)訓(xùn)練出主題向量和詞向量,最后將文本主題信息的主題向量與單詞訓(xùn)練后得到的詞向量進(jìn)行級(jí)聯(lián),獲得文本中每個(gè)詞的主題詞向量。與未融入主題信息的詞向量模型相比,該方法在單詞相似度和文本分類方面均取得更好的效果,因而本文獲取的主題詞向量具有更多的語(yǔ)義信息。(2)針對(duì)傳統(tǒng)命名實(shí)體方法過(guò)多依靠人工特征工程的問(wèn)題,提出了基于BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)的柬埔寨語(yǔ)命名實(shí)體識(shí)別方法。該方法一方面... 

【文章來(lái)源】:昆明理工大學(xué)云南省

【文章頁(yè)數(shù)】:70 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于主題模型詞向量的柬埔寨語(yǔ)命名實(shí)體識(shí)別


爬取的柬埔寨語(yǔ)料

模型圖,主題詞,模型,向量


第三章基于HDP主題模型的主題詞向量構(gòu)造方法272613dinn(3.29)其中,表示等級(jí)個(gè)數(shù),即測(cè)試集中包含的詞語(yǔ)對(duì)的數(shù)量。d表示兩組單詞之間的等級(jí)差數(shù),d表示第i組單詞的等級(jí)差。圖3.6數(shù)據(jù)集SCWS在該實(shí)驗(yàn)任務(wù)中,進(jìn)行的對(duì)比實(shí)驗(yàn)是將本文所得到的主題詞向量模型和skip-gram模型、LDA主題模型、HDP主題模型、LDA-Skip-gram的主題詞向量模型在上下文單詞相似度任務(wù)上進(jìn)行結(jié)果對(duì)比。(2)文本分類實(shí)驗(yàn)本章節(jié)中進(jìn)行文本分類實(shí)驗(yàn)采用的數(shù)據(jù)集是基于柬埔寨語(yǔ)官方網(wǎng)站爬取的,其中80%的語(yǔ)料作為實(shí)驗(yàn)訓(xùn)練集,20%的語(yǔ)料用于實(shí)驗(yàn)的測(cè)試集。然后對(duì)這些語(yǔ)料進(jìn)行整理并進(jìn)行預(yù)處理的訓(xùn)練。文本的預(yù)處理是對(duì)原始語(yǔ)料進(jìn)行分詞和去停用詞的處理,使用的分詞工具是KhmerUnicodeLineBreake。為了能夠提取文檔的特征,本文引入文檔向量:dP(|)wzcwdwd(3.30)其中,表示一個(gè)擁有一定主題數(shù)目的文檔,是該文檔中的單詞。為簡(jiǎn)化計(jì)算,本文中采用TFIDF權(quán)重算法來(lái)對(duì)P(|)進(jìn)行計(jì)算,此時(shí)文檔的特征向量便可求出,即為所有主題詞向量的加權(quán)求和。然后再使用基于支持向量機(jī)的分類方法的方法得到最終的文本分類。在該實(shí)驗(yàn)任務(wù)中,將本文的到的主題詞向量模型和LDA主題模型、skip-gram模型、HDP主題模型以及LDA-skip-gram主題詞向量模型進(jìn)行對(duì)比。其中,LDA主題模型和HDP主題模型均是使用其模型中的主題分布來(lái)代表文檔;skip-gram模型中則是將對(duì)文本中所有單詞

語(yǔ)料,柬埔寨


第五章基于主題模型詞向量的柬埔寨語(yǔ)命名實(shí)體識(shí)別原型系統(tǒng)45第五章基于主題模型詞向量的柬埔寨語(yǔ)命名實(shí)體識(shí)別原型系統(tǒng)5.1引言柬埔寨語(yǔ)的命名實(shí)體識(shí)別是柬埔寨語(yǔ)諸多自然語(yǔ)言處理任務(wù)的基礎(chǔ)工作,柬埔寨語(yǔ)命名實(shí)體識(shí)別效果的好壞直接影響著對(duì)柬埔寨語(yǔ)研究的其他上層自然語(yǔ)言處理任務(wù)的進(jìn)行。因此,進(jìn)行柬埔寨語(yǔ)的命名實(shí)體識(shí)別原型系統(tǒng)的建立是十分有必要的。本文的第二章主要介紹了LSTM神經(jīng)網(wǎng)絡(luò)模型的原理以及前向后向傳播的過(guò)程,為理解BiLSTM神經(jīng)網(wǎng)絡(luò)模型打下理論基礎(chǔ);第三章主要介紹了基于HDP主題模型的主題詞向量的構(gòu)造方法;第四章主要介紹了了基于BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)的柬埔寨語(yǔ)的命名實(shí)體識(shí)別的方法,并驗(yàn)證通過(guò)此方法能夠在現(xiàn)有基礎(chǔ)上提高柬埔寨語(yǔ)命名實(shí)體識(shí)別的效果。本章將將上述章節(jié)中的研究開(kāi)發(fā)成果進(jìn)行整理并開(kāi)發(fā)出柬埔寨語(yǔ)的命名實(shí)體識(shí)別的原型系統(tǒng)。5.2語(yǔ)料的收集本文語(yǔ)料的收集分為兩部分,一部分是來(lái)自于PLC官網(wǎng)網(wǎng)上公開(kāi)的語(yǔ)料集KCorpus(如下圖5.1所示),該語(yǔ)料集是一個(gè)已經(jīng)進(jìn)行過(guò)分詞和詞性標(biāo)注的語(yǔ)料集,在本文中只需要對(duì)其分詞和標(biāo)注的結(jié)果進(jìn)行人工校對(duì)即可。另一部分的語(yǔ)料集是源于爬取柬埔寨官方網(wǎng)站上的語(yǔ)料集(如圖3.5所示),該語(yǔ)料集首先使用實(shí)驗(yàn)室開(kāi)發(fā)的柬埔寨語(yǔ)的分詞工具,然后針對(duì)其分詞結(jié)果進(jìn)行預(yù)處理。圖5.1KCorpus語(yǔ)料

【參考文獻(xiàn)】:
期刊論文
[1]基于維基百科的中文嵌套命名實(shí)體識(shí)別語(yǔ)料庫(kù)自動(dòng)構(gòu)建[J]. 李雁群,何云琪,錢(qián)龍華,周國(guó)棟.  計(jì)算機(jī)工程. 2018(11)
[2]基于BiLSTM-CNN-CRF模型的維吾爾文命名實(shí)體識(shí)別[J]. 買買提阿依甫,吾守爾·斯拉木,帕麗旦·木合塔爾,楊文忠.  計(jì)算機(jī)工程. 2018(08)
[3]命名實(shí)體識(shí)別研究綜述[J]. 劉瀏,王東波.  情報(bào)學(xué)報(bào). 2018(03)
[4]主題聯(lián)合詞向量模型[J]. 吳旭康,楊旭光,陳園園,王營(yíng)冠,張閱川.  計(jì)算機(jī)工程. 2018(02)
[5]中文電子病歷命名實(shí)體和實(shí)體關(guān)系語(yǔ)料庫(kù)構(gòu)建[J]. 楊錦鋒,關(guān)毅,何彬,曲春燕,于秋濱,劉雅欣,趙永杰.  軟件學(xué)報(bào). 2016(11)
[6]中文電子病歷命名實(shí)體標(biāo)注語(yǔ)料庫(kù)構(gòu)建[J]. 曲春燕,關(guān)毅,楊錦鋒,趙永杰,劉雅欣.  高技術(shù)通訊. 2015 (02)
[7]基于規(guī)則的越南語(yǔ)命名實(shí)體識(shí)別研究[J]. 閆丹輝,畢玉德.  中文信息學(xué)報(bào). 2014(05)
[8]基于條件隨機(jī)場(chǎng)的越南語(yǔ)命名實(shí)體識(shí)別方法[J]. 潘清清,周楓,余正濤,郭劍毅,線巖團(tuán).  山東大學(xué)學(xué)報(bào)(理學(xué)版). 2014(01)
[9]基于條件隨機(jī)場(chǎng)的維吾爾人名識(shí)別方法[J]. 艾斯卡爾·肉孜,宗成慶,姑麗加瑪麗·麥麥提艾力,熱合木·馬合木提,艾斯卡爾·艾木都拉.  清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(06)
[10]基于最大熵模型的中國(guó)人名自動(dòng)識(shí)別[J]. 曹波,蘇一丹,鄧琦.  計(jì)算機(jī)工程與應(yīng)用. 2009(04)

碩士論文
[1]基于主題模型和詞向量的短文本語(yǔ)義挖掘研究[D]. 李思宇.太原理工大學(xué) 2018
[2]基于遞歸神經(jīng)網(wǎng)絡(luò)的生物醫(yī)學(xué)命名實(shí)體識(shí)別[D]. 金留可.大連理工大學(xué) 2016
[3]基于約束條件隨機(jī)場(chǎng)的柬埔寨語(yǔ)命名實(shí)體識(shí)別研究[D]. 黃淑慧.昆明理工大學(xué) 2016
[4]基于條件隨機(jī)場(chǎng)的柬埔寨語(yǔ)詞法分析方法研究[D]. 潘華山.昆明理工大學(xué) 2014



本文編號(hào):3521192

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3521192.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶21737***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com