天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于主題模型詞向量的柬埔寨語命名實體識別

發(fā)布時間:2021-11-27 00:06
  命名實體識別任務(wù)作為自然語言處理領(lǐng)域中的一項基本任務(wù),其對于文本的理解和翻譯均具有積極的推動作用。由于不同語言之間的差異性使得傳統(tǒng)中英文命名實體技術(shù)難以移植到柬埔寨語上。為了豐富柬埔寨語自然語言處理工作的理論和應(yīng)用,本文使用BiLSTM-CRF模型進行柬埔寨語命名實體識別的研究,并將基于HDP主題模型得到的主題詞向量作為BiLSTM神經(jīng)網(wǎng)絡(luò)的輸入特征。本文的主要工作具體如下:(1)針對單一詞向量中存在的一詞多義和一義多詞的問題,提出了一種基于HDP主題模型的主題詞向量的構(gòu)造方法。該方法是在單一詞向量基礎(chǔ)上融入了主題信息,首先通過HDP主題模型得到單詞主題標簽,然后將其視為偽單詞與單詞一起輸入Skip-gram模型同時訓(xùn)練出主題向量和詞向量,最后將文本主題信息的主題向量與單詞訓(xùn)練后得到的詞向量進行級聯(lián),獲得文本中每個詞的主題詞向量。與未融入主題信息的詞向量模型相比,該方法在單詞相似度和文本分類方面均取得更好的效果,因而本文獲取的主題詞向量具有更多的語義信息。(2)針對傳統(tǒng)命名實體方法過多依靠人工特征工程的問題,提出了基于BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)的柬埔寨語命名實體識別方法。該方法一方面... 

【文章來源】:昆明理工大學(xué)云南省

【文章頁數(shù)】:70 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于主題模型詞向量的柬埔寨語命名實體識別


爬取的柬埔寨語料

模型圖,主題詞,模型,向量


第三章基于HDP主題模型的主題詞向量構(gòu)造方法272613dinn(3.29)其中,表示等級個數(shù),即測試集中包含的詞語對的數(shù)量。d表示兩組單詞之間的等級差數(shù),d表示第i組單詞的等級差。圖3.6數(shù)據(jù)集SCWS在該實驗任務(wù)中,進行的對比實驗是將本文所得到的主題詞向量模型和skip-gram模型、LDA主題模型、HDP主題模型、LDA-Skip-gram的主題詞向量模型在上下文單詞相似度任務(wù)上進行結(jié)果對比。(2)文本分類實驗本章節(jié)中進行文本分類實驗采用的數(shù)據(jù)集是基于柬埔寨語官方網(wǎng)站爬取的,其中80%的語料作為實驗訓(xùn)練集,20%的語料用于實驗的測試集。然后對這些語料進行整理并進行預(yù)處理的訓(xùn)練。文本的預(yù)處理是對原始語料進行分詞和去停用詞的處理,使用的分詞工具是KhmerUnicodeLineBreake。為了能夠提取文檔的特征,本文引入文檔向量:dP(|)wzcwdwd(3.30)其中,表示一個擁有一定主題數(shù)目的文檔,是該文檔中的單詞。為簡化計算,本文中采用TFIDF權(quán)重算法來對P(|)進行計算,此時文檔的特征向量便可求出,即為所有主題詞向量的加權(quán)求和。然后再使用基于支持向量機的分類方法的方法得到最終的文本分類。在該實驗任務(wù)中,將本文的到的主題詞向量模型和LDA主題模型、skip-gram模型、HDP主題模型以及LDA-skip-gram主題詞向量模型進行對比。其中,LDA主題模型和HDP主題模型均是使用其模型中的主題分布來代表文檔;skip-gram模型中則是將對文本中所有單詞

語料,柬埔寨


第五章基于主題模型詞向量的柬埔寨語命名實體識別原型系統(tǒng)45第五章基于主題模型詞向量的柬埔寨語命名實體識別原型系統(tǒng)5.1引言柬埔寨語的命名實體識別是柬埔寨語諸多自然語言處理任務(wù)的基礎(chǔ)工作,柬埔寨語命名實體識別效果的好壞直接影響著對柬埔寨語研究的其他上層自然語言處理任務(wù)的進行。因此,進行柬埔寨語的命名實體識別原型系統(tǒng)的建立是十分有必要的。本文的第二章主要介紹了LSTM神經(jīng)網(wǎng)絡(luò)模型的原理以及前向后向傳播的過程,為理解BiLSTM神經(jīng)網(wǎng)絡(luò)模型打下理論基礎(chǔ);第三章主要介紹了基于HDP主題模型的主題詞向量的構(gòu)造方法;第四章主要介紹了了基于BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)的柬埔寨語的命名實體識別的方法,并驗證通過此方法能夠在現(xiàn)有基礎(chǔ)上提高柬埔寨語命名實體識別的效果。本章將將上述章節(jié)中的研究開發(fā)成果進行整理并開發(fā)出柬埔寨語的命名實體識別的原型系統(tǒng)。5.2語料的收集本文語料的收集分為兩部分,一部分是來自于PLC官網(wǎng)網(wǎng)上公開的語料集KCorpus(如下圖5.1所示),該語料集是一個已經(jīng)進行過分詞和詞性標注的語料集,在本文中只需要對其分詞和標注的結(jié)果進行人工校對即可。另一部分的語料集是源于爬取柬埔寨官方網(wǎng)站上的語料集(如圖3.5所示),該語料集首先使用實驗室開發(fā)的柬埔寨語的分詞工具,然后針對其分詞結(jié)果進行預(yù)處理。圖5.1KCorpus語料

【參考文獻】:
期刊論文
[1]基于維基百科的中文嵌套命名實體識別語料庫自動構(gòu)建[J]. 李雁群,何云琪,錢龍華,周國棟.  計算機工程. 2018(11)
[2]基于BiLSTM-CNN-CRF模型的維吾爾文命名實體識別[J]. 買買提阿依甫,吾守爾·斯拉木,帕麗旦·木合塔爾,楊文忠.  計算機工程. 2018(08)
[3]命名實體識別研究綜述[J]. 劉瀏,王東波.  情報學(xué)報. 2018(03)
[4]主題聯(lián)合詞向量模型[J]. 吳旭康,楊旭光,陳園園,王營冠,張閱川.  計算機工程. 2018(02)
[5]中文電子病歷命名實體和實體關(guān)系語料庫構(gòu)建[J]. 楊錦鋒,關(guān)毅,何彬,曲春燕,于秋濱,劉雅欣,趙永杰.  軟件學(xué)報. 2016(11)
[6]中文電子病歷命名實體標注語料庫構(gòu)建[J]. 曲春燕,關(guān)毅,楊錦鋒,趙永杰,劉雅欣.  高技術(shù)通訊. 2015 (02)
[7]基于規(guī)則的越南語命名實體識別研究[J]. 閆丹輝,畢玉德.  中文信息學(xué)報. 2014(05)
[8]基于條件隨機場的越南語命名實體識別方法[J]. 潘清清,周楓,余正濤,郭劍毅,線巖團.  山東大學(xué)學(xué)報(理學(xué)版). 2014(01)
[9]基于條件隨機場的維吾爾人名識別方法[J]. 艾斯卡爾·肉孜,宗成慶,姑麗加瑪麗·麥麥提艾力,熱合木·馬合木提,艾斯卡爾·艾木都拉.  清華大學(xué)學(xué)報(自然科學(xué)版). 2013(06)
[10]基于最大熵模型的中國人名自動識別[J]. 曹波,蘇一丹,鄧琦.  計算機工程與應(yīng)用. 2009(04)

碩士論文
[1]基于主題模型和詞向量的短文本語義挖掘研究[D]. 李思宇.太原理工大學(xué) 2018
[2]基于遞歸神經(jīng)網(wǎng)絡(luò)的生物醫(yī)學(xué)命名實體識別[D]. 金留可.大連理工大學(xué) 2016
[3]基于約束條件隨機場的柬埔寨語命名實體識別研究[D]. 黃淑慧.昆明理工大學(xué) 2016
[4]基于條件隨機場的柬埔寨語詞法分析方法研究[D]. 潘華山.昆明理工大學(xué) 2014



本文編號:3521192

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3521192.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶21737***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产一区二区三区午夜精品| 五月激情婷婷丁香六月网| 91免费一区二区三区| 欧美激情床戏一区二区三| 色综合伊人天天综合网中文| 免费一级欧美大片免费看| 色狠狠一区二区三区香蕉蜜桃| 国产精品香蕉在线的人| 日本精品理论在线观看| 欧美视频在线观看一区| 福利视频一区二区在线| 九九热在线视频观看最新| 国产传媒免费观看视频| 激情中文字幕在线观看| 日本人妻精品中文字幕不卡乱码| 亚洲二区欧美一区二区| 亚洲成人久久精品国产| 出差被公高潮久久中文字幕| 日韩在线精品视频观看| 国产色偷丝袜麻豆亚洲| 成人精品国产亚洲av久久| 国产欧美日韩精品成人专区| 欧美精品女同一区二区| 九九热精品视频在线观看| 99久久精品免费精品国产| 91插插插外国一区二区| 视频一区日韩经典中文字幕| 中国一区二区三区不卡| 一区二区三区亚洲国产| 国产传媒一区二区三区| 色涩一区二区三区四区| 经典欧美熟女激情综合网| 91日韩欧美中文字幕| 亚洲精品小视频在线观看| 久久人妻人人澡人人妻| 亚洲伦片免费偷拍一区| 91欧美日韩精品在线| 91日韩欧美国产视频| 中文字幕日韩精品人一妻| 国内外激情免费在线视频| 日本高清一道一二三区四五区|