天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于K-means聚類與LSTM的詞義消歧研究

發(fā)布時間:2021-03-19 16:28
  中文包含很多多義詞,結(jié)合不同的語境可以表達截然不同的意思。詞義消歧的概念是針對計算機在自然語言處理領(lǐng)域中的應(yīng)用提出來的。期望通過算法模型,使計算機明確語境并自動選擇歧義詞匯的正確語義。詞義消歧可以增強計算機使用和理解自然語言的能力,在機器翻譯、文本分類等領(lǐng)域的應(yīng)用越來越廣泛。詞義消歧已經(jīng)演變?yōu)樽匀徽Z言處理中亟待解決的重要課題。本文研究的是一種基于K-means聚類與LSTM(Long Short Term Memory,LSTM)的詞義消歧方法。構(gòu)建半監(jiān)督K-means聚類器,對無標注語料聚類,將聚類得到的語料加入訓(xùn)練語料優(yōu)化LSTM模型,并測試LSTM模型的性能。本文主要進行了以下幾個部分的研究:首先,分析了國內(nèi)外關(guān)于詞義消歧的文獻,對目前的研究現(xiàn)狀和發(fā)展有了了解,明確了詞義消歧的目的和意義,總結(jié)了詞義消歧技術(shù)面臨的困難和發(fā)展趨勢。其次,介紹了實驗所需的《同義詞詞林》詞典及語料庫。研究了詞義消歧特征工程方面的相關(guān)知識,詳細描述了K-means聚類器的聚類特征和LSTM分類器的消歧特征的預(yù)處理和選取的過程。詳細說明了貝葉斯分類器和LSTM分類器的消歧過程。最后,構(gòu)建半監(jiān)督K-means... 

【文章來源】:哈爾濱理工大學(xué)黑龍江省

【文章頁數(shù)】:64 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于K-means聚類與LSTM的詞義消歧研究


《同義詞詞林》擴展版結(jié)構(gòu)

過程圖,特征提取,過程,詞匯


哈爾濱理工大學(xué)工學(xué)碩士學(xué)位論文-19-為聚類特征和消歧特征。特征提取過程如圖3-1所示:圖3-1特征提取過程Fig.3-1Processofextractfeatures首先將詞窗尺寸設(shè)為2,然后查找歧義詞匯,利用詞窗在其左右各選取2個最近的詞匯單元。在一條中文語句中最多可獲得四個鄰接的詞匯單元。從每個詞匯單元中,抽取詞形、詞性、語義類、英文譯文和消歧距離作為消歧特征;抽取每個詞匯單元的詞形和語義類作為聚類特征,一方面是因為這兩個特征代表性更強,包含了很多語義信息,利于聚類。另一方面是因為引入過多的聚類特征會產(chǎn)生更多的噪聲數(shù)據(jù),反而不利于提高聚類準確度。在一條中文語句中最多可抽取8個聚類特征和20個消歧特征。這些特征將用于對語料聚類和消歧。以包含歧義詞匯“成立”的中文語句為例,特征提取過程如下所示:中文語句:上月,日本成立了“美林證券公司”。分詞結(jié)果:上月,日本成立了“美林證券公司”。詞性標注結(jié)果:上月/nt,/wp日本/ns成立/v了/u“/wp美林/nz證券/n公司/n”/wp。語義類標注結(jié)果:上月/nt/C,/wp/-1日本/ns/D成立/v/H了/u/K“/wp/-1美林/nz/-1證券/n/D公司/n/D”/wp/-1。去停用詞結(jié)果:上月/nt/C日本/ns/D成立/v/H美林/nz/-1證券/n/D公司/n/D。英文譯文標注結(jié)果:上月/nt/C/lastmonth日本/ns/D/Japan成立/v/H/美林/nz/-1/MeiLin證券/n/D/bond公司/n/D/company。

特征提取,詞匯


哈爾濱理工大學(xué)工學(xué)碩士學(xué)位論文-20-消歧距離標注結(jié)果:上月/nt/C/lastmonth/-0.25日本/ns/D/Japan/-0.5成立/v/H/美林/nz/-1/MeiLin/0.5證券/n/D/bond/0.25公司/n/D/company/0.125。以歧義詞匯“成立”為中心,利用詞窗選取它左側(cè)的詞匯單元為“上月/nt/C/lastmonth/-0.25”和“日本/ns/D/Japan/-0.5”右側(cè)的詞匯單元為“美林/nz/-1/MeiLin/0.5”和“證券/n/D/bond/0.25”。從每個詞匯單元中提取的特征如圖3-2所示。圖3-2特征提取結(jié)果Fig.3-2Resultoffeaturesextraction3.3特征向量化第3.2節(jié)對語料進行了預(yù)處理,提取了聚類特征和消歧特征,提取好的特征要轉(zhuǎn)換為計算機可以識別的數(shù)據(jù)才能作為輸入數(shù)據(jù)輸入到模型中。目前可以通過特征的頻度或位置對特征進行轉(zhuǎn)換。頻度是指在語料庫中查詢每一個特征出現(xiàn)的頻度,然后將每一個特征的頻度轉(zhuǎn)化為指定長度的二進制向量。位置是指依據(jù)分詞結(jié)果對語料庫構(gòu)建詞匯表,每一個特征都有唯一位置與其對應(yīng),利用單一位置在一個已知矩陣中取得唯一向量與其對應(yīng)。本文利用詞匯在詞匯表中的位置對提取的特征進行向量化。

【參考文獻】:
期刊論文
[1]多義詞語義拓撲及有監(jiān)督的詞義消歧研究[J]. 肖銳,蔣家琪,張云春.  計算機科學(xué). 2019(S2)
[2]基于知識圖譜詞義消歧的文本聚類方法[J]. 張延星,王廣祥,朱志蕓,張蝶依.  華北理工大學(xué)學(xué)報(自然科學(xué)版). 2019(04)
[3]一種基于全局領(lǐng)域和短期記憶因子的圖模型[J]. 邵玉涵,李培培,胡學(xué)鋼.  計算機工程與科學(xué). 2019(10)
[4]采用Seq2Seq模型的非受限詞義消歧方法[J]. 唐善成,馬付玉,張鏷月,陳熊熊.  西北大學(xué)學(xué)報(自然科學(xué)版). 2019(03)
[5]基于神經(jīng)網(wǎng)絡(luò)的詞義消歧[J]. 王子牛,陳婭先,高建瓴,吳建華,王許.  軟件. 2019(02)
[6]一種基于詞義向量模型的詞語語義相似度算法[J]. 李小濤,游樹娟,陳維.  自動化學(xué)報. 2020(08)
[7]引入詞性標記的基于語境相似度的詞義消歧[J]. 孟禹光,周俏麗,張桂平,蔡東風(fēng).  中文信息學(xué)報. 2018(08)
[8]漢語復(fù)句中基于依存關(guān)系與最大熵模型的詞義消歧方法研究[J]. 李源,翟宏森,劉鳳嬌,黃文燦,楊夢川.  計算機與數(shù)字工程. 2018(01)
[9]基于上下文翻譯的有監(jiān)督詞義消歧研究[J]. 楊陟卓.  計算機科學(xué). 2017(04)
[10]基于主題模型的中文詞義歸納[J]. 高章敏,何祥,劉嘉勇,湯殿華.  四川大學(xué)學(xué)報(自然科學(xué)版). 2016(06)

碩士論文
[1]基于DBN的詞義消歧研究[D]. 李海瑞.哈爾濱理工大學(xué) 2019



本文編號:3089868

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3089868.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶72065***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com