基于VCK-vector模型的中文多義詞消歧方法研究
發(fā)布時(shí)間:2021-05-17 02:27
自計(jì)算機(jī)被研發(fā)問(wèn)世以來(lái),人類(lèi)從最開(kāi)始使用二進(jìn)制碼與計(jì)算機(jī)進(jìn)行互動(dòng),到使用匯編語(yǔ)言給計(jì)算機(jī)發(fā)送指令,再到之后的使用高級(jí)編程語(yǔ)言調(diào)用計(jì)算機(jī)的各項(xiàng)功能,經(jīng)歷了漫長(zhǎng)的發(fā)展。但是即便使用高級(jí)編程語(yǔ)言與計(jì)算機(jī)進(jìn)行交互,依然沒(méi)有達(dá)到人類(lèi)不懈追求的最終目標(biāo)—“讓計(jì)算機(jī)理解人類(lèi)的自然語(yǔ)言”。因此,如何讓計(jì)算機(jī)理解人類(lèi)的自然語(yǔ)言這一研究領(lǐng)域應(yīng)運(yùn)而生,即自然語(yǔ)言處理(NLP)。而在NLP中,存在最大的問(wèn)題就是自然語(yǔ)言并不像高級(jí)編程語(yǔ)言或者匯編語(yǔ)言那樣,每一條代碼或者指令最后都只會(huì)轉(zhuǎn)化為一條唯一確定的計(jì)算機(jī)能夠理解的二進(jìn)制編碼。這是由于在自然語(yǔ)言中,無(wú)論文章、句子還是詞語(yǔ),都存在多義和歧義的特點(diǎn)造成的。所以如何消除自然語(yǔ)言中的歧義成為了自然語(yǔ)言處理研究中的重點(diǎn)和難點(diǎn)問(wèn)題。自然語(yǔ)言處理中的歧義問(wèn)題,從基礎(chǔ)上影響和制約著自然語(yǔ)言在各個(gè)領(lǐng)域的應(yīng)用效果和質(zhì)量,比如在機(jī)器翻譯領(lǐng)域中的應(yīng)用、文本處理領(lǐng)域中的應(yīng)用、信息檢索領(lǐng)域和數(shù)據(jù)分析領(lǐng)域中的應(yīng)用等;谝陨媳尘,本文將基于Viterbi算法的詞性標(biāo)注模型、CBOW語(yǔ)言模型及K-Means聚類(lèi)算法進(jìn)行組合,構(gòu)建一種基于詞向量的多義詞組合消歧模型(VCK-Vector)。通...
【文章來(lái)源】:昆明理工大學(xué)云南省
【文章頁(yè)數(shù)】:101 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 國(guó)外研究現(xiàn)狀
1.2.2 國(guó)內(nèi)研究現(xiàn)狀
1.2.3 評(píng)述及研究問(wèn)題的提出
1.3 本文主要研究?jī)?nèi)容
1.4 技術(shù)路線(xiàn)
第二章 相關(guān)概念及模型方法介紹
2.1 自然語(yǔ)言處理(NLP)
2.2 自然語(yǔ)言處理包含的研究?jī)?nèi)容及其體系
2.3 詞的表示方法
2.3.1 One-hot表示法
2.3.2 N-gram模型
2.3.3 共現(xiàn)矩陣
2.4 SVD(奇異值分解)
2.5 中文詞語(yǔ)向量化的語(yǔ)言模型
2.5.1 CBOW和 Skip-gram語(yǔ)言模型
2.5.2 Hierarchical Softmax算法
2.5.3 Negative Sampling算法
2.6 Viterbi算法
2.7 K-Means聚類(lèi)
2.8 詞義消歧
2.8.1 基于人工定義規(guī)則的消歧方法
2.8.2 基于知識(shí)庫(kù)的消歧方法
2.8.3 基于統(tǒng)計(jì)學(xué)的消歧方法
2.8.4 基于實(shí)例的消歧方法
2.9 本章小結(jié)
第三章 VCK-vector模型的構(gòu)建
3.1 研究問(wèn)題描述
3.2 消歧模型的消歧原理及構(gòu)建流程
3.3 上下文特征的提取
3.4 結(jié)合詞性標(biāo)注的上下文特征改進(jìn)
3.5 結(jié)合上下文特征的詞向量訓(xùn)練及其處理過(guò)程
3.6 VCK-vector模型
3.7 本章小結(jié)
第四章 VCK-vector模型的實(shí)現(xiàn)
4.1 維基百科中文語(yǔ)料庫(kù)的預(yù)處理
4.1.1 語(yǔ)料庫(kù)格式轉(zhuǎn)換
4.1.2 語(yǔ)料庫(kù)字體轉(zhuǎn)換
4.1.3 清洗語(yǔ)料庫(kù)
4.2 分詞及詞性標(biāo)注
4.2.1 分詞
4.2.2 詞性標(biāo)注
4.3 訓(xùn)練詞向量
4.4 K-Means聚類(lèi)
4.5 本章小結(jié)
第五章 模型對(duì)比及實(shí)驗(yàn)結(jié)果分析
5.1 實(shí)驗(yàn)環(huán)境及開(kāi)發(fā)環(huán)境(IDE)
5.2 N-gram與基于Viterbi算法的詞性標(biāo)注模型
5.3 CBOW與 Skip-gram語(yǔ)言模型
5.4 未標(biāo)注與已標(biāo)注語(yǔ)料庫(kù)的詞向量對(duì)比
5.5 K-Means聚類(lèi)改進(jìn)后的詞向量
5.6 VCK-vector模型與百度AI詞向量的對(duì)比
5.7 VCK-vector模型的驗(yàn)證與評(píng)價(jià)
5.8 本章小結(jié)
第六章 結(jié)論與展望
6.1 結(jié)論
6.2 展望
致謝
參考文獻(xiàn)
附錄
學(xué)術(shù)論文和科研成果
【參考文獻(xiàn)】:
期刊論文
[1]基于GloVe模型的詞向量改進(jìn)方法[J]. 陳珍銳,丁治明. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(01)
[2]基于詞向量的向量空間模型的改進(jìn)[J]. 殷功俊. 現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版). 2018(36)
[3]一種基于多義詞向量表示的詞義消歧方法[J]. 李國(guó)佳,趙瑩地,郭鴻奇. 智能計(jì)算機(jī)與應(yīng)用. 2018(04)
[4]基于語(yǔ)義信息的中文分詞研究[J]. 張生杰,霍丹. 電腦知識(shí)與技術(shù). 2018(22)
[5]基于上下文信息的中文命名實(shí)體消歧方法研究[J]. 王旭陽(yáng),姜喜秋. 計(jì)算機(jī)應(yīng)用研究. 2018(04)
[6]一種半監(jiān)督的漢語(yǔ)詞義消歧方法[J]. 張春祥,徐志峰,高雪瑤. 西南交通大學(xué)學(xué)報(bào). 2019(02)
[7]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的中文分詞[J]. 金宸,李維華,姬晨,金緒澤,郭延哺. 中文信息學(xué)報(bào). 2018(02)
[8]兩種詞義消歧方法分析與比較[J]. 張國(guó)清. 信息與電腦(理論版). 2017(19)
[9]基于N-gram模型的中文分詞算法的研究[J]. 丁潔,趙景惠. 福建電腦. 2017(05)
[10]一種多義詞詞向量計(jì)算方法[J]. 曾琦,周剛,蘭明敬,王濛. 小型微型計(jì)算機(jī)系統(tǒng). 2016(07)
碩士論文
[1]多義詞向量的優(yōu)化研究[D]. 唐波.北京郵電大學(xué) 2016
[2]面向全文標(biāo)注的中文詞義消歧研究與實(shí)現(xiàn)[D]. 卞月峰.南京師范大學(xué) 2015
[3]基于維基百科的命名實(shí)體消歧的研究與實(shí)現(xiàn)[D]. 楊雪.北京郵電大學(xué) 2014
[4]中文分詞關(guān)鍵技術(shù)研究[D]. 曹衛(wèi)峰.南京理工大學(xué) 2009
本文編號(hào):3190891
【文章來(lái)源】:昆明理工大學(xué)云南省
【文章頁(yè)數(shù)】:101 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 國(guó)外研究現(xiàn)狀
1.2.2 國(guó)內(nèi)研究現(xiàn)狀
1.2.3 評(píng)述及研究問(wèn)題的提出
1.3 本文主要研究?jī)?nèi)容
1.4 技術(shù)路線(xiàn)
第二章 相關(guān)概念及模型方法介紹
2.1 自然語(yǔ)言處理(NLP)
2.2 自然語(yǔ)言處理包含的研究?jī)?nèi)容及其體系
2.3 詞的表示方法
2.3.1 One-hot表示法
2.3.2 N-gram模型
2.3.3 共現(xiàn)矩陣
2.4 SVD(奇異值分解)
2.5 中文詞語(yǔ)向量化的語(yǔ)言模型
2.5.1 CBOW和 Skip-gram語(yǔ)言模型
2.5.2 Hierarchical Softmax算法
2.5.3 Negative Sampling算法
2.6 Viterbi算法
2.7 K-Means聚類(lèi)
2.8 詞義消歧
2.8.1 基于人工定義規(guī)則的消歧方法
2.8.2 基于知識(shí)庫(kù)的消歧方法
2.8.3 基于統(tǒng)計(jì)學(xué)的消歧方法
2.8.4 基于實(shí)例的消歧方法
2.9 本章小結(jié)
第三章 VCK-vector模型的構(gòu)建
3.1 研究問(wèn)題描述
3.2 消歧模型的消歧原理及構(gòu)建流程
3.3 上下文特征的提取
3.4 結(jié)合詞性標(biāo)注的上下文特征改進(jìn)
3.5 結(jié)合上下文特征的詞向量訓(xùn)練及其處理過(guò)程
3.6 VCK-vector模型
3.7 本章小結(jié)
第四章 VCK-vector模型的實(shí)現(xiàn)
4.1 維基百科中文語(yǔ)料庫(kù)的預(yù)處理
4.1.1 語(yǔ)料庫(kù)格式轉(zhuǎn)換
4.1.2 語(yǔ)料庫(kù)字體轉(zhuǎn)換
4.1.3 清洗語(yǔ)料庫(kù)
4.2 分詞及詞性標(biāo)注
4.2.1 分詞
4.2.2 詞性標(biāo)注
4.3 訓(xùn)練詞向量
4.4 K-Means聚類(lèi)
4.5 本章小結(jié)
第五章 模型對(duì)比及實(shí)驗(yàn)結(jié)果分析
5.1 實(shí)驗(yàn)環(huán)境及開(kāi)發(fā)環(huán)境(IDE)
5.2 N-gram與基于Viterbi算法的詞性標(biāo)注模型
5.3 CBOW與 Skip-gram語(yǔ)言模型
5.4 未標(biāo)注與已標(biāo)注語(yǔ)料庫(kù)的詞向量對(duì)比
5.5 K-Means聚類(lèi)改進(jìn)后的詞向量
5.6 VCK-vector模型與百度AI詞向量的對(duì)比
5.7 VCK-vector模型的驗(yàn)證與評(píng)價(jià)
5.8 本章小結(jié)
第六章 結(jié)論與展望
6.1 結(jié)論
6.2 展望
致謝
參考文獻(xiàn)
附錄
學(xué)術(shù)論文和科研成果
【參考文獻(xiàn)】:
期刊論文
[1]基于GloVe模型的詞向量改進(jìn)方法[J]. 陳珍銳,丁治明. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(01)
[2]基于詞向量的向量空間模型的改進(jìn)[J]. 殷功俊. 現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版). 2018(36)
[3]一種基于多義詞向量表示的詞義消歧方法[J]. 李國(guó)佳,趙瑩地,郭鴻奇. 智能計(jì)算機(jī)與應(yīng)用. 2018(04)
[4]基于語(yǔ)義信息的中文分詞研究[J]. 張生杰,霍丹. 電腦知識(shí)與技術(shù). 2018(22)
[5]基于上下文信息的中文命名實(shí)體消歧方法研究[J]. 王旭陽(yáng),姜喜秋. 計(jì)算機(jī)應(yīng)用研究. 2018(04)
[6]一種半監(jiān)督的漢語(yǔ)詞義消歧方法[J]. 張春祥,徐志峰,高雪瑤. 西南交通大學(xué)學(xué)報(bào). 2019(02)
[7]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的中文分詞[J]. 金宸,李維華,姬晨,金緒澤,郭延哺. 中文信息學(xué)報(bào). 2018(02)
[8]兩種詞義消歧方法分析與比較[J]. 張國(guó)清. 信息與電腦(理論版). 2017(19)
[9]基于N-gram模型的中文分詞算法的研究[J]. 丁潔,趙景惠. 福建電腦. 2017(05)
[10]一種多義詞詞向量計(jì)算方法[J]. 曾琦,周剛,蘭明敬,王濛. 小型微型計(jì)算機(jī)系統(tǒng). 2016(07)
碩士論文
[1]多義詞向量的優(yōu)化研究[D]. 唐波.北京郵電大學(xué) 2016
[2]面向全文標(biāo)注的中文詞義消歧研究與實(shí)現(xiàn)[D]. 卞月峰.南京師范大學(xué) 2015
[3]基于維基百科的命名實(shí)體消歧的研究與實(shí)現(xiàn)[D]. 楊雪.北京郵電大學(xué) 2014
[4]中文分詞關(guān)鍵技術(shù)研究[D]. 曹衛(wèi)峰.南京理工大學(xué) 2009
本文編號(hào):3190891
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3190891.html
最近更新
教材專(zhuān)著