基于VCK-vector模型的中文多義詞消歧方法研究
發(fā)布時間:2021-05-17 02:27
自計算機被研發(fā)問世以來,人類從最開始使用二進制碼與計算機進行互動,到使用匯編語言給計算機發(fā)送指令,再到之后的使用高級編程語言調(diào)用計算機的各項功能,經(jīng)歷了漫長的發(fā)展。但是即便使用高級編程語言與計算機進行交互,依然沒有達到人類不懈追求的最終目標(biāo)—“讓計算機理解人類的自然語言”。因此,如何讓計算機理解人類的自然語言這一研究領(lǐng)域應(yīng)運而生,即自然語言處理(NLP)。而在NLP中,存在最大的問題就是自然語言并不像高級編程語言或者匯編語言那樣,每一條代碼或者指令最后都只會轉(zhuǎn)化為一條唯一確定的計算機能夠理解的二進制編碼。這是由于在自然語言中,無論文章、句子還是詞語,都存在多義和歧義的特點造成的。所以如何消除自然語言中的歧義成為了自然語言處理研究中的重點和難點問題。自然語言處理中的歧義問題,從基礎(chǔ)上影響和制約著自然語言在各個領(lǐng)域的應(yīng)用效果和質(zhì)量,比如在機器翻譯領(lǐng)域中的應(yīng)用、文本處理領(lǐng)域中的應(yīng)用、信息檢索領(lǐng)域和數(shù)據(jù)分析領(lǐng)域中的應(yīng)用等;谝陨媳尘,本文將基于Viterbi算法的詞性標(biāo)注模型、CBOW語言模型及K-Means聚類算法進行組合,構(gòu)建一種基于詞向量的多義詞組合消歧模型(VCK-Vector)。通...
【文章來源】:昆明理工大學(xué)云南省
【文章頁數(shù)】:101 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.2.3 評述及研究問題的提出
1.3 本文主要研究內(nèi)容
1.4 技術(shù)路線
第二章 相關(guān)概念及模型方法介紹
2.1 自然語言處理(NLP)
2.2 自然語言處理包含的研究內(nèi)容及其體系
2.3 詞的表示方法
2.3.1 One-hot表示法
2.3.2 N-gram模型
2.3.3 共現(xiàn)矩陣
2.4 SVD(奇異值分解)
2.5 中文詞語向量化的語言模型
2.5.1 CBOW和 Skip-gram語言模型
2.5.2 Hierarchical Softmax算法
2.5.3 Negative Sampling算法
2.6 Viterbi算法
2.7 K-Means聚類
2.8 詞義消歧
2.8.1 基于人工定義規(guī)則的消歧方法
2.8.2 基于知識庫的消歧方法
2.8.3 基于統(tǒng)計學(xué)的消歧方法
2.8.4 基于實例的消歧方法
2.9 本章小結(jié)
第三章 VCK-vector模型的構(gòu)建
3.1 研究問題描述
3.2 消歧模型的消歧原理及構(gòu)建流程
3.3 上下文特征的提取
3.4 結(jié)合詞性標(biāo)注的上下文特征改進
3.5 結(jié)合上下文特征的詞向量訓(xùn)練及其處理過程
3.6 VCK-vector模型
3.7 本章小結(jié)
第四章 VCK-vector模型的實現(xiàn)
4.1 維基百科中文語料庫的預(yù)處理
4.1.1 語料庫格式轉(zhuǎn)換
4.1.2 語料庫字體轉(zhuǎn)換
4.1.3 清洗語料庫
4.2 分詞及詞性標(biāo)注
4.2.1 分詞
4.2.2 詞性標(biāo)注
4.3 訓(xùn)練詞向量
4.4 K-Means聚類
4.5 本章小結(jié)
第五章 模型對比及實驗結(jié)果分析
5.1 實驗環(huán)境及開發(fā)環(huán)境(IDE)
5.2 N-gram與基于Viterbi算法的詞性標(biāo)注模型
5.3 CBOW與 Skip-gram語言模型
5.4 未標(biāo)注與已標(biāo)注語料庫的詞向量對比
5.5 K-Means聚類改進后的詞向量
5.6 VCK-vector模型與百度AI詞向量的對比
5.7 VCK-vector模型的驗證與評價
5.8 本章小結(jié)
第六章 結(jié)論與展望
6.1 結(jié)論
6.2 展望
致謝
參考文獻
附錄
學(xué)術(shù)論文和科研成果
【參考文獻】:
期刊論文
[1]基于GloVe模型的詞向量改進方法[J]. 陳珍銳,丁治明. 計算機系統(tǒng)應(yīng)用. 2019(01)
[2]基于詞向量的向量空間模型的改進[J]. 殷功俊. 現(xiàn)代計算機(專業(yè)版). 2018(36)
[3]一種基于多義詞向量表示的詞義消歧方法[J]. 李國佳,趙瑩地,郭鴻奇. 智能計算機與應(yīng)用. 2018(04)
[4]基于語義信息的中文分詞研究[J]. 張生杰,霍丹. 電腦知識與技術(shù). 2018(22)
[5]基于上下文信息的中文命名實體消歧方法研究[J]. 王旭陽,姜喜秋. 計算機應(yīng)用研究. 2018(04)
[6]一種半監(jiān)督的漢語詞義消歧方法[J]. 張春祥,徐志峰,高雪瑤. 西南交通大學(xué)學(xué)報. 2019(02)
[7]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的中文分詞[J]. 金宸,李維華,姬晨,金緒澤,郭延哺. 中文信息學(xué)報. 2018(02)
[8]兩種詞義消歧方法分析與比較[J]. 張國清. 信息與電腦(理論版). 2017(19)
[9]基于N-gram模型的中文分詞算法的研究[J]. 丁潔,趙景惠. 福建電腦. 2017(05)
[10]一種多義詞詞向量計算方法[J]. 曾琦,周剛,蘭明敬,王濛. 小型微型計算機系統(tǒng). 2016(07)
碩士論文
[1]多義詞向量的優(yōu)化研究[D]. 唐波.北京郵電大學(xué) 2016
[2]面向全文標(biāo)注的中文詞義消歧研究與實現(xiàn)[D]. 卞月峰.南京師范大學(xué) 2015
[3]基于維基百科的命名實體消歧的研究與實現(xiàn)[D]. 楊雪.北京郵電大學(xué) 2014
[4]中文分詞關(guān)鍵技術(shù)研究[D]. 曹衛(wèi)峰.南京理工大學(xué) 2009
本文編號:3190891
【文章來源】:昆明理工大學(xué)云南省
【文章頁數(shù)】:101 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.2.3 評述及研究問題的提出
1.3 本文主要研究內(nèi)容
1.4 技術(shù)路線
第二章 相關(guān)概念及模型方法介紹
2.1 自然語言處理(NLP)
2.2 自然語言處理包含的研究內(nèi)容及其體系
2.3 詞的表示方法
2.3.1 One-hot表示法
2.3.2 N-gram模型
2.3.3 共現(xiàn)矩陣
2.4 SVD(奇異值分解)
2.5 中文詞語向量化的語言模型
2.5.1 CBOW和 Skip-gram語言模型
2.5.2 Hierarchical Softmax算法
2.5.3 Negative Sampling算法
2.6 Viterbi算法
2.7 K-Means聚類
2.8 詞義消歧
2.8.1 基于人工定義規(guī)則的消歧方法
2.8.2 基于知識庫的消歧方法
2.8.3 基于統(tǒng)計學(xué)的消歧方法
2.8.4 基于實例的消歧方法
2.9 本章小結(jié)
第三章 VCK-vector模型的構(gòu)建
3.1 研究問題描述
3.2 消歧模型的消歧原理及構(gòu)建流程
3.3 上下文特征的提取
3.4 結(jié)合詞性標(biāo)注的上下文特征改進
3.5 結(jié)合上下文特征的詞向量訓(xùn)練及其處理過程
3.6 VCK-vector模型
3.7 本章小結(jié)
第四章 VCK-vector模型的實現(xiàn)
4.1 維基百科中文語料庫的預(yù)處理
4.1.1 語料庫格式轉(zhuǎn)換
4.1.2 語料庫字體轉(zhuǎn)換
4.1.3 清洗語料庫
4.2 分詞及詞性標(biāo)注
4.2.1 分詞
4.2.2 詞性標(biāo)注
4.3 訓(xùn)練詞向量
4.4 K-Means聚類
4.5 本章小結(jié)
第五章 模型對比及實驗結(jié)果分析
5.1 實驗環(huán)境及開發(fā)環(huán)境(IDE)
5.2 N-gram與基于Viterbi算法的詞性標(biāo)注模型
5.3 CBOW與 Skip-gram語言模型
5.4 未標(biāo)注與已標(biāo)注語料庫的詞向量對比
5.5 K-Means聚類改進后的詞向量
5.6 VCK-vector模型與百度AI詞向量的對比
5.7 VCK-vector模型的驗證與評價
5.8 本章小結(jié)
第六章 結(jié)論與展望
6.1 結(jié)論
6.2 展望
致謝
參考文獻
附錄
學(xué)術(shù)論文和科研成果
【參考文獻】:
期刊論文
[1]基于GloVe模型的詞向量改進方法[J]. 陳珍銳,丁治明. 計算機系統(tǒng)應(yīng)用. 2019(01)
[2]基于詞向量的向量空間模型的改進[J]. 殷功俊. 現(xiàn)代計算機(專業(yè)版). 2018(36)
[3]一種基于多義詞向量表示的詞義消歧方法[J]. 李國佳,趙瑩地,郭鴻奇. 智能計算機與應(yīng)用. 2018(04)
[4]基于語義信息的中文分詞研究[J]. 張生杰,霍丹. 電腦知識與技術(shù). 2018(22)
[5]基于上下文信息的中文命名實體消歧方法研究[J]. 王旭陽,姜喜秋. 計算機應(yīng)用研究. 2018(04)
[6]一種半監(jiān)督的漢語詞義消歧方法[J]. 張春祥,徐志峰,高雪瑤. 西南交通大學(xué)學(xué)報. 2019(02)
[7]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的中文分詞[J]. 金宸,李維華,姬晨,金緒澤,郭延哺. 中文信息學(xué)報. 2018(02)
[8]兩種詞義消歧方法分析與比較[J]. 張國清. 信息與電腦(理論版). 2017(19)
[9]基于N-gram模型的中文分詞算法的研究[J]. 丁潔,趙景惠. 福建電腦. 2017(05)
[10]一種多義詞詞向量計算方法[J]. 曾琦,周剛,蘭明敬,王濛. 小型微型計算機系統(tǒng). 2016(07)
碩士論文
[1]多義詞向量的優(yōu)化研究[D]. 唐波.北京郵電大學(xué) 2016
[2]面向全文標(biāo)注的中文詞義消歧研究與實現(xiàn)[D]. 卞月峰.南京師范大學(xué) 2015
[3]基于維基百科的命名實體消歧的研究與實現(xiàn)[D]. 楊雪.北京郵電大學(xué) 2014
[4]中文分詞關(guān)鍵技術(shù)研究[D]. 曹衛(wèi)峰.南京理工大學(xué) 2009
本文編號:3190891
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3190891.html
最近更新
教材專著