當(dāng)前位置：主頁(yè) > 科技論文 > 計(jì)算機(jī)應(yīng)用論文 >

基于VCK-vector模型的中文多義詞消歧方法研究

發(fā)布時(shí)間：2021-05-17 02:27

　　自計(jì)算機(jī)被研發(fā)問(wèn)世以來(lái),人類(lèi)從最開(kāi)始使用二進(jìn)制碼與計(jì)算機(jī)進(jìn)行互動(dòng),到使用匯編語(yǔ)言給計(jì)算機(jī)發(fā)送指令,再到之后的使用高級(jí)編程語(yǔ)言調(diào)用計(jì)算機(jī)的各項(xiàng)功能,經(jīng)歷了漫長(zhǎng)的發(fā)展。但是即便使用高級(jí)編程語(yǔ)言與計(jì)算機(jī)進(jìn)行交互,依然沒(méi)有達(dá)到人類(lèi)不懈追求的最終目標(biāo)—“讓計(jì)算機(jī)理解人類(lèi)的自然語(yǔ)言”。因此,如何讓計(jì)算機(jī)理解人類(lèi)的自然語(yǔ)言這一研究領(lǐng)域應(yīng)運(yùn)而生,即自然語(yǔ)言處理（NLP）。而在NLP中,存在最大的問(wèn)題就是自然語(yǔ)言并不像高級(jí)編程語(yǔ)言或者匯編語(yǔ)言那樣,每一條代碼或者指令最后都只會(huì)轉(zhuǎn)化為一條唯一確定的計(jì)算機(jī)能夠理解的二進(jìn)制編碼。這是由于在自然語(yǔ)言中,無(wú)論文章、句子還是詞語(yǔ),都存在多義和歧義的特點(diǎn)造成的。所以如何消除自然語(yǔ)言中的歧義成為了自然語(yǔ)言處理研究中的重點(diǎn)和難點(diǎn)問(wèn)題。自然語(yǔ)言處理中的歧義問(wèn)題,從基礎(chǔ)上影響和制約著自然語(yǔ)言在各個(gè)領(lǐng)域的應(yīng)用效果和質(zhì)量,比如在機(jī)器翻譯領(lǐng)域中的應(yīng)用、文本處理領(lǐng)域中的應(yīng)用、信息檢索領(lǐng)域和數(shù)據(jù)分析領(lǐng)域中的應(yīng)用等�；谝陨媳尘�,本文將基于Viterbi算法的詞性標(biāo)注模型、CBOW語(yǔ)言模型及K-Means聚類(lèi)算法進(jìn)行組合,構(gòu)建一種基于詞向量的多義詞組合消歧模型（VCK-Vector）。通...

【文章來(lái)源】：昆明理工大學(xué)云南省

【文章頁(yè)數(shù)】：101 頁(yè)

【學(xué)位級(jí)別】：碩士

【文章目錄】：
摘要
Abstract
第一章緒論
    1.1 研究背景和意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.1 國(guó)外研究現(xiàn)狀
        1.2.2 國(guó)內(nèi)研究現(xiàn)狀
        1.2.3 評(píng)述及研究問(wèn)題的提出
    1.3 本文主要研究?jī)?nèi)容
    1.4 技術(shù)路線(xiàn)
第二章相關(guān)概念及模型方法介紹
    2.1 自然語(yǔ)言處理(NLP)
    2.2 自然語(yǔ)言處理包含的研究?jī)?nèi)容及其體系
    2.3 詞的表示方法
        2.3.1 One-hot表示法
        2.3.2 N-gram模型
        2.3.3 共現(xiàn)矩陣
    2.4 SVD(奇異值分解)
    2.5 中文詞語(yǔ)向量化的語(yǔ)言模型
        2.5.1 CBOW和 Skip-gram語(yǔ)言模型
        2.5.2 Hierarchical Softmax算法
        2.5.3 Negative Sampling算法
    2.6 Viterbi算法
    2.7 K-Means聚類(lèi)
    2.8 詞義消歧
        2.8.1 基于人工定義規(guī)則的消歧方法
        2.8.2 基于知識(shí)庫(kù)的消歧方法
        2.8.3 基于統(tǒng)計(jì)學(xué)的消歧方法
        2.8.4 基于實(shí)例的消歧方法
    2.9 本章小結(jié)
第三章 VCK-vector模型的構(gòu)建
    3.1 研究問(wèn)題描述
    3.2 消歧模型的消歧原理及構(gòu)建流程
    3.3 上下文特征的提取
    3.4 結(jié)合詞性標(biāo)注的上下文特征改進(jìn)
    3.5 結(jié)合上下文特征的詞向量訓(xùn)練及其處理過(guò)程
    3.6 VCK-vector模型
    3.7 本章小結(jié)
第四章 VCK-vector模型的實(shí)現(xiàn)
    4.1 維基百科中文語(yǔ)料庫(kù)的預(yù)處理
        4.1.1 語(yǔ)料庫(kù)格式轉(zhuǎn)換
        4.1.2 語(yǔ)料庫(kù)字體轉(zhuǎn)換
        4.1.3 清洗語(yǔ)料庫(kù)
    4.2 分詞及詞性標(biāo)注
        4.2.1 分詞
        4.2.2 詞性標(biāo)注
    4.3 訓(xùn)練詞向量
    4.4 K-Means聚類(lèi)
    4.5 本章小結(jié)
第五章模型對(duì)比及實(shí)驗(yàn)結(jié)果分析
    5.1 實(shí)驗(yàn)環(huán)境及開(kāi)發(fā)環(huán)境(IDE)
    5.2 N-gram與基于Viterbi算法的詞性標(biāo)注模型
    5.3 CBOW與 Skip-gram語(yǔ)言模型
    5.4 未標(biāo)注與已標(biāo)注語(yǔ)料庫(kù)的詞向量對(duì)比
    5.5 K-Means聚類(lèi)改進(jìn)后的詞向量
    5.6 VCK-vector模型與百度AI詞向量的對(duì)比
    5.7 VCK-vector模型的驗(yàn)證與評(píng)價(jià)
    5.8 本章小結(jié)
第六章結(jié)論與展望
    6.1 結(jié)論
    6.2 展望
致謝
參考文獻(xiàn)
附錄
學(xué)術(shù)論文和科研成果

【參考文獻(xiàn)】：
期刊論文
[1]基于GloVe模型的詞向量改進(jìn)方法[J]. 陳珍銳,丁治明.  計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(01)
[2]基于詞向量的向量空間模型的改進(jìn)[J]. 殷功俊.  現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版). 2018(36)
[3]一種基于多義詞向量表示的詞義消歧方法[J]. 李國(guó)佳,趙瑩地,郭鴻奇.  智能計(jì)算機(jī)與應(yīng)用. 2018(04)
[4]基于語(yǔ)義信息的中文分詞研究[J]. 張生杰,霍丹.  電腦知識(shí)與技術(shù). 2018(22)
[5]基于上下文信息的中文命名實(shí)體消歧方法研究[J]. 王旭陽(yáng),姜喜秋.  計(jì)算機(jī)應(yīng)用研究. 2018(04)
[6]一種半監(jiān)督的漢語(yǔ)詞義消歧方法[J]. 張春祥,徐志峰,高雪瑤.  西南交通大學(xué)學(xué)報(bào). 2019(02)
[7]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的中文分詞[J]. 金宸,李維華,姬晨,金緒澤,郭延哺.  中文信息學(xué)報(bào). 2018(02)
[8]兩種詞義消歧方法分析與比較[J]. 張國(guó)清.  信息與電腦(理論版). 2017(19)
[9]基于N-gram模型的中文分詞算法的研究[J]. 丁潔,趙景惠.  福建電腦. 2017(05)
[10]一種多義詞詞向量計(jì)算方法[J]. 曾琦,周剛,蘭明敬,王濛.  小型微型計(jì)算機(jī)系統(tǒng). 2016(07)

碩士論文
[1]多義詞向量的優(yōu)化研究[D]. 唐波.北京郵電大學(xué) 2016
[2]面向全文標(biāo)注的中文詞義消歧研究與實(shí)現(xiàn)[D]. 卞月峰.南京師范大學(xué) 2015
[3]基于維基百科的命名實(shí)體消歧的研究與實(shí)現(xiàn)[D]. 楊雪.北京郵電大學(xué) 2014
[4]中文分詞關(guān)鍵技術(shù)研究[D]. 曹衛(wèi)峰.南京理工大學(xué) 2009

本文編號(hào)：3190891

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3190891.html

上一篇：圖像實(shí)時(shí)放大旋轉(zhuǎn)系統(tǒng)的研究與FPGA實(shí)現(xiàn)
下一篇：基于生成式對(duì)抗網(wǎng)絡(luò)的室內(nèi)家居場(chǎng)景生成算法

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于VCK-vector模型的中文多義詞消歧方法研究