天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于VCK-vector模型的中文多義詞消歧方法研究

發(fā)布時(shí)間:2021-05-17 02:27
  自計(jì)算機(jī)被研發(fā)問(wèn)世以來(lái),人類(lèi)從最開(kāi)始使用二進(jìn)制碼與計(jì)算機(jī)進(jìn)行互動(dòng),到使用匯編語(yǔ)言給計(jì)算機(jī)發(fā)送指令,再到之后的使用高級(jí)編程語(yǔ)言調(diào)用計(jì)算機(jī)的各項(xiàng)功能,經(jīng)歷了漫長(zhǎng)的發(fā)展。但是即便使用高級(jí)編程語(yǔ)言與計(jì)算機(jī)進(jìn)行交互,依然沒(méi)有達(dá)到人類(lèi)不懈追求的最終目標(biāo)—“讓計(jì)算機(jī)理解人類(lèi)的自然語(yǔ)言”。因此,如何讓計(jì)算機(jī)理解人類(lèi)的自然語(yǔ)言這一研究領(lǐng)域應(yīng)運(yùn)而生,即自然語(yǔ)言處理(NLP)。而在NLP中,存在最大的問(wèn)題就是自然語(yǔ)言并不像高級(jí)編程語(yǔ)言或者匯編語(yǔ)言那樣,每一條代碼或者指令最后都只會(huì)轉(zhuǎn)化為一條唯一確定的計(jì)算機(jī)能夠理解的二進(jìn)制編碼。這是由于在自然語(yǔ)言中,無(wú)論文章、句子還是詞語(yǔ),都存在多義和歧義的特點(diǎn)造成的。所以如何消除自然語(yǔ)言中的歧義成為了自然語(yǔ)言處理研究中的重點(diǎn)和難點(diǎn)問(wèn)題。自然語(yǔ)言處理中的歧義問(wèn)題,從基礎(chǔ)上影響和制約著自然語(yǔ)言在各個(gè)領(lǐng)域的應(yīng)用效果和質(zhì)量,比如在機(jī)器翻譯領(lǐng)域中的應(yīng)用、文本處理領(lǐng)域中的應(yīng)用、信息檢索領(lǐng)域和數(shù)據(jù)分析領(lǐng)域中的應(yīng)用等;谝陨媳尘,本文將基于Viterbi算法的詞性標(biāo)注模型、CBOW語(yǔ)言模型及K-Means聚類(lèi)算法進(jìn)行組合,構(gòu)建一種基于詞向量的多義詞組合消歧模型(VCK-Vector)。通... 

【文章來(lái)源】:昆明理工大學(xué)云南省

【文章頁(yè)數(shù)】:101 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
第一章 緒論
    1.1 研究背景和意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.1 國(guó)外研究現(xiàn)狀
        1.2.2 國(guó)內(nèi)研究現(xiàn)狀
        1.2.3 評(píng)述及研究問(wèn)題的提出
    1.3 本文主要研究?jī)?nèi)容
    1.4 技術(shù)路線(xiàn)
第二章 相關(guān)概念及模型方法介紹
    2.1 自然語(yǔ)言處理(NLP)
    2.2 自然語(yǔ)言處理包含的研究?jī)?nèi)容及其體系
    2.3 詞的表示方法
        2.3.1 One-hot表示法
        2.3.2 N-gram模型
        2.3.3 共現(xiàn)矩陣
    2.4 SVD(奇異值分解)
    2.5 中文詞語(yǔ)向量化的語(yǔ)言模型
        2.5.1 CBOW和 Skip-gram語(yǔ)言模型
        2.5.2 Hierarchical Softmax算法
        2.5.3 Negative Sampling算法
    2.6 Viterbi算法
    2.7 K-Means聚類(lèi)
    2.8 詞義消歧
        2.8.1 基于人工定義規(guī)則的消歧方法
        2.8.2 基于知識(shí)庫(kù)的消歧方法
        2.8.3 基于統(tǒng)計(jì)學(xué)的消歧方法
        2.8.4 基于實(shí)例的消歧方法
    2.9 本章小結(jié)
第三章 VCK-vector模型的構(gòu)建
    3.1 研究問(wèn)題描述
    3.2 消歧模型的消歧原理及構(gòu)建流程
    3.3 上下文特征的提取
    3.4 結(jié)合詞性標(biāo)注的上下文特征改進(jìn)
    3.5 結(jié)合上下文特征的詞向量訓(xùn)練及其處理過(guò)程
    3.6 VCK-vector模型
    3.7 本章小結(jié)
第四章 VCK-vector模型的實(shí)現(xiàn)
    4.1 維基百科中文語(yǔ)料庫(kù)的預(yù)處理
        4.1.1 語(yǔ)料庫(kù)格式轉(zhuǎn)換
        4.1.2 語(yǔ)料庫(kù)字體轉(zhuǎn)換
        4.1.3 清洗語(yǔ)料庫(kù)
    4.2 分詞及詞性標(biāo)注
        4.2.1 分詞
        4.2.2 詞性標(biāo)注
    4.3 訓(xùn)練詞向量
    4.4 K-Means聚類(lèi)
    4.5 本章小結(jié)
第五章 模型對(duì)比及實(shí)驗(yàn)結(jié)果分析
    5.1 實(shí)驗(yàn)環(huán)境及開(kāi)發(fā)環(huán)境(IDE)
    5.2 N-gram與基于Viterbi算法的詞性標(biāo)注模型
    5.3 CBOW與 Skip-gram語(yǔ)言模型
    5.4 未標(biāo)注與已標(biāo)注語(yǔ)料庫(kù)的詞向量對(duì)比
    5.5 K-Means聚類(lèi)改進(jìn)后的詞向量
    5.6 VCK-vector模型與百度AI詞向量的對(duì)比
    5.7 VCK-vector模型的驗(yàn)證與評(píng)價(jià)
    5.8 本章小結(jié)
第六章 結(jié)論與展望
    6.1 結(jié)論
    6.2 展望
致謝
參考文獻(xiàn)
附錄
學(xué)術(shù)論文和科研成果


【參考文獻(xiàn)】:
期刊論文
[1]基于GloVe模型的詞向量改進(jìn)方法[J]. 陳珍銳,丁治明.  計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(01)
[2]基于詞向量的向量空間模型的改進(jìn)[J]. 殷功俊.  現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版). 2018(36)
[3]一種基于多義詞向量表示的詞義消歧方法[J]. 李國(guó)佳,趙瑩地,郭鴻奇.  智能計(jì)算機(jī)與應(yīng)用. 2018(04)
[4]基于語(yǔ)義信息的中文分詞研究[J]. 張生杰,霍丹.  電腦知識(shí)與技術(shù). 2018(22)
[5]基于上下文信息的中文命名實(shí)體消歧方法研究[J]. 王旭陽(yáng),姜喜秋.  計(jì)算機(jī)應(yīng)用研究. 2018(04)
[6]一種半監(jiān)督的漢語(yǔ)詞義消歧方法[J]. 張春祥,徐志峰,高雪瑤.  西南交通大學(xué)學(xué)報(bào). 2019(02)
[7]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的中文分詞[J]. 金宸,李維華,姬晨,金緒澤,郭延哺.  中文信息學(xué)報(bào). 2018(02)
[8]兩種詞義消歧方法分析與比較[J]. 張國(guó)清.  信息與電腦(理論版). 2017(19)
[9]基于N-gram模型的中文分詞算法的研究[J]. 丁潔,趙景惠.  福建電腦. 2017(05)
[10]一種多義詞詞向量計(jì)算方法[J]. 曾琦,周剛,蘭明敬,王濛.  小型微型計(jì)算機(jī)系統(tǒng). 2016(07)

碩士論文
[1]多義詞向量的優(yōu)化研究[D]. 唐波.北京郵電大學(xué) 2016
[2]面向全文標(biāo)注的中文詞義消歧研究與實(shí)現(xiàn)[D]. 卞月峰.南京師范大學(xué) 2015
[3]基于維基百科的命名實(shí)體消歧的研究與實(shí)現(xiàn)[D]. 楊雪.北京郵電大學(xué) 2014
[4]中文分詞關(guān)鍵技術(shù)研究[D]. 曹衛(wèi)峰.南京理工大學(xué) 2009



本文編號(hào):3190891

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3190891.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)bce86***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com