中文短文本語(yǔ)義相似度計(jì)算方法研究
發(fā)布時(shí)間:2023-08-17 18:59
中文短文本語(yǔ)義相似度計(jì)算方法研究是自然語(yǔ)言處理技術(shù)的基礎(chǔ),F(xiàn)有方法存在以下問(wèn)題:在字詞語(yǔ)義表征層面,中文字、詞通常具有多個(gè)釋義,而目前常用方法獲取的字詞向量不能蘊(yùn)含字詞的全部釋義信息。在計(jì)算模型層面,已有相似度計(jì)算方法不能捕獲文本中詞匯之間的依賴關(guān)系和內(nèi)部結(jié)構(gòu)對(duì)文本語(yǔ)義的貢獻(xiàn);另外,認(rèn)為字詞向量表征唯一,不能根據(jù)語(yǔ)境選擇不同的字詞向量。本文針對(duì)以上問(wèn)題,主要做了以下工作:(1)構(gòu)建了漢字相關(guān)信息數(shù)據(jù)集和詞匯相關(guān)信息數(shù)據(jù)集:①基于爬蟲獲取“現(xiàn)代漢語(yǔ)字典”中20902個(gè)漢字的讀音、偏旁、五筆、五行、基本釋義、詳細(xì)釋義等信息,其中3587個(gè)常用字的數(shù)據(jù)集包含23821條字義文本。②構(gòu)建爬蟲從“百度漢語(yǔ)”中獲取56008個(gè)常用詞語(yǔ)的基本釋義48392條和例句32708條。為字詞向量表征和詞義消歧提供數(shù)據(jù)支持。(2)構(gòu)建了字詞義向量模型和字詞向量模型。本文利用現(xiàn)代漢語(yǔ)字典中對(duì)字的語(yǔ)義描述信息來(lái)獲得字向量。構(gòu)建了基于全連接自編碼器的字詞義向量模型,將每條字義文本映射成256維字義向量。構(gòu)建了基于全連接自編碼器的字詞向量模型對(duì)每個(gè)字的64個(gè)字義向量作進(jìn)一步語(yǔ)義映射,得到每個(gè)字的256維字向量,為語(yǔ)義...
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 引言
1.1 研究背景
1.2 國(guó)內(nèi)外研究現(xiàn)狀及發(fā)展趨勢(shì)
1.2.1 字詞向量表征的研究現(xiàn)狀
1.2.2 中文短文本語(yǔ)義相似度計(jì)算的研究現(xiàn)狀
1.3 主要貢獻(xiàn)
1.4 論文結(jié)構(gòu)安排
2 相關(guān)理論
2.1 自編碼器
2.2 孿生神經(jīng)網(wǎng)絡(luò)
2.3 ATTENTION機(jī)制
2.3.1 attention機(jī)制的本質(zhì)思想
2.3.2 attention機(jī)制與編碼器-解碼器框架相結(jié)合
2.3.3 self-attention機(jī)制
2.3.4 多頭attention機(jī)制
2.4 本章小結(jié)
3 數(shù)據(jù)獲取及預(yù)處理
3.1 漢字相關(guān)數(shù)據(jù)的獲取及預(yù)處理
3.2 詞匯相關(guān)數(shù)據(jù)的獲取及預(yù)處理
3.3 短文本數(shù)據(jù)的獲取
3.4 本章小結(jié)
4 字詞向量模型
4.1 字詞義向量模型
4.1.1 模型結(jié)構(gòu)
4.1.2 字詞義向量模型實(shí)驗(yàn)及結(jié)果分析
4.2 字詞向量模型
4.2.1 基于卷積神經(jīng)網(wǎng)絡(luò)的字詞向量模型
4.2.2 基于全連接神經(jīng)網(wǎng)絡(luò)的字詞向量模型
4.2.3 實(shí)驗(yàn)及結(jié)果分析
4.3 本章小結(jié)
5 基于SELF-ATTENTION的中文短文本語(yǔ)義相似度計(jì)算模型
5.1 模型架構(gòu)
5.2 評(píng)價(jià)指標(biāo)
5.3 實(shí)驗(yàn)及結(jié)果分析
5.3.1 訓(xùn)練結(jié)果及分析
5.3.2 傳遞性測(cè)試結(jié)果及分析
5.3.3 替換性測(cè)試結(jié)果及分析
5.4 本章小結(jié)
6 基于詞義消歧的中文短文本語(yǔ)義相似度計(jì)算模型
6.1 詞義消歧模型架構(gòu)
6.2 短文本向量構(gòu)建及相似度計(jì)算
6.3 實(shí)驗(yàn)及結(jié)果分析
6.3.1 詞義消歧模型訓(xùn)練結(jié)果及分析
6.3.2 文本語(yǔ)義相似度計(jì)算測(cè)試結(jié)果及分析
6.4 本章小結(jié)
7 模型在支持主觀題自動(dòng)閱卷的考試系統(tǒng)中的應(yīng)用
7.1 系統(tǒng)需求獲取與分析
7.1.1 參與者
7.1.2 用例圖
7.1.3 實(shí)體類類圖
7.2 系統(tǒng)的設(shè)計(jì)
7.2.1 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
7.2.2 系統(tǒng)部署設(shè)計(jì)
7.2.3 數(shù)據(jù)庫(kù)表設(shè)計(jì)
7.2.4 中文短文本語(yǔ)義相似度算法評(píng)估
7.2.5 主觀題自動(dòng)閱卷功能設(shè)計(jì)
7.3 系統(tǒng)的實(shí)現(xiàn)
7.3.1 學(xué)員在線考試功能
7.3.2 主觀題自動(dòng)閱卷功能
7.3.3 學(xué)員查看個(gè)人成績(jī)功能
7.4 本章小結(jié)
8 總結(jié)與展望
致謝
參考文獻(xiàn)
附錄
本文編號(hào):3842396
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 引言
1.1 研究背景
1.2 國(guó)內(nèi)外研究現(xiàn)狀及發(fā)展趨勢(shì)
1.2.1 字詞向量表征的研究現(xiàn)狀
1.2.2 中文短文本語(yǔ)義相似度計(jì)算的研究現(xiàn)狀
1.3 主要貢獻(xiàn)
1.4 論文結(jié)構(gòu)安排
2 相關(guān)理論
2.1 自編碼器
2.2 孿生神經(jīng)網(wǎng)絡(luò)
2.3 ATTENTION機(jī)制
2.3.1 attention機(jī)制的本質(zhì)思想
2.3.2 attention機(jī)制與編碼器-解碼器框架相結(jié)合
2.3.3 self-attention機(jī)制
2.3.4 多頭attention機(jī)制
2.4 本章小結(jié)
3 數(shù)據(jù)獲取及預(yù)處理
3.1 漢字相關(guān)數(shù)據(jù)的獲取及預(yù)處理
3.2 詞匯相關(guān)數(shù)據(jù)的獲取及預(yù)處理
3.3 短文本數(shù)據(jù)的獲取
3.4 本章小結(jié)
4 字詞向量模型
4.1 字詞義向量模型
4.1.1 模型結(jié)構(gòu)
4.1.2 字詞義向量模型實(shí)驗(yàn)及結(jié)果分析
4.2 字詞向量模型
4.2.1 基于卷積神經(jīng)網(wǎng)絡(luò)的字詞向量模型
4.2.2 基于全連接神經(jīng)網(wǎng)絡(luò)的字詞向量模型
4.2.3 實(shí)驗(yàn)及結(jié)果分析
4.3 本章小結(jié)
5 基于SELF-ATTENTION的中文短文本語(yǔ)義相似度計(jì)算模型
5.1 模型架構(gòu)
5.2 評(píng)價(jià)指標(biāo)
5.3 實(shí)驗(yàn)及結(jié)果分析
5.3.1 訓(xùn)練結(jié)果及分析
5.3.2 傳遞性測(cè)試結(jié)果及分析
5.3.3 替換性測(cè)試結(jié)果及分析
5.4 本章小結(jié)
6 基于詞義消歧的中文短文本語(yǔ)義相似度計(jì)算模型
6.1 詞義消歧模型架構(gòu)
6.2 短文本向量構(gòu)建及相似度計(jì)算
6.3 實(shí)驗(yàn)及結(jié)果分析
6.3.1 詞義消歧模型訓(xùn)練結(jié)果及分析
6.3.2 文本語(yǔ)義相似度計(jì)算測(cè)試結(jié)果及分析
6.4 本章小結(jié)
7 模型在支持主觀題自動(dòng)閱卷的考試系統(tǒng)中的應(yīng)用
7.1 系統(tǒng)需求獲取與分析
7.1.1 參與者
7.1.2 用例圖
7.1.3 實(shí)體類類圖
7.2 系統(tǒng)的設(shè)計(jì)
7.2.1 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
7.2.2 系統(tǒng)部署設(shè)計(jì)
7.2.3 數(shù)據(jù)庫(kù)表設(shè)計(jì)
7.2.4 中文短文本語(yǔ)義相似度算法評(píng)估
7.2.5 主觀題自動(dòng)閱卷功能設(shè)計(jì)
7.3 系統(tǒng)的實(shí)現(xiàn)
7.3.1 學(xué)員在線考試功能
7.3.2 主觀題自動(dòng)閱卷功能
7.3.3 學(xué)員查看個(gè)人成績(jī)功能
7.4 本章小結(jié)
8 總結(jié)與展望
致謝
參考文獻(xiàn)
附錄
本文編號(hào):3842396
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3842396.html
最近更新
教材專著