天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

中文短文本語義相似度計(jì)算方法研究

發(fā)布時(shí)間:2023-08-17 18:59
  中文短文本語義相似度計(jì)算方法研究是自然語言處理技術(shù)的基礎(chǔ),F(xiàn)有方法存在以下問題:在字詞語義表征層面,中文字、詞通常具有多個(gè)釋義,而目前常用方法獲取的字詞向量不能蘊(yùn)含字詞的全部釋義信息。在計(jì)算模型層面,已有相似度計(jì)算方法不能捕獲文本中詞匯之間的依賴關(guān)系和內(nèi)部結(jié)構(gòu)對文本語義的貢獻(xiàn);另外,認(rèn)為字詞向量表征唯一,不能根據(jù)語境選擇不同的字詞向量。本文針對以上問題,主要做了以下工作:(1)構(gòu)建了漢字相關(guān)信息數(shù)據(jù)集和詞匯相關(guān)信息數(shù)據(jù)集:①基于爬蟲獲取“現(xiàn)代漢語字典”中20902個(gè)漢字的讀音、偏旁、五筆、五行、基本釋義、詳細(xì)釋義等信息,其中3587個(gè)常用字的數(shù)據(jù)集包含23821條字義文本。②構(gòu)建爬蟲從“百度漢語”中獲取56008個(gè)常用詞語的基本釋義48392條和例句32708條。為字詞向量表征和詞義消歧提供數(shù)據(jù)支持。(2)構(gòu)建了字詞義向量模型和字詞向量模型。本文利用現(xiàn)代漢語字典中對字的語義描述信息來獲得字向量。構(gòu)建了基于全連接自編碼器的字詞義向量模型,將每條字義文本映射成256維字義向量。構(gòu)建了基于全連接自編碼器的字詞向量模型對每個(gè)字的64個(gè)字義向量作進(jìn)一步語義映射,得到每個(gè)字的256維字向量,為語義...

【文章頁數(shù)】:67 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
ABSTRACT
1 引言
    1.1 研究背景
    1.2 國內(nèi)外研究現(xiàn)狀及發(fā)展趨勢
        1.2.1 字詞向量表征的研究現(xiàn)狀
        1.2.2 中文短文本語義相似度計(jì)算的研究現(xiàn)狀
    1.3 主要貢獻(xiàn)
    1.4 論文結(jié)構(gòu)安排
2 相關(guān)理論
    2.1 自編碼器
    2.2 孿生神經(jīng)網(wǎng)絡(luò)
    2.3 ATTENTION機(jī)制
        2.3.1 attention機(jī)制的本質(zhì)思想
        2.3.2 attention機(jī)制與編碼器-解碼器框架相結(jié)合
        2.3.3 self-attention機(jī)制
        2.3.4 多頭attention機(jī)制
    2.4 本章小結(jié)
3 數(shù)據(jù)獲取及預(yù)處理
    3.1 漢字相關(guān)數(shù)據(jù)的獲取及預(yù)處理
    3.2 詞匯相關(guān)數(shù)據(jù)的獲取及預(yù)處理
    3.3 短文本數(shù)據(jù)的獲取
    3.4 本章小結(jié)
4 字詞向量模型
    4.1 字詞義向量模型
        4.1.1 模型結(jié)構(gòu)
        4.1.2 字詞義向量模型實(shí)驗(yàn)及結(jié)果分析
    4.2 字詞向量模型
        4.2.1 基于卷積神經(jīng)網(wǎng)絡(luò)的字詞向量模型
        4.2.2 基于全連接神經(jīng)網(wǎng)絡(luò)的字詞向量模型
        4.2.3 實(shí)驗(yàn)及結(jié)果分析
    4.3 本章小結(jié)
5 基于SELF-ATTENTION的中文短文本語義相似度計(jì)算模型
    5.1 模型架構(gòu)
    5.2 評價(jià)指標(biāo)
    5.3 實(shí)驗(yàn)及結(jié)果分析
        5.3.1 訓(xùn)練結(jié)果及分析
        5.3.2 傳遞性測試結(jié)果及分析
        5.3.3 替換性測試結(jié)果及分析
    5.4 本章小結(jié)
6 基于詞義消歧的中文短文本語義相似度計(jì)算模型
    6.1 詞義消歧模型架構(gòu)
    6.2 短文本向量構(gòu)建及相似度計(jì)算
    6.3 實(shí)驗(yàn)及結(jié)果分析
        6.3.1 詞義消歧模型訓(xùn)練結(jié)果及分析
        6.3.2 文本語義相似度計(jì)算測試結(jié)果及分析
    6.4 本章小結(jié)
7 模型在支持主觀題自動(dòng)閱卷的考試系統(tǒng)中的應(yīng)用
    7.1 系統(tǒng)需求獲取與分析
        7.1.1 參與者
        7.1.2 用例圖
        7.1.3 實(shí)體類類圖
    7.2 系統(tǒng)的設(shè)計(jì)
        7.2.1 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
        7.2.2 系統(tǒng)部署設(shè)計(jì)
        7.2.3 數(shù)據(jù)庫表設(shè)計(jì)
        7.2.4 中文短文本語義相似度算法評估
        7.2.5 主觀題自動(dòng)閱卷功能設(shè)計(jì)
    7.3 系統(tǒng)的實(shí)現(xiàn)
        7.3.1 學(xué)員在線考試功能
        7.3.2 主觀題自動(dòng)閱卷功能
        7.3.3 學(xué)員查看個(gè)人成績功能
    7.4 本章小結(jié)
8 總結(jié)與展望
致謝
參考文獻(xiàn)
附錄



本文編號:3842396

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3842396.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3540a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com