中文詞向量表示學習研究
發(fā)布時間:2023-11-18 07:53
文本表示是自然語言處理中的基礎工作。傳統(tǒng)的獨熱表示存在稀疏問題且不能抓住詞之間的語義關系。分布式語義表示利用連續(xù)空間內的低維稠密向量來表示詞,解決了傳統(tǒng)獨熱表示的問題,已經(jīng)成為了自然語言處理中最常用的詞表示方法。中文作為一種表意文字,它有著獨特的語言特點。本文對中文詞向量表示學習的方法進行了系統(tǒng)的總結分析,并提出了改進的詞向量表示技術,具體工作如下:一、中文詞向量表示技術對比分析。本文對現(xiàn)有的流行的中文詞向量表示方法進行了系統(tǒng)的理論分析與實驗對比:已有的中文詞表示模型忽略了不同詞對上下文語義有不同程度的語義貢獻且次詞語素去歧的方法存在較大的局限性;綜合了多種評估方法對詞向量進行了全面的定量實驗評估,并對提出的改進模型作了詳細的定性分析。二、基于多種Attention的聯(lián)合訓練詞向量表示模型。本文聯(lián)合了詞、字、字的組件等多種粒度的語素信息,提出了基于多種Attention的多粒度語素聯(lián)合訓練的詞表示模型:利用Self-Attention機制來學習詞對上下文語義的貢獻;提出了 Bias-Attention方法來端到端自動化地學習次詞語素的語義偏移并達到語素去歧的目的。三、基于共享語義漂移的...
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景
1.2 國內外研究現(xiàn)狀
1.3 研究內容及主要工作
1.4 論文組織結構
第二章 中文詞向量表示方法
2.1 分布式語義表示
2.2 基于矩陣分解的方法
2.2.1 Global Vectors模型(GloVe)
2.3 基于神經(jīng)網(wǎng)絡的方法
2.3.1 CBOW
2.3.2 Skip-Gram
2.4 引入次詞語素的詞向量表示方法
2.4.1 CWE
2.4.2 SCWE
2.4.3 JWE
2.4.4 cw2vec
2.5 語素歧義問題
2.5.1 基于位置的方法
2.5.2 基于聚類的方法
2.5.3 非參數(shù)化聚類的方法
2.5.4 外來先驗知識的方法
2.6 詞向量評估方法
2.6.1 內部評價
2.6.2 外部評價
2.6.3 其他因素
2.7 本章小結
第三章 基于多種Attention的聯(lián)合中文詞表示模型
3.1 模型總架構
3.2 Self-Attention加權的詞粒度上下文表示
3.3 Bias-Attention修正的次詞粒度的上下文表示
3.4 實驗分析
3.4.1 實驗設定
3.4.2 內部評價
3.4.3 外部評價
3.4.4 Case學習
3.4.5 其他訓練參數(shù)
3.4.6 外部上下文Attention分析
3.5 本章小結
第四章 基于共享漂移的中文詞表示模型
4.1 模型總架構
4.2 語義漂移
4.3 共享漂移
4.4 實驗分析
4.4.1 實驗設定
4.4.2 內部評價
4.4.3 外部評價
4.4.4 共享漂移向量方法分析
4.5 本章小結
第五章 AJWE在數(shù)字閱讀推薦系統(tǒng)中的應用
5.1 數(shù)字閱讀推薦系統(tǒng)
5.2 基于AJWE的數(shù)字閱讀推薦模型
5.2.1 模型總架構
5.2.2 用戶表示網(wǎng)絡
5.2.3 圖書表示網(wǎng)絡
5.3 實驗分析
5.3.1 實驗設定
5.3.2 實驗結果
5.4 本章小結
第六章 結論與展望
參考文獻
致謝
攻讀學位期間取得的研究成果
本文編號:3864867
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景
1.2 國內外研究現(xiàn)狀
1.3 研究內容及主要工作
1.4 論文組織結構
第二章 中文詞向量表示方法
2.1 分布式語義表示
2.2 基于矩陣分解的方法
2.2.1 Global Vectors模型(GloVe)
2.3 基于神經(jīng)網(wǎng)絡的方法
2.3.1 CBOW
2.3.2 Skip-Gram
2.4 引入次詞語素的詞向量表示方法
2.4.1 CWE
2.4.2 SCWE
2.4.3 JWE
2.4.4 cw2vec
2.5 語素歧義問題
2.5.1 基于位置的方法
2.5.2 基于聚類的方法
2.5.3 非參數(shù)化聚類的方法
2.5.4 外來先驗知識的方法
2.6 詞向量評估方法
2.6.1 內部評價
2.6.2 外部評價
2.6.3 其他因素
2.7 本章小結
第三章 基于多種Attention的聯(lián)合中文詞表示模型
3.1 模型總架構
3.2 Self-Attention加權的詞粒度上下文表示
3.3 Bias-Attention修正的次詞粒度的上下文表示
3.4 實驗分析
3.4.1 實驗設定
3.4.2 內部評價
3.4.3 外部評價
3.4.4 Case學習
3.4.5 其他訓練參數(shù)
3.4.6 外部上下文Attention分析
3.5 本章小結
第四章 基于共享漂移的中文詞表示模型
4.1 模型總架構
4.2 語義漂移
4.3 共享漂移
4.4 實驗分析
4.4.1 實驗設定
4.4.2 內部評價
4.4.3 外部評價
4.4.4 共享漂移向量方法分析
4.5 本章小結
第五章 AJWE在數(shù)字閱讀推薦系統(tǒng)中的應用
5.1 數(shù)字閱讀推薦系統(tǒng)
5.2 基于AJWE的數(shù)字閱讀推薦模型
5.2.1 模型總架構
5.2.2 用戶表示網(wǎng)絡
5.2.3 圖書表示網(wǎng)絡
5.3 實驗分析
5.3.1 實驗設定
5.3.2 實驗結果
5.4 本章小結
第六章 結論與展望
參考文獻
致謝
攻讀學位期間取得的研究成果
本文編號:3864867
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3864867.html
最近更新
教材專著