基于深度學(xué)習(xí)的中文句子相似度計算研究
發(fā)布時間:2021-10-15 18:10
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,以及我國信息化建設(shè)的不斷進步,中國網(wǎng)民數(shù)量與日俱增,互聯(lián)網(wǎng)中也出現(xiàn)了大量中文短文本數(shù)據(jù)。而句子相似度計算作為自然語言處理中的基礎(chǔ)任務(wù),在信息檢索、文本分類、機器翻譯、智能客服問答系統(tǒng)等應(yīng)用中都有著重要的作用,因此有著十分廣闊的前景與研究價值。本文研究學(xué)習(xí)了中文句子相似度計算以及深度學(xué)習(xí)相關(guān)技術(shù)、網(wǎng)絡(luò)模型,主要完成了以下工作:1、本文構(gòu)造了豐富的中文句子數(shù)據(jù)集,并對這些中文數(shù)據(jù)都進行了大量的預(yù)處理工作,保留了部分停用詞,進行了分詞、詞性標注、命名實體識別、依存句法分析、語義角色分析等處理。2、本文基于經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型,改進并提出了句子相似度模型用于中文句子相似度計算。模型將卷積神經(jīng)網(wǎng)絡(luò)與tensor layer結(jié)合,采用動態(tài)k-max池化技術(shù),因此具有更好的特征提取能力,可以更有效的提取兩個句子間的交互信息,從而提高了模型的性能。3、深度神經(jīng)網(wǎng)絡(luò)對于句子相似度計算任務(wù)是一種有效的方法,但往往需要大量的數(shù)據(jù)去訓(xùn)練來充分發(fā)揮模型的性能,而現(xiàn)有開源的中文已標注數(shù)據(jù)集比較少,且人工標注成本過高。為解決對此問題,本文基于句子相似度模型,設(shè)計并實現(xiàn)了深度輔助神經(jīng)網(wǎng)絡(luò)(DA...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:80 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀及發(fā)展趨勢
1.3 研究內(nèi)容及貢獻
1.4 論文結(jié)構(gòu)安排
第二章 中文句子相似度計算相關(guān)技術(shù)理論
2.1 中文句子的特點
2.2 詞向量
2.2.1 詞向量表示方法
2.2.2 神經(jīng)網(wǎng)絡(luò)語言模型
2.2.3 word2vec
2.2.3.1 CBOW模型
2.2.3.2 Skip-gram模型
2.3 中文分詞技術(shù)
2.3.1 中文分詞算法
2.3.2 中文分詞工具
2.4 本章小結(jié)
第三章 深度學(xué)習(xí)相關(guān)技術(shù)理論研究
3.1 神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)
3.1.1 激活函數(shù)
3.1.1.1 tanh函數(shù)
3.1.1.2 sigmoid函數(shù)
3.1.1.3 ReLU函數(shù)
3.1.2 梯度下降算法
3.1.2.1 梯度下降相關(guān)概念
3.1.2.2 梯度下降法描述
3.1.2.3 隨機梯度下降法
3.1.3 Dropout技術(shù)
3.2 深度學(xué)習(xí)網(wǎng)絡(luò)模型
3.2.1 多層感知機
3.2.2 卷積神經(jīng)網(wǎng)絡(luò)
3.2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)
3.3 本章小結(jié)
第四章 深度輔助神經(jīng)網(wǎng)絡(luò)模型
4.1 句子相似度模型
4.2 雙通道句子相似度模型
4.3 基于GRU的多輪對話模型
4.3.1 Skip-thoughts模型
4.3.2 LSTM模型及其改進的GRU
4.3.3 模型網(wǎng)絡(luò)結(jié)構(gòu)
4.3.3.1 共享的句子表示層
4.3.3.2 解碼器層
4.4 深度輔助神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
4.5 模型參數(shù)優(yōu)化與訓(xùn)練流程
4.5.1 共享的句子表示層參數(shù)優(yōu)化
4.5.2 訓(xùn)練流程
4.6 本章小結(jié)
第五章 實驗評估
5.1 實驗環(huán)境及相關(guān)工具
5.2 實驗數(shù)據(jù)集
5.2.1 相似度語料庫
5.2.2 多輪對話語料庫
5.2.3 數(shù)據(jù)集分組情況
5.2.4 數(shù)據(jù)的預(yù)處理
5.3 基線模型及評價指標
5.3.1 基線模型
5.3.2 評價指標
5.4 實驗結(jié)果展示與分析
5.4.1 句子相似度模型實驗結(jié)果與分析
5.4.2 句子相似度模型與基線模型對比實驗結(jié)果與分析
5.4.3 DANN對共享參數(shù)的優(yōu)化實驗結(jié)果與分析
5.4.4 DANN與句子相似度模型對比實驗結(jié)果與分析
5.4.5 DANN在不同大小數(shù)據(jù)集上的實驗結(jié)果與分析
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
致謝
參考文獻
【參考文獻】:
期刊論文
[1]基于搜索引擎的詞匯語義相似度計算方法[J]. 陳海燕. 計算機科學(xué). 2015(01)
[2]基于搜索引擎的相似度研究與應(yīng)用[J]. 劉勝久,李天瑞,賈真,景運革. 計算機科學(xué). 2014(04)
[3]基于LDA主題模型的文本相似度計算[J]. 王振振,何明,杜永萍. 計算機科學(xué). 2013(12)
[4]改進的基于《知網(wǎng)》的詞匯語義相似度計算[J]. 朱征宇,孫俊華. 計算機應(yīng)用. 2013(08)
[5]基于本體的語義相似度計算方法研究綜述[J]. 孫海霞,錢慶,成穎. 現(xiàn)代圖書情報技術(shù). 2010(01)
本文編號:3438399
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:80 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀及發(fā)展趨勢
1.3 研究內(nèi)容及貢獻
1.4 論文結(jié)構(gòu)安排
第二章 中文句子相似度計算相關(guān)技術(shù)理論
2.1 中文句子的特點
2.2 詞向量
2.2.1 詞向量表示方法
2.2.2 神經(jīng)網(wǎng)絡(luò)語言模型
2.2.3 word2vec
2.2.3.1 CBOW模型
2.2.3.2 Skip-gram模型
2.3 中文分詞技術(shù)
2.3.1 中文分詞算法
2.3.2 中文分詞工具
2.4 本章小結(jié)
第三章 深度學(xué)習(xí)相關(guān)技術(shù)理論研究
3.1 神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)
3.1.1 激活函數(shù)
3.1.1.1 tanh函數(shù)
3.1.1.2 sigmoid函數(shù)
3.1.1.3 ReLU函數(shù)
3.1.2 梯度下降算法
3.1.2.1 梯度下降相關(guān)概念
3.1.2.2 梯度下降法描述
3.1.2.3 隨機梯度下降法
3.1.3 Dropout技術(shù)
3.2 深度學(xué)習(xí)網(wǎng)絡(luò)模型
3.2.1 多層感知機
3.2.2 卷積神經(jīng)網(wǎng)絡(luò)
3.2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)
3.3 本章小結(jié)
第四章 深度輔助神經(jīng)網(wǎng)絡(luò)模型
4.1 句子相似度模型
4.2 雙通道句子相似度模型
4.3 基于GRU的多輪對話模型
4.3.1 Skip-thoughts模型
4.3.2 LSTM模型及其改進的GRU
4.3.3 模型網(wǎng)絡(luò)結(jié)構(gòu)
4.3.3.1 共享的句子表示層
4.3.3.2 解碼器層
4.4 深度輔助神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
4.5 模型參數(shù)優(yōu)化與訓(xùn)練流程
4.5.1 共享的句子表示層參數(shù)優(yōu)化
4.5.2 訓(xùn)練流程
4.6 本章小結(jié)
第五章 實驗評估
5.1 實驗環(huán)境及相關(guān)工具
5.2 實驗數(shù)據(jù)集
5.2.1 相似度語料庫
5.2.2 多輪對話語料庫
5.2.3 數(shù)據(jù)集分組情況
5.2.4 數(shù)據(jù)的預(yù)處理
5.3 基線模型及評價指標
5.3.1 基線模型
5.3.2 評價指標
5.4 實驗結(jié)果展示與分析
5.4.1 句子相似度模型實驗結(jié)果與分析
5.4.2 句子相似度模型與基線模型對比實驗結(jié)果與分析
5.4.3 DANN對共享參數(shù)的優(yōu)化實驗結(jié)果與分析
5.4.4 DANN與句子相似度模型對比實驗結(jié)果與分析
5.4.5 DANN在不同大小數(shù)據(jù)集上的實驗結(jié)果與分析
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
致謝
參考文獻
【參考文獻】:
期刊論文
[1]基于搜索引擎的詞匯語義相似度計算方法[J]. 陳海燕. 計算機科學(xué). 2015(01)
[2]基于搜索引擎的相似度研究與應(yīng)用[J]. 劉勝久,李天瑞,賈真,景運革. 計算機科學(xué). 2014(04)
[3]基于LDA主題模型的文本相似度計算[J]. 王振振,何明,杜永萍. 計算機科學(xué). 2013(12)
[4]改進的基于《知網(wǎng)》的詞匯語義相似度計算[J]. 朱征宇,孫俊華. 計算機應(yīng)用. 2013(08)
[5]基于本體的語義相似度計算方法研究綜述[J]. 孫海霞,錢慶,成穎. 現(xiàn)代圖書情報技術(shù). 2010(01)
本文編號:3438399
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3438399.html
最近更新
教材專著