基于深度學(xué)習(xí)與主題模型的問句相似度計算
本文關(guān)鍵詞:基于深度學(xué)習(xí)與主題模型的問句相似度計算,由筆耕文化傳播整理發(fā)布。
【摘要】:近年來,隨著互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)正在爆炸式地增加,傳統(tǒng)的搜索引擎已經(jīng)很難滿足用戶多方面的需求,自動問答系統(tǒng)應(yīng)運而生,成為了一種新的更為有效的信息獲取方式。問句相似度計算作為其中關(guān)鍵的技術(shù),受到了廣泛的關(guān)注。本文在“大數(shù)據(jù)”背景下,研究了如何高效計算問句相似度的問題,針對問句的特點,提出了使用向量表示句子,進而通過計算向量間距離來度量相似度的方法。論文的主要工作和創(chuàng)新點包括:(1)分析了現(xiàn)有方法的不足之處,研究了神經(jīng)網(wǎng)絡(luò)語言模型和主題模型,并分析了它們在語義表示方面各自的優(yōu)點;(2)為了更好地表示句子的語義,提出了兩個基于深度學(xué)習(xí)與主題模型的主題句子向量模型,并給出了模型的訓(xùn)練算法。其中,第二個模型對第一個模型進行了改進,去除了“詞袋”假設(shè)。這兩個模型結(jié)合了句子向量模型所提供的局部上下文詞語共現(xiàn)信息和主題模型所提供的全局詞語共現(xiàn)信息;(3)為驗證所提模型的有效性,在IMDB電影評論數(shù)據(jù)上,進行了句子分類實驗,對比了所提模型與已有先進模型。實驗結(jié)果表明,融入了主題信息的句子向量模型,超越了傳統(tǒng)的句子向量模型,能夠更好地表示句子的語義;(4)設(shè)計實現(xiàn)了基于句子向量的問句相似度計算方法,在大量真實的Yahoo!Answers數(shù)據(jù)上,基于前面提出的兩個主題句子向量模型,并通過部分標注的數(shù)據(jù)進行了驗證對比實驗。實驗結(jié)果表明,該方法能夠在大規(guī)模的問答數(shù)據(jù)上有效地計算問句相似度。
【關(guān)鍵詞】:問句相似度 深度學(xué)習(xí) 主題模型 句子向量
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-9
- 第1章 緒論9-16
- 1.1 研究背景和意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀與發(fā)展趨勢10-13
- 1.2.1 深度學(xué)習(xí)在NLP中的應(yīng)用10-11
- 1.2.2 主題模型簡介11-12
- 1.2.3 問句相似度計算12-13
- 1.3 論文主要工作和結(jié)構(gòu)安排13-16
- 1.3.1 論文主要工作13-14
- 1.3.2 論文結(jié)構(gòu)安排14-16
- 第2章 相關(guān)理論及方法16-29
- 2.1 LDA主題模型16-19
- 2.1.1 LDA模型概述16-17
- 2.1.2 Gibbs采樣算法17-18
- 2.1.3 LDA參數(shù)求解18-19
- 2.2 神經(jīng)網(wǎng)絡(luò)語言模型與詞向量19-25
- 2.2.1 神經(jīng)網(wǎng)絡(luò)概率語言模型19-21
- 2.2.2 word2vec模型21-25
- 2.3 基于深度學(xué)習(xí)的文檔向量化表示25-27
- 2.3.1 句子向量化方法25-26
- 2.3.2 文檔向量化方法26-27
- 2.4 本章小結(jié)27-29
- 第3章 基于CBOW的主題句子向量模型29-43
- 3.1 主題句子向量模型的基本思想29-30
- 3.2 基于CBOW的神經(jīng)網(wǎng)絡(luò)模型30-32
- 3.3 基于Hierarchical Softmax的模型求解算法32-37
- 3.3.1 梯度及Hierarchical Softmax參數(shù)計算32-36
- 3.3.2 基于Hierarchical Softmax的訓(xùn)練算法36-37
- 3.4 基于Negative Sampling的模型求解算法37-40
- 3.4.1 梯度及Negative Sampling參數(shù)計算37-39
- 3.4.2 基于Negative Sampling的訓(xùn)練算法39-40
- 3.5 實現(xiàn)細節(jié)與優(yōu)化40-41
- 3.5.1 實現(xiàn)細節(jié)40
- 3.5.2 近似計算與優(yōu)化40-41
- 3.6 相關(guān)實驗41-42
- 3.7 本章小結(jié)42-43
- 第4章 基于SKIP-GRAM的主題句子向量模型43-50
- 4.1 基于Skip-gram的神經(jīng)網(wǎng)絡(luò)模型43-44
- 4.2 基于Hierarchical Softmax的模型求解算法44-47
- 4.3 基于Negative Sampling的模型求解算法47-48
- 4.4 相關(guān)實驗48-49
- 4.5 本章小結(jié)49-50
- 第5章 基于主題句子向量模型的問句相似度計算50-55
- 5.1 基于句子向量計算問句相似度計算50
- 5.2 實驗環(huán)境與數(shù)據(jù)集50-52
- 5.2.1 實驗環(huán)境51
- 5.2.2 數(shù)據(jù)集介紹51-52
- 5.3 問句相似度計算實驗結(jié)果52-54
- 5.3.1 評價指標52-53
- 5.3.2 實驗方法53
- 5.3.3 實驗結(jié)果53-54
- 5.4 本章小結(jié)54-55
- 結(jié)論55-57
- 參考文獻57-62
- 攻讀學(xué)位期間發(fā)表的論文與研究成果清單62-63
- 致謝63
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王鈞;趙曰利;;浙大中藥指紋圖譜相似度計算軟件在煙用香精香料色譜分析中的引入應(yīng)用[J];現(xiàn)代儀器;2007年03期
2 單建芳;劉宗田;周文;;事件相似度計算[J];小型微型計算機系統(tǒng);2010年04期
3 劉文劍;郭寧;金天國;;制造資源本體的相似度計算模型[J];計算機集成制造系統(tǒng);2010年11期
4 邸書靈;劉曉飛;李歡;;基于分詞的語句相似度計算的改進[J];石家莊鐵道大學(xué)學(xué)報(自然科學(xué)版);2011年04期
5 秦學(xué)勇;張潤梅;;兩級相似度計算在主觀題機器閱卷中的應(yīng)用[J];計算機工程;2012年11期
6 田衛(wèi)東;強繼朋;;基于問句類型的問句相似度計算[J];計算機應(yīng)用研究;2014年04期
7 周凱波,馮珊,李鋒;基于案例屬性特征的相似度計算模型研究[J];武漢理工大學(xué)學(xué)報(信息與管理工程版);2003年01期
8 易麗萍,竹勇 ,雷小春;知網(wǎng)在詞語相似度計算方面的應(yīng)用[J];信息技術(shù)與信息化;2005年01期
9 廉站俊;呂學(xué)強;張玉杰;施水才;;基于句子相似度計算的信息抽取[J];現(xiàn)代圖書情報技術(shù);2007年06期
10 李偉;;中文語句相似度計算的方法初探[J];蘭州工業(yè)高等?茖W(xué)校學(xué)報;2009年04期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 劉磊;張桂平;蔡東風(fēng);季鐸;;基于語義預(yù)測的雙語術(shù)語相似度計算[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
2 郭麗;蔡東風(fēng);季鐸;白宇;;統(tǒng)計與語義相融合的詞語相似度計算[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年
3 吳志雄;;不精確數(shù)據(jù)的相似度計算[A];邏輯學(xué)及其應(yīng)用研究——第四屆全國邏輯系統(tǒng)、智能科學(xué)與信息科學(xué)學(xué)術(shù)會議論文集[C];2008年
4 王凱;李紹穩(wěn);張友華;劉超;;缺值背景中的粗糙形式概念相似度計算理論與方法[A];中國農(nóng)業(yè)工程學(xué)會電氣信息與自動化專業(yè)委員會、中國電機工程學(xué)會農(nóng)村電氣化分會科技與教育專委會2010年學(xué)術(shù)年會論文摘要[C];2010年
5 陳立;宋自林;鄭世明;張英;;基于本體的概念相似度計算研究[A];江蘇省系統(tǒng)工程學(xué)會第十一屆學(xué)術(shù)年會論文集[C];2009年
6 車萬翔;劉挺;秦兵;李生;;面向雙語句對檢索的漢語句子相似度計算[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
7 郭文宏;范學(xué)峰;;基于語義詞典和本體知識的概念相似度計算[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
8 宋彥;張桂平;蔡東風(fēng);;基于N-gram的句子相似度計算技術(shù)[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
9 關(guān)毅;王曉龍;王強;;論系統(tǒng)相似的度量[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
10 林民;宋柔;;基于結(jié)構(gòu)描述的漢字字形相似度計算[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 海量智能計算技術(shù)研究中心 霍剛;新興技術(shù)為互聯(lián)網(wǎng)加速[N];計算機世界;2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 馮曉文;基于GPU的相似度計算關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2014年
2 王秀紅;文本相似度計算核函數(shù)的構(gòu)造及其在分布式信息檢索中的應(yīng)用研究[D];江蘇大學(xué);2012年
3 劉磊;概念內(nèi)涵屬性計算研究[D];上海交通大學(xué);2011年
4 任磊;推薦系統(tǒng)關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 梁韜;中文微博新詞與熱點話題發(fā)現(xiàn)技術(shù)研究[D];湖南工業(yè)大學(xué);2015年
2 汪建成;漢越雙語新聞話題分析方法研究[D];昆明理工大學(xué);2015年
3 唐海燕;基于全文的教育資源檢索模型研究[D];四川師范大學(xué);2015年
4 舒佳根;中文實體鏈接研究[D];蘇州大學(xué);2015年
5 孔行;基于主題推薦的輔助寫作系統(tǒng)[D];哈爾濱工業(yè)大學(xué);2015年
6 孫潤志;基于語義理解的文本相似度計算研究與實現(xiàn)[D];中國科學(xué)院研究生院(沈陽計算技術(shù)研究所);2015年
7 劉敏;基于詞向量的句子相似度計算及其在基于實例的機器翻譯中的應(yīng)用[D];北京理工大學(xué);2015年
8 康毅;面向客服的自動問答系統(tǒng)關(guān)鍵技術(shù)研究[D];東北大學(xué);2014年
9 吳宇浩;南海檔案數(shù)字化半自動?敝械牡妆就扑]探討[D];南京大學(xué);2015年
10 吐爾遜阿依·阿不來提;小學(xué)維吾爾語文教材中的單句相似度研究[D];新疆師范大學(xué);2015年
本文關(guān)鍵詞:基于深度學(xué)習(xí)與主題模型的問句相似度計算,由筆耕文化傳播整理發(fā)布。
,本文編號:301307
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/301307.html