基于深度學(xué)習(xí)與主題模型的問句相似度計算

發(fā)布時間：2017-04-12 13:04

本文關(guān)鍵詞：基于深度學(xué)習(xí)與主題模型的問句相似度計算，由筆耕文化傳播整理發(fā)布。

【摘要】：近年來,隨著互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)正在爆炸式地增加,傳統(tǒng)的搜索引擎已經(jīng)很難滿足用戶多方面的需求,自動問答系統(tǒng)應(yīng)運而生,成為了一種新的更為有效的信息獲取方式。問句相似度計算作為其中關(guān)鍵的技術(shù),受到了廣泛的關(guān)注。本文在“大數(shù)據(jù)”背景下,研究了如何高效計算問句相似度的問題,針對問句的特點,提出了使用向量表示句子,進而通過計算向量間距離來度量相似度的方法。論文的主要工作和創(chuàng)新點包括:(1)分析了現(xiàn)有方法的不足之處,研究了神經(jīng)網(wǎng)絡(luò)語言模型和主題模型,并分析了它們在語義表示方面各自的優(yōu)點;(2)為了更好地表示句子的語義,提出了兩個基于深度學(xué)習(xí)與主題模型的主題句子向量模型,并給出了模型的訓(xùn)練算法。其中,第二個模型對第一個模型進行了改進,去除了“詞袋”假設(shè)。這兩個模型結(jié)合了句子向量模型所提供的局部上下文詞語共現(xiàn)信息和主題模型所提供的全局詞語共現(xiàn)信息;(3)為驗證所提模型的有效性,在IMDB電影評論數(shù)據(jù)上,進行了句子分類實驗,對比了所提模型與已有先進模型。實驗結(jié)果表明,融入了主題信息的句子向量模型,超越了傳統(tǒng)的句子向量模型,能夠更好地表示句子的語義;(4)設(shè)計實現(xiàn)了基于句子向量的問句相似度計算方法,在大量真實的Yahoo!Answers數(shù)據(jù)上,基于前面提出的兩個主題句子向量模型,并通過部分標注的數(shù)據(jù)進行了驗證對比實驗。實驗結(jié)果表明,該方法能夠在大規(guī)模的問答數(shù)據(jù)上有效地計算問句相似度。
【關(guān)鍵詞】：問句相似度 深度學(xué)習(xí) 主題模型 句子向量
【學(xué)位授予單位】：北京理工大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2016
【分類號】：TP391.1
【目錄】：

摘要5-6
Abstract6-9
第1章緒論9-16
1.1 研究背景和意義9-10
1.2 國內(nèi)外研究現(xiàn)狀與發(fā)展趨勢10-13
1.2.1 深度學(xué)習(xí)在NLP中的應(yīng)用10-11
1.2.2 主題模型簡介11-12
1.2.3 問句相似度計算12-13
1.3 論文主要工作和結(jié)構(gòu)安排13-16
1.3.1 論文主要工作13-14
1.3.2 論文結(jié)構(gòu)安排14-16
第2章相關(guān)理論及方法16-29
2.1 LDA主題模型16-19
2.1.1 LDA模型概述16-17
2.1.2 Gibbs采樣算法17-18
2.1.3 LDA參數(shù)求解18-19
2.2 神經(jīng)網(wǎng)絡(luò)語言模型與詞向量19-25
2.2.1 神經(jīng)網(wǎng)絡(luò)概率語言模型19-21
2.2.2 word2vec模型21-25
2.3 基于深度學(xué)習(xí)的文檔向量化表示25-27
2.3.1 句子向量化方法25-26
2.3.2 文檔向量化方法26-27
2.4 本章小結(jié)27-29
第3章基于CBOW的主題句子向量模型29-43
3.1 主題句子向量模型的基本思想29-30
3.2 基于CBOW的神經(jīng)網(wǎng)絡(luò)模型30-32
3.3 基于Hierarchical Softmax的模型求解算法32-37
3.3.1 梯度及Hierarchical Softmax參數(shù)計算32-36
3.3.2 基于Hierarchical Softmax的訓(xùn)練算法36-37
3.4 基于Negative Sampling的模型求解算法37-40
3.4.1 梯度及Negative Sampling參數(shù)計算37-39
3.4.2 基于Negative Sampling的訓(xùn)練算法39-40
3.5 實現(xiàn)細節(jié)與優(yōu)化40-41
3.5.1 實現(xiàn)細節(jié)40
3.5.2 近似計算與優(yōu)化40-41
3.6 相關(guān)實驗41-42
3.7 本章小結(jié)42-43
第4章基于SKIP-GRAM的主題句子向量模型43-50
4.1 基于Skip-gram的神經(jīng)網(wǎng)絡(luò)模型43-44
4.2 基于Hierarchical Softmax的模型求解算法44-47
4.3 基于Negative Sampling的模型求解算法47-48
4.4 相關(guān)實驗48-49
4.5 本章小結(jié)49-50
第5章基于主題句子向量模型的問句相似度計算50-55
5.1 基于句子向量計算問句相似度計算50
5.2 實驗環(huán)境與數(shù)據(jù)集50-52
5.2.1 實驗環(huán)境51
5.2.2 數(shù)據(jù)集介紹51-52
5.3 問句相似度計算實驗結(jié)果52-54
5.3.1 評價指標52-53
5.3.2 實驗方法53
5.3.3 實驗結(jié)果53-54
5.4 本章小結(jié)54-55
結(jié)論55-57
參考文獻57-62
攻讀學(xué)位期間發(fā)表的論文與研究成果清單62-63
致謝63

【相似文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 王鈞;趙曰利;;浙大中藥指紋圖譜相似度計算軟件在煙用香精香料色譜分析中的引入應(yīng)用[J];現(xiàn)代儀器;2007年03期

2 單建芳;劉宗田;周文;;事件相似度計算[J];小型微型計算機系統(tǒng);2010年04期

3 劉文劍;郭寧;金天國;;制造資源本體的相似度計算模型[J];計算機集成制造系統(tǒng);2010年11期

4 邸書靈;劉曉飛;李歡;;基于分詞的語句相似度計算的改進[J];石家莊鐵道大學(xué)學(xué)報(自然科學(xué)版);2011年04期

5 秦學(xué)勇;張潤梅;;兩級相似度計算在主觀題機器閱卷中的應(yīng)用[J];計算機工程;2012年11期

6 田衛(wèi)東;強繼朋;;基于問句類型的問句相似度計算[J];計算機應(yīng)用研究;2014年04期

7 周凱波,馮珊,李鋒;基于案例屬性特征的相似度計算模型研究[J];武漢理工大學(xué)學(xué)報(信息與管理工程版);2003年01期

8 易麗萍,竹勇 ,雷小春;知網(wǎng)在詞語相似度計算方面的應(yīng)用[J];信息技術(shù)與信息化;2005年01期

9 廉站俊;呂學(xué)強;張玉杰;施水才;;基于句子相似度計算的信息抽取[J];現(xiàn)代圖書情報技術(shù);2007年06期

10 李偉;;中文語句相似度計算的方法初探[J];蘭州工業(yè)高等�？茖W(xué)校學(xué)報;2009年04期

中國重要會議論文全文數(shù)據(jù)庫前10條

1 劉磊;張桂平;蔡東風(fēng);季鐸;;基于語義預(yù)測的雙語術(shù)語相似度計算[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集（上）[C];2008年

2 郭麗;蔡東風(fēng);季鐸;白宇;;統(tǒng)計與語義相融合的詞語相似度計算[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年

3 吳志雄;;不精確數(shù)據(jù)的相似度計算[A];邏輯學(xué)及其應(yīng)用研究——第四屆全國邏輯系統(tǒng)、智能科學(xué)與信息科學(xué)學(xué)術(shù)會議論文集[C];2008年

4 王凱;李紹穩(wěn);張友華;劉超;;缺值背景中的粗糙形式概念相似度計算理論與方法[A];中國農(nóng)業(yè)工程學(xué)會電氣信息與自動化專業(yè)委員會、中國電機工程學(xué)會農(nóng)村電氣化分會科技與教育專委會2010年學(xué)術(shù)年會論文摘要[C];2010年

5 陳立;宋自林;鄭世明;張英;;基于本體的概念相似度計算研究[A];江蘇省系統(tǒng)工程學(xué)會第十一屆學(xué)術(shù)年會論文集[C];2009年

6 車萬翔;劉挺;秦兵;李生;;面向雙語句對檢索的漢語句子相似度計算[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年

7 郭文宏;范學(xué)峰;;基于語義詞典和本體知識的概念相似度計算[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集（二）[C];2008年

8 宋彥;張桂平;蔡東風(fēng);;基于N-gram的句子相似度計算技術(shù)[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年

9 關(guān)毅;王曉龍;王強;;論系統(tǒng)相似的度量[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議（JSCL-2005）論文集[C];2005年

10 林民;宋柔;;基于結(jié)構(gòu)描述的漢字字形相似度計算[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年

中國重要報紙全文數(shù)據(jù)庫前1條

1 海量智能計算技術(shù)研究中心霍剛;新興技術(shù)為互聯(lián)網(wǎng)加速[N];計算機世界;2007年

中國博士學(xué)位論文全文數(shù)據(jù)庫前4條

1 馮曉文;基于GPU的相似度計算關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2014年

2 王秀紅;文本相似度計算核函數(shù)的構(gòu)造及其在分布式信息檢索中的應(yīng)用研究[D];江蘇大學(xué);2012年

3 劉磊;概念內(nèi)涵屬性計算研究[D];上海交通大學(xué);2011年

4 任磊;推薦系統(tǒng)關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2012年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 梁韜;中文微博新詞與熱點話題發(fā)現(xiàn)技術(shù)研究[D];湖南工業(yè)大學(xué);2015年

2 汪建成;漢越雙語新聞話題分析方法研究[D];昆明理工大學(xué);2015年

3 唐海燕;基于全文的教育資源檢索模型研究[D];四川師范大學(xué);2015年

4 舒佳根;中文實體鏈接研究[D];蘇州大學(xué);2015年

5 孔行;基于主題推薦的輔助寫作系統(tǒng)[D];哈爾濱工業(yè)大學(xué);2015年

6 孫潤志;基于語義理解的文本相似度計算研究與實現(xiàn)[D];中國科學(xué)院研究生院（沈陽計算技術(shù)研究所）;2015年

7 劉敏;基于詞向量的句子相似度計算及其在基于實例的機器翻譯中的應(yīng)用[D];北京理工大學(xué);2015年

8 康毅;面向客服的自動問答系統(tǒng)關(guān)鍵技術(shù)研究[D];東北大學(xué);2014年

9 吳宇浩;南海檔案數(shù)字化半自動�？敝械牡妆就扑]探討[D];南京大學(xué);2015年

10 吐爾遜阿依·阿不來提;小學(xué)維吾爾語文教材中的單句相似度研究[D];新疆師范大學(xué);2015年

本文關(guān)鍵詞：基于深度學(xué)習(xí)與主題模型的問句相似度計算，由筆耕文化傳播整理發(fā)布。

，

本文編號：301307

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/301307.html

上一篇：互聯(lián)網(wǎng)金融背景下商業(yè)銀行經(jīng)營模式轉(zhuǎn)變研究
下一篇：面向?qū)W術(shù)領(lǐng)域的輿情分析關(guān)鍵技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)與主題模型的問句相似度計算