基于深度學(xué)習(xí)與主題模型的問(wèn)句相似度計(jì)算
本文關(guān)鍵詞:基于深度學(xué)習(xí)與主題模型的問(wèn)句相似度計(jì)算,由筆耕文化傳播整理發(fā)布。
【摘要】:近年來(lái),隨著互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)正在爆炸式地增加,傳統(tǒng)的搜索引擎已經(jīng)很難滿足用戶多方面的需求,自動(dòng)問(wèn)答系統(tǒng)應(yīng)運(yùn)而生,成為了一種新的更為有效的信息獲取方式。問(wèn)句相似度計(jì)算作為其中關(guān)鍵的技術(shù),受到了廣泛的關(guān)注。本文在“大數(shù)據(jù)”背景下,研究了如何高效計(jì)算問(wèn)句相似度的問(wèn)題,針對(duì)問(wèn)句的特點(diǎn),提出了使用向量表示句子,進(jìn)而通過(guò)計(jì)算向量間距離來(lái)度量相似度的方法。論文的主要工作和創(chuàng)新點(diǎn)包括:(1)分析了現(xiàn)有方法的不足之處,研究了神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型和主題模型,并分析了它們?cè)谡Z(yǔ)義表示方面各自的優(yōu)點(diǎn);(2)為了更好地表示句子的語(yǔ)義,提出了兩個(gè)基于深度學(xué)習(xí)與主題模型的主題句子向量模型,并給出了模型的訓(xùn)練算法。其中,第二個(gè)模型對(duì)第一個(gè)模型進(jìn)行了改進(jìn),去除了“詞袋”假設(shè)。這兩個(gè)模型結(jié)合了句子向量模型所提供的局部上下文詞語(yǔ)共現(xiàn)信息和主題模型所提供的全局詞語(yǔ)共現(xiàn)信息;(3)為驗(yàn)證所提模型的有效性,在IMDB電影評(píng)論數(shù)據(jù)上,進(jìn)行了句子分類(lèi)實(shí)驗(yàn),對(duì)比了所提模型與已有先進(jìn)模型。實(shí)驗(yàn)結(jié)果表明,融入了主題信息的句子向量模型,超越了傳統(tǒng)的句子向量模型,能夠更好地表示句子的語(yǔ)義;(4)設(shè)計(jì)實(shí)現(xiàn)了基于句子向量的問(wèn)句相似度計(jì)算方法,在大量真實(shí)的Yahoo!Answers數(shù)據(jù)上,基于前面提出的兩個(gè)主題句子向量模型,并通過(guò)部分標(biāo)注的數(shù)據(jù)進(jìn)行了驗(yàn)證對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該方法能夠在大規(guī)模的問(wèn)答數(shù)據(jù)上有效地計(jì)算問(wèn)句相似度。
【關(guān)鍵詞】:問(wèn)句相似度 深度學(xué)習(xí) 主題模型 句子向量
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-9
- 第1章 緒論9-16
- 1.1 研究背景和意義9-10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀與發(fā)展趨勢(shì)10-13
- 1.2.1 深度學(xué)習(xí)在NLP中的應(yīng)用10-11
- 1.2.2 主題模型簡(jiǎn)介11-12
- 1.2.3 問(wèn)句相似度計(jì)算12-13
- 1.3 論文主要工作和結(jié)構(gòu)安排13-16
- 1.3.1 論文主要工作13-14
- 1.3.2 論文結(jié)構(gòu)安排14-16
- 第2章 相關(guān)理論及方法16-29
- 2.1 LDA主題模型16-19
- 2.1.1 LDA模型概述16-17
- 2.1.2 Gibbs采樣算法17-18
- 2.1.3 LDA參數(shù)求解18-19
- 2.2 神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型與詞向量19-25
- 2.2.1 神經(jīng)網(wǎng)絡(luò)概率語(yǔ)言模型19-21
- 2.2.2 word2vec模型21-25
- 2.3 基于深度學(xué)習(xí)的文檔向量化表示25-27
- 2.3.1 句子向量化方法25-26
- 2.3.2 文檔向量化方法26-27
- 2.4 本章小結(jié)27-29
- 第3章 基于CBOW的主題句子向量模型29-43
- 3.1 主題句子向量模型的基本思想29-30
- 3.2 基于CBOW的神經(jīng)網(wǎng)絡(luò)模型30-32
- 3.3 基于Hierarchical Softmax的模型求解算法32-37
- 3.3.1 梯度及Hierarchical Softmax參數(shù)計(jì)算32-36
- 3.3.2 基于Hierarchical Softmax的訓(xùn)練算法36-37
- 3.4 基于Negative Sampling的模型求解算法37-40
- 3.4.1 梯度及Negative Sampling參數(shù)計(jì)算37-39
- 3.4.2 基于Negative Sampling的訓(xùn)練算法39-40
- 3.5 實(shí)現(xiàn)細(xì)節(jié)與優(yōu)化40-41
- 3.5.1 實(shí)現(xiàn)細(xì)節(jié)40
- 3.5.2 近似計(jì)算與優(yōu)化40-41
- 3.6 相關(guān)實(shí)驗(yàn)41-42
- 3.7 本章小結(jié)42-43
- 第4章 基于SKIP-GRAM的主題句子向量模型43-50
- 4.1 基于Skip-gram的神經(jīng)網(wǎng)絡(luò)模型43-44
- 4.2 基于Hierarchical Softmax的模型求解算法44-47
- 4.3 基于Negative Sampling的模型求解算法47-48
- 4.4 相關(guān)實(shí)驗(yàn)48-49
- 4.5 本章小結(jié)49-50
- 第5章 基于主題句子向量模型的問(wèn)句相似度計(jì)算50-55
- 5.1 基于句子向量計(jì)算問(wèn)句相似度計(jì)算50
- 5.2 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集50-52
- 5.2.1 實(shí)驗(yàn)環(huán)境51
- 5.2.2 數(shù)據(jù)集介紹51-52
- 5.3 問(wèn)句相似度計(jì)算實(shí)驗(yàn)結(jié)果52-54
- 5.3.1 評(píng)價(jià)指標(biāo)52-53
- 5.3.2 實(shí)驗(yàn)方法53
- 5.3.3 實(shí)驗(yàn)結(jié)果53-54
- 5.4 本章小結(jié)54-55
- 結(jié)論55-57
- 參考文獻(xiàn)57-62
- 攻讀學(xué)位期間發(fā)表的論文與研究成果清單62-63
- 致謝63
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王鈞;趙曰利;;浙大中藥指紋圖譜相似度計(jì)算軟件在煙用香精香料色譜分析中的引入應(yīng)用[J];現(xiàn)代儀器;2007年03期
2 單建芳;劉宗田;周文;;事件相似度計(jì)算[J];小型微型計(jì)算機(jī)系統(tǒng);2010年04期
3 劉文劍;郭寧;金天國(guó);;制造資源本體的相似度計(jì)算模型[J];計(jì)算機(jī)集成制造系統(tǒng);2010年11期
4 邸書(shū)靈;劉曉飛;李歡;;基于分詞的語(yǔ)句相似度計(jì)算的改進(jìn)[J];石家莊鐵道大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期
5 秦學(xué)勇;張潤(rùn)梅;;兩級(jí)相似度計(jì)算在主觀題機(jī)器閱卷中的應(yīng)用[J];計(jì)算機(jī)工程;2012年11期
6 田衛(wèi)東;強(qiáng)繼朋;;基于問(wèn)句類(lèi)型的問(wèn)句相似度計(jì)算[J];計(jì)算機(jī)應(yīng)用研究;2014年04期
7 周凱波,馮珊,李鋒;基于案例屬性特征的相似度計(jì)算模型研究[J];武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版);2003年01期
8 易麗萍,竹勇 ,雷小春;知網(wǎng)在詞語(yǔ)相似度計(jì)算方面的應(yīng)用[J];信息技術(shù)與信息化;2005年01期
9 廉站俊;呂學(xué)強(qiáng);張玉杰;施水才;;基于句子相似度計(jì)算的信息抽取[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2007年06期
10 李偉;;中文語(yǔ)句相似度計(jì)算的方法初探[J];蘭州工業(yè)高等專(zhuān)科學(xué)校學(xué)報(bào);2009年04期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 劉磊;張桂平;蔡?hào)|風(fēng);季鐸;;基于語(yǔ)義預(yù)測(cè)的雙語(yǔ)術(shù)語(yǔ)相似度計(jì)算[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
2 郭麗;蔡?hào)|風(fēng);季鐸;白宇;;統(tǒng)計(jì)與語(yǔ)義相融合的詞語(yǔ)相似度計(jì)算[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年
3 吳志雄;;不精確數(shù)據(jù)的相似度計(jì)算[A];邏輯學(xué)及其應(yīng)用研究——第四屆全國(guó)邏輯系統(tǒng)、智能科學(xué)與信息科學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年
4 王凱;李紹穩(wěn);張友華;劉超;;缺值背景中的粗糙形式概念相似度計(jì)算理論與方法[A];中國(guó)農(nóng)業(yè)工程學(xué)會(huì)電氣信息與自動(dòng)化專(zhuān)業(yè)委員會(huì)、中國(guó)電機(jī)工程學(xué)會(huì)農(nóng)村電氣化分會(huì)科技與教育專(zhuān)委會(huì)2010年學(xué)術(shù)年會(huì)論文摘要[C];2010年
5 陳立;宋自林;鄭世明;張英;;基于本體的概念相似度計(jì)算研究[A];江蘇省系統(tǒng)工程學(xué)會(huì)第十一屆學(xué)術(shù)年會(huì)論文集[C];2009年
6 車(chē)萬(wàn)翔;劉挺;秦兵;李生;;面向雙語(yǔ)句對(duì)檢索的漢語(yǔ)句子相似度計(jì)算[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
7 郭文宏;范學(xué)峰;;基于語(yǔ)義詞典和本體知識(shí)的概念相似度計(jì)算[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
8 宋彥;張桂平;蔡?hào)|風(fēng);;基于N-gram的句子相似度計(jì)算技術(shù)[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
9 關(guān)毅;王曉龍;王強(qiáng);;論系統(tǒng)相似的度量[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
10 林民;宋柔;;基于結(jié)構(gòu)描述的漢字字形相似度計(jì)算[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條
1 海量智能計(jì)算技術(shù)研究中心 霍剛;新興技術(shù)為互聯(lián)網(wǎng)加速[N];計(jì)算機(jī)世界;2007年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 馮曉文;基于GPU的相似度計(jì)算關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2014年
2 王秀紅;文本相似度計(jì)算核函數(shù)的構(gòu)造及其在分布式信息檢索中的應(yīng)用研究[D];江蘇大學(xué);2012年
3 劉磊;概念內(nèi)涵屬性計(jì)算研究[D];上海交通大學(xué);2011年
4 任磊;推薦系統(tǒng)關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2012年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 梁韜;中文微博新詞與熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究[D];湖南工業(yè)大學(xué);2015年
2 汪建成;漢越雙語(yǔ)新聞話題分析方法研究[D];昆明理工大學(xué);2015年
3 唐海燕;基于全文的教育資源檢索模型研究[D];四川師范大學(xué);2015年
4 舒佳根;中文實(shí)體鏈接研究[D];蘇州大學(xué);2015年
5 孔行;基于主題推薦的輔助寫(xiě)作系統(tǒng)[D];哈爾濱工業(yè)大學(xué);2015年
6 孫潤(rùn)志;基于語(yǔ)義理解的文本相似度計(jì)算研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)院研究生院(沈陽(yáng)計(jì)算技術(shù)研究所);2015年
7 劉敏;基于詞向量的句子相似度計(jì)算及其在基于實(shí)例的機(jī)器翻譯中的應(yīng)用[D];北京理工大學(xué);2015年
8 康毅;面向客服的自動(dòng)問(wèn)答系統(tǒng)關(guān)鍵技術(shù)研究[D];東北大學(xué);2014年
9 吳宇浩;南海檔案數(shù)字化半自動(dòng)?敝械牡妆就扑]探討[D];南京大學(xué);2015年
10 吐?tīng)栠d阿依·阿不來(lái)提;小學(xué)維吾爾語(yǔ)文教材中的單句相似度研究[D];新疆師范大學(xué);2015年
本文關(guān)鍵詞:基于深度學(xué)習(xí)與主題模型的問(wèn)句相似度計(jì)算,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):301307
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/301307.html