天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于深度學(xué)習(xí)與主題模型的問(wèn)句相似度計(jì)算

發(fā)布時(shí)間:2017-04-12 13:04

  本文關(guān)鍵詞:基于深度學(xué)習(xí)與主題模型的問(wèn)句相似度計(jì)算,由筆耕文化傳播整理發(fā)布。


【摘要】:近年來(lái),隨著互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)正在爆炸式地增加,傳統(tǒng)的搜索引擎已經(jīng)很難滿足用戶多方面的需求,自動(dòng)問(wèn)答系統(tǒng)應(yīng)運(yùn)而生,成為了一種新的更為有效的信息獲取方式。問(wèn)句相似度計(jì)算作為其中關(guān)鍵的技術(shù),受到了廣泛的關(guān)注。本文在“大數(shù)據(jù)”背景下,研究了如何高效計(jì)算問(wèn)句相似度的問(wèn)題,針對(duì)問(wèn)句的特點(diǎn),提出了使用向量表示句子,進(jìn)而通過(guò)計(jì)算向量間距離來(lái)度量相似度的方法。論文的主要工作和創(chuàng)新點(diǎn)包括:(1)分析了現(xiàn)有方法的不足之處,研究了神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型和主題模型,并分析了它們?cè)谡Z(yǔ)義表示方面各自的優(yōu)點(diǎn);(2)為了更好地表示句子的語(yǔ)義,提出了兩個(gè)基于深度學(xué)習(xí)與主題模型的主題句子向量模型,并給出了模型的訓(xùn)練算法。其中,第二個(gè)模型對(duì)第一個(gè)模型進(jìn)行了改進(jìn),去除了“詞袋”假設(shè)。這兩個(gè)模型結(jié)合了句子向量模型所提供的局部上下文詞語(yǔ)共現(xiàn)信息和主題模型所提供的全局詞語(yǔ)共現(xiàn)信息;(3)為驗(yàn)證所提模型的有效性,在IMDB電影評(píng)論數(shù)據(jù)上,進(jìn)行了句子分類(lèi)實(shí)驗(yàn),對(duì)比了所提模型與已有先進(jìn)模型。實(shí)驗(yàn)結(jié)果表明,融入了主題信息的句子向量模型,超越了傳統(tǒng)的句子向量模型,能夠更好地表示句子的語(yǔ)義;(4)設(shè)計(jì)實(shí)現(xiàn)了基于句子向量的問(wèn)句相似度計(jì)算方法,在大量真實(shí)的Yahoo!Answers數(shù)據(jù)上,基于前面提出的兩個(gè)主題句子向量模型,并通過(guò)部分標(biāo)注的數(shù)據(jù)進(jìn)行了驗(yàn)證對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該方法能夠在大規(guī)模的問(wèn)答數(shù)據(jù)上有效地計(jì)算問(wèn)句相似度。
【關(guān)鍵詞】:問(wèn)句相似度 深度學(xué)習(xí) 主題模型 句子向量
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.1
【目錄】:
  • 摘要5-6
  • Abstract6-9
  • 第1章 緒論9-16
  • 1.1 研究背景和意義9-10
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀與發(fā)展趨勢(shì)10-13
  • 1.2.1 深度學(xué)習(xí)在NLP中的應(yīng)用10-11
  • 1.2.2 主題模型簡(jiǎn)介11-12
  • 1.2.3 問(wèn)句相似度計(jì)算12-13
  • 1.3 論文主要工作和結(jié)構(gòu)安排13-16
  • 1.3.1 論文主要工作13-14
  • 1.3.2 論文結(jié)構(gòu)安排14-16
  • 第2章 相關(guān)理論及方法16-29
  • 2.1 LDA主題模型16-19
  • 2.1.1 LDA模型概述16-17
  • 2.1.2 Gibbs采樣算法17-18
  • 2.1.3 LDA參數(shù)求解18-19
  • 2.2 神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型與詞向量19-25
  • 2.2.1 神經(jīng)網(wǎng)絡(luò)概率語(yǔ)言模型19-21
  • 2.2.2 word2vec模型21-25
  • 2.3 基于深度學(xué)習(xí)的文檔向量化表示25-27
  • 2.3.1 句子向量化方法25-26
  • 2.3.2 文檔向量化方法26-27
  • 2.4 本章小結(jié)27-29
  • 第3章 基于CBOW的主題句子向量模型29-43
  • 3.1 主題句子向量模型的基本思想29-30
  • 3.2 基于CBOW的神經(jīng)網(wǎng)絡(luò)模型30-32
  • 3.3 基于Hierarchical Softmax的模型求解算法32-37
  • 3.3.1 梯度及Hierarchical Softmax參數(shù)計(jì)算32-36
  • 3.3.2 基于Hierarchical Softmax的訓(xùn)練算法36-37
  • 3.4 基于Negative Sampling的模型求解算法37-40
  • 3.4.1 梯度及Negative Sampling參數(shù)計(jì)算37-39
  • 3.4.2 基于Negative Sampling的訓(xùn)練算法39-40
  • 3.5 實(shí)現(xiàn)細(xì)節(jié)與優(yōu)化40-41
  • 3.5.1 實(shí)現(xiàn)細(xì)節(jié)40
  • 3.5.2 近似計(jì)算與優(yōu)化40-41
  • 3.6 相關(guān)實(shí)驗(yàn)41-42
  • 3.7 本章小結(jié)42-43
  • 第4章 基于SKIP-GRAM的主題句子向量模型43-50
  • 4.1 基于Skip-gram的神經(jīng)網(wǎng)絡(luò)模型43-44
  • 4.2 基于Hierarchical Softmax的模型求解算法44-47
  • 4.3 基于Negative Sampling的模型求解算法47-48
  • 4.4 相關(guān)實(shí)驗(yàn)48-49
  • 4.5 本章小結(jié)49-50
  • 第5章 基于主題句子向量模型的問(wèn)句相似度計(jì)算50-55
  • 5.1 基于句子向量計(jì)算問(wèn)句相似度計(jì)算50
  • 5.2 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集50-52
  • 5.2.1 實(shí)驗(yàn)環(huán)境51
  • 5.2.2 數(shù)據(jù)集介紹51-52
  • 5.3 問(wèn)句相似度計(jì)算實(shí)驗(yàn)結(jié)果52-54
  • 5.3.1 評(píng)價(jià)指標(biāo)52-53
  • 5.3.2 實(shí)驗(yàn)方法53
  • 5.3.3 實(shí)驗(yàn)結(jié)果53-54
  • 5.4 本章小結(jié)54-55
  • 結(jié)論55-57
  • 參考文獻(xiàn)57-62
  • 攻讀學(xué)位期間發(fā)表的論文與研究成果清單62-63
  • 致謝63

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 王鈞;趙曰利;;浙大中藥指紋圖譜相似度計(jì)算軟件在煙用香精香料色譜分析中的引入應(yīng)用[J];現(xiàn)代儀器;2007年03期

2 單建芳;劉宗田;周文;;事件相似度計(jì)算[J];小型微型計(jì)算機(jī)系統(tǒng);2010年04期

3 劉文劍;郭寧;金天國(guó);;制造資源本體的相似度計(jì)算模型[J];計(jì)算機(jī)集成制造系統(tǒng);2010年11期

4 邸書(shū)靈;劉曉飛;李歡;;基于分詞的語(yǔ)句相似度計(jì)算的改進(jìn)[J];石家莊鐵道大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期

5 秦學(xué)勇;張潤(rùn)梅;;兩級(jí)相似度計(jì)算在主觀題機(jī)器閱卷中的應(yīng)用[J];計(jì)算機(jī)工程;2012年11期

6 田衛(wèi)東;強(qiáng)繼朋;;基于問(wèn)句類(lèi)型的問(wèn)句相似度計(jì)算[J];計(jì)算機(jī)應(yīng)用研究;2014年04期

7 周凱波,馮珊,李鋒;基于案例屬性特征的相似度計(jì)算模型研究[J];武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版);2003年01期

8 易麗萍,竹勇 ,雷小春;知網(wǎng)在詞語(yǔ)相似度計(jì)算方面的應(yīng)用[J];信息技術(shù)與信息化;2005年01期

9 廉站俊;呂學(xué)強(qiáng);張玉杰;施水才;;基于句子相似度計(jì)算的信息抽取[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2007年06期

10 李偉;;中文語(yǔ)句相似度計(jì)算的方法初探[J];蘭州工業(yè)高等專(zhuān)科學(xué)校學(xué)報(bào);2009年04期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 劉磊;張桂平;蔡?hào)|風(fēng);季鐸;;基于語(yǔ)義預(yù)測(cè)的雙語(yǔ)術(shù)語(yǔ)相似度計(jì)算[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

2 郭麗;蔡?hào)|風(fēng);季鐸;白宇;;統(tǒng)計(jì)與語(yǔ)義相融合的詞語(yǔ)相似度計(jì)算[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年

3 吳志雄;;不精確數(shù)據(jù)的相似度計(jì)算[A];邏輯學(xué)及其應(yīng)用研究——第四屆全國(guó)邏輯系統(tǒng)、智能科學(xué)與信息科學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年

4 王凱;李紹穩(wěn);張友華;劉超;;缺值背景中的粗糙形式概念相似度計(jì)算理論與方法[A];中國(guó)農(nóng)業(yè)工程學(xué)會(huì)電氣信息與自動(dòng)化專(zhuān)業(yè)委員會(huì)、中國(guó)電機(jī)工程學(xué)會(huì)農(nóng)村電氣化分會(huì)科技與教育專(zhuān)委會(huì)2010年學(xué)術(shù)年會(huì)論文摘要[C];2010年

5 陳立;宋自林;鄭世明;張英;;基于本體的概念相似度計(jì)算研究[A];江蘇省系統(tǒng)工程學(xué)會(huì)第十一屆學(xué)術(shù)年會(huì)論文集[C];2009年

6 車(chē)萬(wàn)翔;劉挺;秦兵;李生;;面向雙語(yǔ)句對(duì)檢索的漢語(yǔ)句子相似度計(jì)算[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

7 郭文宏;范學(xué)峰;;基于語(yǔ)義詞典和本體知識(shí)的概念相似度計(jì)算[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年

8 宋彥;張桂平;蔡?hào)|風(fēng);;基于N-gram的句子相似度計(jì)算技術(shù)[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

9 關(guān)毅;王曉龍;王強(qiáng);;論系統(tǒng)相似的度量[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

10 林民;宋柔;;基于結(jié)構(gòu)描述的漢字字形相似度計(jì)算[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條

1 海量智能計(jì)算技術(shù)研究中心 霍剛;新興技術(shù)為互聯(lián)網(wǎng)加速[N];計(jì)算機(jī)世界;2007年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條

1 馮曉文;基于GPU的相似度計(jì)算關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2014年

2 王秀紅;文本相似度計(jì)算核函數(shù)的構(gòu)造及其在分布式信息檢索中的應(yīng)用研究[D];江蘇大學(xué);2012年

3 劉磊;概念內(nèi)涵屬性計(jì)算研究[D];上海交通大學(xué);2011年

4 任磊;推薦系統(tǒng)關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2012年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 梁韜;中文微博新詞與熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究[D];湖南工業(yè)大學(xué);2015年

2 汪建成;漢越雙語(yǔ)新聞話題分析方法研究[D];昆明理工大學(xué);2015年

3 唐海燕;基于全文的教育資源檢索模型研究[D];四川師范大學(xué);2015年

4 舒佳根;中文實(shí)體鏈接研究[D];蘇州大學(xué);2015年

5 孔行;基于主題推薦的輔助寫(xiě)作系統(tǒng)[D];哈爾濱工業(yè)大學(xué);2015年

6 孫潤(rùn)志;基于語(yǔ)義理解的文本相似度計(jì)算研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)院研究生院(沈陽(yáng)計(jì)算技術(shù)研究所);2015年

7 劉敏;基于詞向量的句子相似度計(jì)算及其在基于實(shí)例的機(jī)器翻譯中的應(yīng)用[D];北京理工大學(xué);2015年

8 康毅;面向客服的自動(dòng)問(wèn)答系統(tǒng)關(guān)鍵技術(shù)研究[D];東北大學(xué);2014年

9 吳宇浩;南海檔案數(shù)字化半自動(dòng)?敝械牡妆就扑]探討[D];南京大學(xué);2015年

10 吐?tīng)栠d阿依·阿不來(lái)提;小學(xué)維吾爾語(yǔ)文教材中的單句相似度研究[D];新疆師范大學(xué);2015年


  本文關(guān)鍵詞:基于深度學(xué)習(xí)與主題模型的問(wèn)句相似度計(jì)算,由筆耕文化傳播整理發(fā)布。

,

本文編號(hào):301307

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/301307.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4e63e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产又大又黄又粗又免费| 欧美黑人暴力猛交精品| 国产毛片对白精品看片| 我的性感妹妹在线观看| 又黄又硬又爽又色的视频| 一区二区三区日本高清| 中文字幕一二区在线观看| 色婷婷在线精品国自产拍| 女厕偷窥一区二区三区在线| 91欧美亚洲视频在线| 亚洲精选91福利在线观看| 日韩国产欧美中文字幕| 日韩1区二区三区麻豆| 久久久精品日韩欧美丰满| 国产欧美日本在线播放| 日韩在线视频精品中文字幕| 九九热这里只有精品视频| 亚洲国产成人精品福利| 成人午夜在线视频观看| 国产一区二区三区午夜精品| 少妇肥臀一区二区三区| 亚洲天堂有码中文字幕视频| 国产老熟女超碰一区二区三区| 亚洲一区二区亚洲日本 | 激情偷拍一区二区三区视频| 亚洲国产中文字幕在线观看| 麻豆亚州无矿码专区视频| 亚洲国产一级片在线观看| 久久精品一区二区少妇| 91播色在线免费播放| 中文字日产幕码三区国产| 伊人网免费在线观看高清版| 制服丝袜美腿美女一区二区| 中文字幕一区二区久久综合| 日韩精品一区二区三区四区| 国产美女网红精品演绎| 亚洲一区二区三区av高清| 欧美日韩精品一区免费 | 91精品欧美综合在ⅹ| 操白丝女孩在线观看免费高清| 俄罗斯胖女人性生活视频|