天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于word2vec的中文文本相似度研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-03-25 19:05

  本文關(guān)鍵詞:基于word2vec的中文文本相似度研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。


【摘要】:在如今網(wǎng)絡(luò)得到普及的時(shí)代,特別是Web3.0的應(yīng)用,越來越多的信息被編碼成數(shù)字信息存儲(chǔ)在網(wǎng)絡(luò)上,包括各種論文和文獻(xiàn)的存儲(chǔ)。為了更好地對(duì)數(shù)據(jù)進(jìn)行分類和查找,我們需要對(duì)不同的數(shù)據(jù)進(jìn)行合理的存儲(chǔ)和索引。為了對(duì)數(shù)據(jù)進(jìn)行分類,我們需要對(duì)文本進(jìn)行相似度比較。在眾多的文本相似度判別方法中,最準(zhǔn)確的方法是通過人工去對(duì)比兩個(gè)文檔之間的相似度,但是考慮到目前文本數(shù)量巨大,而且其增長(zhǎng)速度隨網(wǎng)絡(luò)存儲(chǔ)的應(yīng)用呈現(xiàn)爆炸式增長(zhǎng),人工的檢查方式已經(jīng)變得不太現(xiàn)實(shí)。為此,開發(fā)一種在計(jì)算和識(shí)別速度上具有明顯優(yōu)勢(shì),并符合人為制定的相似標(biāo)準(zhǔn),做到正確地、迅速到、健壯地判定文本相似度。文本相似度是許多應(yīng)用的基礎(chǔ),如文本聚類、搜索引擎和論文查重的基礎(chǔ),所以文本相似度計(jì)算的準(zhǔn)確性直接影響到這樣應(yīng)用的運(yùn)行效果。如果能提高文本相似度的準(zhǔn)確度,這樣就能從互聯(lián)網(wǎng)上搜索到更多更有用的信息,就可以把大量的文章更好地分門別類,使機(jī)器表現(xiàn)得更加接近人類的表達(dá)方式。為了能更接近這一目標(biāo),人們也在不斷改進(jìn)文本相似度計(jì)算的方法,希望能得到更加令人滿意的結(jié)果。在過去,通用的文本相似度算法都是基于向量空間模型來展開,而且這種方法在應(yīng)用之初表現(xiàn)效果不錯(cuò),但是隨著信息量的增長(zhǎng),這種方法的缺點(diǎn)也越來越明顯。傳統(tǒng)算法中有兩大缺點(diǎn)。第一,無(wú)法識(shí)別意思相似或者相關(guān)的詞語(yǔ);第二,文本中詞語(yǔ)的權(quán)重不合理,即文本中的核心關(guān)鍵詞的重要程度與其他非關(guān)鍵詞重要程度一樣,而這是不合理的。所以如果能處理好著兩大難題,文本相似度計(jì)算準(zhǔn)確率也必將提高。本文將在傳統(tǒng)算法的基礎(chǔ)上對(duì)文本相似度算法進(jìn)行改進(jìn)。隨著近幾年不斷的努力,許多研究人員也提出了許多改進(jìn)的算法,其中不乏表現(xiàn)效果不俗的文章,在眾多文章中,就有本文著重要提到的Word2vec。Word2vec的核心是詞向量,即每個(gè)詞語(yǔ)都有一個(gè)相對(duì)應(yīng)向量,在計(jì)算兩個(gè)詞語(yǔ)的相似度時(shí)其實(shí)就是計(jì)算兩個(gè)向量的余弦值。引入詞向量后,可以識(shí)別兩個(gè)字型不同但意思相似或相關(guān)的詞語(yǔ)。而為了對(duì)文本中的詞語(yǔ)重要程度分配不同的權(quán)值,本文引入了詞頻表,通過詞頻表就可以標(biāo)記出一個(gè)文本中詞語(yǔ)的權(quán)值,達(dá)到弱化非關(guān)鍵詞語(yǔ)并且突出關(guān)鍵詞語(yǔ)的效果。這樣就能彌補(bǔ)傳統(tǒng)相似度算法中的不足。
【關(guān)鍵詞】:文本相似度 向量空間模型(VSM) 詞向量 Word2vec 信息檢索
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要5-6
  • ABSTRACT6-9
  • 縮略圖對(duì)照表9-12
  • 第一章 緒論12-16
  • 1.1 文本相似度研究的背景與意義12-13
  • 1.2 文本相似度的發(fā)展現(xiàn)狀13
  • 1.3 本文內(nèi)容與章節(jié)安排13-16
  • 1.3.1 本文主要內(nèi)容13-14
  • 1.3.2 本文章節(jié)安排14-16
  • 第二章 文本相似度計(jì)算理論16-34
  • 2.1 文本相似度基本概念16-17
  • 2.1.1 文本相似度含義16
  • 2.1.2 文本相似度計(jì)算方法分類16-17
  • 2.2 文本表示方法17-18
  • 2.2.1 字符表示法17
  • 2.2.2 詞袋表示法17-18
  • 2.2.3 n-gram表示法18
  • 2.3 經(jīng)典文本計(jì)算模型18-25
  • 2.3.1 經(jīng)典布爾模型18-19
  • 2.3.2 擴(kuò)展布爾模型19-22
  • 2.3.3 概率模型22-23
  • 2.3.4 向量空間模型23-24
  • 2.3.5 引入同義詞的向量空間模型24-25
  • 2.4 WORD2VEC模型構(gòu)建25-32
  • 2.4.1 詞向量25-27
  • 2.4.2 前饋神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型27
  • 2.4.3 循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型27-28
  • 2.4.4 連續(xù)詞袋模型28
  • 2.4.5 連續(xù)Skip-gram模型28-30
  • 2.4.6 分層softmax30
  • 2.4.7 負(fù)采樣30-31
  • 2.4.8 高頻詞的再抽樣31
  • 2.4.9 模型效果31-32
  • 2.5 本章小結(jié)32-34
  • 第三章 文本相似度算法設(shè)計(jì)與優(yōu)化34-52
  • 3.1 文本相似度算法設(shè)計(jì)34-35
  • 3.2 傳統(tǒng)文本相似度算法的關(guān)鍵步驟35-43
  • 3.2.1 文本分詞35-40
  • 3.2.2 文本虛詞過濾40-41
  • 3.2.3 獲取文本特征向量41-42
  • 3.2.4 文本相似度計(jì)算42-43
  • 3.3 文本相似度算法優(yōu)化43-50
  • 3.3.1 降低文本詞頻影響43-46
  • 3.3.2 文本相似度優(yōu)化46-50
  • 3.4 本章小結(jié)50-52
  • 第四章 實(shí)驗(yàn)結(jié)果52-58
  • 4.1 實(shí)驗(yàn)結(jié)果與分析52-57
  • 4.2 結(jié)論57
  • 4.3 本章小結(jié)57-58
  • 第五章 總結(jié)與展望58-60
  • 5.1 工作總結(jié)58
  • 5.2 下一步工作展望58-60
  • 致謝60-62
  • 參考文獻(xiàn)62-64
  • 作者簡(jiǎn)介64-65

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 郭帆;余敏;葉繼華;;一種基于分類和相似度的報(bào)警聚合方法[J];計(jì)算機(jī)應(yīng)用;2007年10期

2 許鵬遠(yuǎn);黨延忠;;基于元相似度的推薦算法[J];計(jì)算機(jī)應(yīng)用研究;2011年10期

3 孫喜來;王欣;葛昂;鄭家民;鄧宏斌;;面向相似度的多維異構(gòu)數(shù)據(jù)比對(duì)模型研究[J];信息安全與技術(shù);2011年09期

4 楊云;朱學(xué)峰;;一種新的計(jì)算中藥指紋圖譜相似度方法與實(shí)現(xiàn)[J];計(jì)算機(jī)測(cè)量與控制;2007年10期

5 熊子奇;張暉;林茂松;;基于相似度的中文網(wǎng)頁(yè)正文提取算法[J];西南科技大學(xué)學(xué)報(bào);2010年01期

6 劉萍;陳燁;;詞匯相似度研究進(jìn)展綜述[J];現(xiàn)代圖書情報(bào)技術(shù);2012年Z1期

7 孫瑤瑤;劉杰;;基于Embedded MATLAB函數(shù)模塊的圖像相似度的實(shí)現(xiàn)[J];計(jì)算機(jī)與數(shù)字工程;2010年02期

8 朱新懿;耿國(guó)華;;顱面重構(gòu)中顱面相似度比較[J];計(jì)算機(jī)應(yīng)用研究;2010年08期

9 厲晗;徐向民;尤芳敏;錢民;馬東;;利用相似度分割特征集的混合核構(gòu)造方法[J];科學(xué)技術(shù)與工程;2007年04期

10 邢長(zhǎng)征;孫偉;;一種改進(jìn)的基于句子相似度的檢測(cè)算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2010年02期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條

1 杜琦;鞏政;;基于字符串相似度的自動(dòng)評(píng)分算法實(shí)現(xiàn)[A];2011年全國(guó)電子信息技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2011年

2 韓敏;唐常杰;段磊;李川;鞏杰;;基于TF/IDF相似度的標(biāo)簽聚類方法[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年

3 郭帆;葉繼華;余敏;;分布式IDS報(bào)警聚合研究與實(shí)現(xiàn)[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年

4 何梅;劉亞軍;陳耿;;詞性劃分和差額法在主觀題閱卷中的應(yīng)用[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條

1 朱新懿;三維顱面相似度比較的研究[D];西北大學(xué);2012年

2 吳迪;基于加權(quán)相似度的序列聚類算法研究[D];燕山大學(xué);2014年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 嚴(yán)春梅;向量空間模型與語(yǔ)義理解相結(jié)合的論文相似度算法研究[D];西南交通大學(xué);2015年

2 黃敏敏;高速公路交通應(yīng)急救援預(yù)案智能匹配方法研究[D];東南大學(xué);2015年

3

本文編號(hào):267625


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/267625.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶06dd0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产精品成人一区二区在线 | 一区二区三区国产日韩| 亚洲一区二区三区免费的视频| 欧美日韩精品视频在线| 亚洲一级在线免费观看| 99久久婷婷国产亚洲综合精品| 东京不热免费观看日本| 扒开腿狂躁女人爽出白浆av| 老司机激情五月天在线不卡| 在线观看视频成人午夜| 国产精品不卡免费视频| 国产日产欧美精品大秀| 日韩一区二区三区免费av| 日韩午夜福利高清在线观看| 日本加勒比不卡二三四区| 人妻乱近亲奸中文字幕| 美女被草的视频在线观看| 色丁香一区二区黑人巨大| 日本人妻精品中文字幕不卡乱码| 欧美三级大黄片免费看| 久久午夜福利精品日韩| 亚洲a码一区二区三区| 国产亚洲中文日韩欧美综合网| 亚洲第一视频少妇人妻系列| 日本人妻免费一区二区三区| 激情亚洲内射一区二区三区| 日韩成人高清免费在线| 日韩不卡一区二区在线| 大香蕉网国产在线观看av| 国产午夜福利一区二区| 欧美国产极品一区二区| 麻豆tv传媒在线观看| 人人妻人人澡人人夜夜| 国产成人精品一区二三区在线观看 | 黄片免费在线观看日韩| 好吊日在线视频免费观看| 亚洲一区二区三区国产| 日本福利写真在线观看| 精品视频一区二区不卡| 日本视频在线观看不卡| 欧美黄色成人真人视频|