基于加權(quán)Word2vec的微博文本相似度計算方法研究

發(fā)布時間：2021-03-05 20:50

　　隨著互聯(lián)網(wǎng)技術(shù)的不斷深入發(fā)展,各大社交平臺出現(xiàn),產(chǎn)生著大量的文本信息,對這些文本信息進行挖掘處理可以將這些文本數(shù)據(jù)進行有效合理的分類,也可以通過對這些文本信息的深入挖掘發(fā)現(xiàn)網(wǎng)民思想動態(tài)、情緒走向等。微博作為互聯(lián)網(wǎng)技術(shù)發(fā)展重要的產(chǎn)物之一,由于使用門檻低等特點,使得微博參與者數(shù)量非常多,微博關(guān)于社會生活事件的討論度也非常高,因此對其進行文本挖掘分析具有非常重要的意義,與此同時,在文本挖掘領(lǐng)域,文本相似度計算是許多其它文本挖掘應(yīng)用的基礎(chǔ),能夠解決互聯(lián)網(wǎng)上大量文本的雜亂無序問題,在自然語言處理領(lǐng)域當(dāng)中非常地重要,能夠為后續(xù)的文本挖掘處理提供基礎(chǔ)支撐。針對微博文本傳播特點,做好微博文本相似度計算面臨著巨大挑戰(zhàn)。本文為解決這一問題,引入詞向量優(yōu)點,通過分析文本相似度計算的總體框架流程,在綜合考量文本的語義信息和表層統(tǒng)計信息的基礎(chǔ)上,構(gòu)建了一種新的相似度計算方法。詳細地設(shè)計和描述了本文設(shè)計的文本相似度計算模型的各個模塊。本文做的主要工作和得到的研究成果如下:（1）探討了文本相似度計算的研究發(fā)展歷程以及研究現(xiàn)狀,結(jié)合本文實際研究背景給出了文本相似度的定義及內(nèi)涵、常用的文本表示方法和幾種經(jīng)典的文本相似度...

【文章來源】：西安電子科技大學(xué)陜西省 211工程院校教育部直屬院校

【文章頁數(shù)】：72 頁

【學(xué)位級別】：碩士

【部分圖文】：

論文框架圖

工作流程圖,文本,工作流程,預(yù)處理

圖 2. 1 文本預(yù)處理工作流程示法文本表示方法中最簡單的方法，它在進，而是直接將文本看做是單獨的一個一個字符為基本單位的。采用這種方法進處理結(jié)果也可能會不同。例如“西安的話，在用字符表示法進行文本表示，采文本。這種文本表示方法非常簡單，在利用這種方法進行文本表示前并沒有對信息考慮在內(nèi)，在一些較高智能系統(tǒng)示法

核心,語義信息,詞語,上解

圖 3. 1 文本相似度計算核心圖建念向量概念[34]，它是深度學(xué)語進行數(shù)字化，將其表示常在幾十到幾百維），.52672407][35]。研究表明詞詞語的語義信息，根據(jù)文獻的語義和語法上解釋的特征似性，例如通過詞向量之間語中，前兩個詞語之間的距距離是不相同的，在兩組相

【參考文獻】：
期刊論文
[1]N-gram模型綜述[J]. 尹陳,吳敏.  計算機系統(tǒng)應(yīng)用. 2018(10)
[2]Measuring Similarity of Academic Articles with Semantic Profile and Joint Word Embedding[J]. Ming Liu,Bo Lang,Zepeng Gu,Ahmed Zeeshan.  Tsinghua Science and Technology. 2017(06)
[3]基于詞向量和EMD距離的短文本聚類[J]. 黃棟,徐博,許侃,林鴻飛,楊志豪.  山東大學(xué)學(xué)報(理學(xué)版). 2017(07)
[4]文本相似度計算方法研究綜述[J]. 陳二靜,姜恩波.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(06)
[5]融合詞向量的多特征問句相似度計算方法研究[J]. 曹莉麗,王未央.  現(xiàn)代計算機(專業(yè)版). 2017(17)
[6]微博文本挖掘研究綜述[J]. 余容,李光強,尹健.  情報探索. 2017(05)
[7]基于主題模型的檢索結(jié)果聚類應(yīng)用研究[J]. 阮光冊,夏磊.  情報雜志. 2017(03)
[8]基于詞向量包的自動文摘方法[J]. 白淑霞,鮑玉來,張暉.  現(xiàn)代情報. 2017(02)
[9]基于Word2vec的微博短文本分類研究[J]. 張謙,高章敏,劉嘉勇.  信息網(wǎng)絡(luò)安全. 2017(01)
[10]基于BTM的微博輿情熱點發(fā)現(xiàn)[J]. 王亞民,胡悅.  情報雜志. 2016(11)

碩士論文
[1]基于word2vec的中文文本相似度研究與實現(xiàn)[D]. 吳多堅.西安電子科技大學(xué) 2016
[2]中文文本自動分詞技術(shù)與算法研究[D]. 許榮榮.鄭州大學(xué) 2010

本文編號：3065845

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3065845.html

上一篇：圖像水印技術(shù)的研究與應(yīng)用
下一篇：基于Unity3D與HTC Vive的校園展示及交互系統(tǒng)實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于加權(quán)Word2vec的微博文本相似度計算方法研究