基于加權Word2vec的微博文本相似度計算方法研究
發(fā)布時間:2021-03-05 20:50
隨著互聯(lián)網(wǎng)技術的不斷深入發(fā)展,各大社交平臺出現(xiàn),產生著大量的文本信息,對這些文本信息進行挖掘處理可以將這些文本數(shù)據(jù)進行有效合理的分類,也可以通過對這些文本信息的深入挖掘發(fā)現(xiàn)網(wǎng)民思想動態(tài)、情緒走向等。微博作為互聯(lián)網(wǎng)技術發(fā)展重要的產物之一,由于使用門檻低等特點,使得微博參與者數(shù)量非常多,微博關于社會生活事件的討論度也非常高,因此對其進行文本挖掘分析具有非常重要的意義,與此同時,在文本挖掘領域,文本相似度計算是許多其它文本挖掘應用的基礎,能夠解決互聯(lián)網(wǎng)上大量文本的雜亂無序問題,在自然語言處理領域當中非常地重要,能夠為后續(xù)的文本挖掘處理提供基礎支撐。針對微博文本傳播特點,做好微博文本相似度計算面臨著巨大挑戰(zhàn)。本文為解決這一問題,引入詞向量優(yōu)點,通過分析文本相似度計算的總體框架流程,在綜合考量文本的語義信息和表層統(tǒng)計信息的基礎上,構建了一種新的相似度計算方法。詳細地設計和描述了本文設計的文本相似度計算模型的各個模塊。本文做的主要工作和得到的研究成果如下:(1)探討了文本相似度計算的研究發(fā)展歷程以及研究現(xiàn)狀,結合本文實際研究背景給出了文本相似度的定義及內涵、常用的文本表示方法和幾種經(jīng)典的文本相似度...
【文章來源】:西安電子科技大學陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【部分圖文】:
論文框架圖
圖 2. 1 文本預處理工作流程示法文本表示方法中最簡單的方法,它在進,而是直接將文本看做是單獨的一個一個字符為基本單位的。采用這種方法進處理結果也可能會不同。例如“西安的話,在用字符表示法進行文本表示,采文本。這種文本表示方法非常簡單,在利用這種方法進行文本表示前并沒有對信息考慮在內,在一些較高智能系統(tǒng)示法
圖 3. 1 文本相似度計算核心圖建念向量概念[34],它是深度學語進行數(shù)字化,將其表示常在幾十到幾百維),.52672407][35]。研究表明詞詞語的語義信息,根據(jù)文獻的語義和語法上解釋的特征似性,例如通過詞向量之間語中,前兩個詞語之間的距距離是不相同的,在兩組相
【參考文獻】:
期刊論文
[1]N-gram模型綜述[J]. 尹陳,吳敏. 計算機系統(tǒng)應用. 2018(10)
[2]Measuring Similarity of Academic Articles with Semantic Profile and Joint Word Embedding[J]. Ming Liu,Bo Lang,Zepeng Gu,Ahmed Zeeshan. Tsinghua Science and Technology. 2017(06)
[3]基于詞向量和EMD距離的短文本聚類[J]. 黃棟,徐博,許侃,林鴻飛,楊志豪. 山東大學學報(理學版). 2017(07)
[4]文本相似度計算方法研究綜述[J]. 陳二靜,姜恩波. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(06)
[5]融合詞向量的多特征問句相似度計算方法研究[J]. 曹莉麗,王未央. 現(xiàn)代計算機(專業(yè)版). 2017(17)
[6]微博文本挖掘研究綜述[J]. 余容,李光強,尹健. 情報探索. 2017(05)
[7]基于主題模型的檢索結果聚類應用研究[J]. 阮光冊,夏磊. 情報雜志. 2017(03)
[8]基于詞向量包的自動文摘方法[J]. 白淑霞,鮑玉來,張暉. 現(xiàn)代情報. 2017(02)
[9]基于Word2vec的微博短文本分類研究[J]. 張謙,高章敏,劉嘉勇. 信息網(wǎng)絡安全. 2017(01)
[10]基于BTM的微博輿情熱點發(fā)現(xiàn)[J]. 王亞民,胡悅. 情報雜志. 2016(11)
碩士論文
[1]基于word2vec的中文文本相似度研究與實現(xiàn)[D]. 吳多堅.西安電子科技大學 2016
[2]中文文本自動分詞技術與算法研究[D]. 許榮榮.鄭州大學 2010
本文編號:3065845
【文章來源】:西安電子科技大學陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【部分圖文】:
論文框架圖
圖 2. 1 文本預處理工作流程示法文本表示方法中最簡單的方法,它在進,而是直接將文本看做是單獨的一個一個字符為基本單位的。采用這種方法進處理結果也可能會不同。例如“西安的話,在用字符表示法進行文本表示,采文本。這種文本表示方法非常簡單,在利用這種方法進行文本表示前并沒有對信息考慮在內,在一些較高智能系統(tǒng)示法
圖 3. 1 文本相似度計算核心圖建念向量概念[34],它是深度學語進行數(shù)字化,將其表示常在幾十到幾百維),.52672407][35]。研究表明詞詞語的語義信息,根據(jù)文獻的語義和語法上解釋的特征似性,例如通過詞向量之間語中,前兩個詞語之間的距距離是不相同的,在兩組相
【參考文獻】:
期刊論文
[1]N-gram模型綜述[J]. 尹陳,吳敏. 計算機系統(tǒng)應用. 2018(10)
[2]Measuring Similarity of Academic Articles with Semantic Profile and Joint Word Embedding[J]. Ming Liu,Bo Lang,Zepeng Gu,Ahmed Zeeshan. Tsinghua Science and Technology. 2017(06)
[3]基于詞向量和EMD距離的短文本聚類[J]. 黃棟,徐博,許侃,林鴻飛,楊志豪. 山東大學學報(理學版). 2017(07)
[4]文本相似度計算方法研究綜述[J]. 陳二靜,姜恩波. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(06)
[5]融合詞向量的多特征問句相似度計算方法研究[J]. 曹莉麗,王未央. 現(xiàn)代計算機(專業(yè)版). 2017(17)
[6]微博文本挖掘研究綜述[J]. 余容,李光強,尹健. 情報探索. 2017(05)
[7]基于主題模型的檢索結果聚類應用研究[J]. 阮光冊,夏磊. 情報雜志. 2017(03)
[8]基于詞向量包的自動文摘方法[J]. 白淑霞,鮑玉來,張暉. 現(xiàn)代情報. 2017(02)
[9]基于Word2vec的微博短文本分類研究[J]. 張謙,高章敏,劉嘉勇. 信息網(wǎng)絡安全. 2017(01)
[10]基于BTM的微博輿情熱點發(fā)現(xiàn)[J]. 王亞民,胡悅. 情報雜志. 2016(11)
碩士論文
[1]基于word2vec的中文文本相似度研究與實現(xiàn)[D]. 吳多堅.西安電子科技大學 2016
[2]中文文本自動分詞技術與算法研究[D]. 許榮榮.鄭州大學 2010
本文編號:3065845
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3065845.html
最近更新
教材專著