當(dāng)前位置：主頁 > 管理論文 > 統(tǒng)計學(xué)論文 >

基于主題模型的文本聚類研究與應(yīng)用

發(fā)布時間：2022-01-26 23:17

　　新世紀(jì)以來,互聯(lián)網(wǎng)技術(shù)和新媒體技術(shù)迅速發(fā)展,社會進入了充滿海量數(shù)據(jù)信息的時代。信息時代涌現(xiàn)出各種信息載體的互聯(lián)網(wǎng)新媒體平臺類似Twitter、微博和頭條,文本信息的承載媒介從紙質(zhì)報刊逐漸變?yōu)榫W(wǎng)絡(luò)數(shù)字媒體,網(wǎng)絡(luò)文本日益成為現(xiàn)代社會的一種主要信息媒體傳播形式。近年來網(wǎng)絡(luò)文本（比如新聞,博客等）的數(shù)量出現(xiàn)了爆發(fā)式的增加,產(chǎn)生了海量半結(jié)構(gòu)性或非結(jié)構(gòu)性文本數(shù)據(jù)。文本挖掘領(lǐng)域的技術(shù)熱點問題是如何從這些互聯(lián)網(wǎng)平臺產(chǎn)生的海量文本數(shù)據(jù)中提取出有價值的信息。本文基于主題模型進行網(wǎng)絡(luò)文本聚類的研究,改善了傳統(tǒng)向量空間模型在挖掘文本語義內(nèi)部潛在聯(lián)系上的缺陷,也克服了傳統(tǒng)向量空間模型在文本聚類過程中可能存在一些嚴(yán)重的高緯性和稀疏性問題,通過將LDA主題模型計算得到的文本相似度與基于TF-IDF特征提取的VSM模型計算得到的文本相似度進行線性組合,提出了V_LDA文本聚類模型,考慮結(jié)合網(wǎng)絡(luò)文本的特征詞和主題信息實現(xiàn)聚類分析。該模型按照一定的特征比例系數(shù)來計算文本相似度,然后利用K均值聚類算法進行網(wǎng)絡(luò)文本的聚類,相對于單一的VSM模型和LDA主題模型,文本聚類效果有明顯的提高。同時研究發(fā)現(xiàn)一方面...

【文章來源】：山西大學(xué)山西省

【文章頁數(shù)】：54 頁

【學(xué)位級別】：碩士

【部分圖文】：

研究內(nèi)容技術(shù)路線圖

流程圖,文本,主題,流程

第二章相關(guān)理論與技術(shù)概述5第二章相關(guān)理論與技術(shù)概述2.1文本主題挖掘流程介紹首先介紹本文主要研究技術(shù)路線，如圖2.1所示，本文以網(wǎng)絡(luò)文本為研究對象，通過python軟件進行網(wǎng)絡(luò)文本語料的采集，接著對爬蟲獲取的原始文本語料數(shù)據(jù)進行數(shù)據(jù)清洗和預(yù)處理、然后建立文本表示模型，最后實現(xiàn)網(wǎng)絡(luò)文本的聚類和主題挖掘，接下來會詳細(xì)介紹文本聚類研究中所涉及到的關(guān)鍵理論與技術(shù)。圖2.1網(wǎng)絡(luò)文本主題挖掘流程2.1.1網(wǎng)絡(luò)文本爬蟲技術(shù)本文利用python軟件實現(xiàn)網(wǎng)絡(luò)文本數(shù)據(jù)爬蟲，即按照既定規(guī)則在今日頭條網(wǎng)站上自動爬取網(wǎng)頁新聞內(nèi)容。網(wǎng)絡(luò)爬蟲的具體流程如下：（1）調(diào)用Python的Reques模塊，使用Get函數(shù)通過HTTP庫向爬蟲目標(biāo)網(wǎng)站發(fā)起請求，具體包含User-Agent、Headers和Cookie等信息。（2）使用Get函數(shù)從給定的URL獲取響應(yīng)內(nèi)容，數(shù)據(jù)類型可能包含HTML文件和JSON字符串等。（3）獲取服務(wù)器端文件到本地，使用正則表達式解析HTML內(nèi)容，或者將解析文件可以直接轉(zhuǎn)為Json對象，解析Json內(nèi)容。（4）保存數(shù)據(jù)，把解析內(nèi)容后的數(shù)據(jù)存為文本或者到本地數(shù)據(jù)庫。2.1.2文本清洗和預(yù)處理技術(shù)（1）文本數(shù)據(jù)清洗為了提升文本數(shù)據(jù)的有效性與準(zhǔn)確性，要通過一定的處理方式完成對文本數(shù)據(jù)的清洗，比如html解析，去除非中文字符等處理。網(wǎng)絡(luò)文本的預(yù)處理是實現(xiàn)將文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的必要準(zhǔn)備工作，一般地要將清洗過文本語料數(shù)據(jù)進行中文分詞、去除停用詞等方法處理，才可以開展下一步文本表示模型構(gòu)建工作。

流程圖,文本,聚類,流程圖

基于主題模型的文本聚類研究與應(yīng)用16Step4計算V_LDA模型相似度S的值，根據(jù)公式3.4計算。Step5使用K-means算法進行聚類計算，計算F1值評價聚類結(jié)果。圖3.3基于V_LDA文本聚類流程圖通常在度量向量空間模型（VSM）中文本之間的相似度使用夾角余弦值，稱為余弦相似度，假設(shè)存在兩個文本1D和2D，12D,DD，其中1D和2D能夠使用向量表示成111121,,nDwwKw和221222,,nDwwKw，則文本1D和2D的余弦相似度計算如公式3-所示：12121121212222211,cosnkkknnkkkkwwDDsimDDDDwwg(3.1)由以上公式可知，當(dāng)12simD,D1說明文本1D和2D有相對較高的相似度。假定某一篇文本id，基于TF-IDF特征提取構(gòu)造的文本-詞項矩陣為_12,,iTfidfndwwwK，其中n為特征詞的個數(shù)。則根據(jù)公式可得，文本id和jd的相似度為,TFIDFijSdd；同樣基于LDA主題模型的構(gòu)造的文本-主題分布為_12,,iLDATdttKt，其中T為潛在主題的個數(shù)，則基于LDA主題模型計算文本id和jd的相似度為,LDAijSdd1cosijTFIDFijijddSSddg(3.2)2cosijLDAijijddSSddg(3.3)則對兩種相似度進行線性組合為12,1ijSddSS，(3.4)其中為特征比例系數(shù)，,ijSdd記作為V_LDA模型的文本相似度。

【參考文獻】：
期刊論文
[1]基于Labeled-LDA模型的文本特征提取方法[J]. 王瑞,龍華,邵玉斌,杜慶治.  電子測量技術(shù). 2020(01)
[2]基于詞向量和增量聚類的短文本聚類算法[J]. 楊波,楊文忠,殷亞博,何雪琴,袁婷婷,劉澤洋.  計算機工程與設(shè)計. 2019(10)
[3]融合多粒度信息的文本向量表示模型[J]. 聶維民,陳永洲,馬靜.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(09)
[4]基于詞向量和BTM的短文本話題演化分析[J]. 張佩瑤,劉東蘇.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(03)
[5]基于Sentence-LDA主題模型的短文本分類[J]. 張浩,鐘敏.  計算機與現(xiàn)代化. 2019(03)
[6]結(jié)合字詞向量的主題向量模型[J]. 張青,韓立新,劉合兵.  電子測量技術(shù). 2019(03)
[7]一種基于頻繁詞集表示的新文本聚類方法[J]. 張雪松,賈彩燕.  計算機研究與發(fā)展. 2018(01)
[8]基于VSM和LDA混合模型的文本聚類研究[J]. 劉曉蒙,熊海濤.  電腦知識與技術(shù). 2018(01)
[9]LDA主題模型在文本聚類中的應(yīng)用[J]. 鄒曉輝.  數(shù)字技術(shù)與應(yīng)用. 2017(12)
[10]基于詞向量和EMD距離的短文本聚類[J]. 黃棟,徐博,許侃,林鴻飛,楊志豪.  山東大學(xué)學(xué)報(理學(xué)版). 2017(07)

碩士論文
[1]融合主題模型與詞向量的短文本分類方法研究[D]. 邵云飛.西安電子科技大學(xué) 2019
[2]基于LDA主題模型的高校新聞話題發(fā)現(xiàn)研究[D]. 伊秀娟.北京交通大學(xué) 2019

本文編號：3611304

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/tongjijuecelunwen/3611304.html

上一篇：基于CC3200的人流量統(tǒng)計監(jiān)控系統(tǒng)設(shè)計
下一篇：大數(shù)據(jù)時代下應(yīng)用統(tǒng)計學(xué)專業(yè)發(fā)展的一些思考

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于主題模型的文本聚類研究與應(yīng)用