基于主題模型的文本聚類研究與應(yīng)用
發(fā)布時間:2022-01-26 23:17
新世紀(jì)以來,互聯(lián)網(wǎng)技術(shù)和新媒體技術(shù)迅速發(fā)展,社會進入了充滿海量數(shù)據(jù)信息的時代。信息時代涌現(xiàn)出各種信息載體的互聯(lián)網(wǎng)新媒體平臺類似Twitter、微博和頭條,文本信息的承載媒介從紙質(zhì)報刊逐漸變?yōu)榫W(wǎng)絡(luò)數(shù)字媒體,網(wǎng)絡(luò)文本日益成為現(xiàn)代社會的一種主要信息媒體傳播形式。近年來網(wǎng)絡(luò)文本(比如新聞,博客等)的數(shù)量出現(xiàn)了爆發(fā)式的增加,產(chǎn)生了海量半結(jié)構(gòu)性或非結(jié)構(gòu)性文本數(shù)據(jù)。文本挖掘領(lǐng)域的技術(shù)熱點問題是如何從這些互聯(lián)網(wǎng)平臺產(chǎn)生的海量文本數(shù)據(jù)中提取出有價值的信息。本文基于主題模型進行網(wǎng)絡(luò)文本聚類的研究,改善了傳統(tǒng)向量空間模型在挖掘文本語義內(nèi)部潛在聯(lián)系上的缺陷,也克服了傳統(tǒng)向量空間模型在文本聚類過程中可能存在一些嚴(yán)重的高緯性和稀疏性問題,通過將LDA主題模型計算得到的文本相似度與基于TF-IDF特征提取的VSM模型計算得到的文本相似度進行線性組合,提出了VLDA文本聚類模型,考慮結(jié)合網(wǎng)絡(luò)文本的特征詞和主題信息實現(xiàn)聚類分析。該模型按照一定的特征比例系數(shù)來計算文本相似度,然后利用K均值聚類算法進行網(wǎng)絡(luò)文本的聚類,相對于單一的VSM模型和LDA主題模型,文本聚類效果有明顯的提高。同時研究發(fā)現(xiàn)一方面...
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
研究內(nèi)容技術(shù)路線圖
第二章相關(guān)理論與技術(shù)概述5第二章相關(guān)理論與技術(shù)概述2.1文本主題挖掘流程介紹首先介紹本文主要研究技術(shù)路線,如圖2.1所示,本文以網(wǎng)絡(luò)文本為研究對象,通過python軟件進行網(wǎng)絡(luò)文本語料的采集,接著對爬蟲獲取的原始文本語料數(shù)據(jù)進行數(shù)據(jù)清洗和預(yù)處理、然后建立文本表示模型,最后實現(xiàn)網(wǎng)絡(luò)文本的聚類和主題挖掘,接下來會詳細(xì)介紹文本聚類研究中所涉及到的關(guān)鍵理論與技術(shù)。圖2.1網(wǎng)絡(luò)文本主題挖掘流程2.1.1網(wǎng)絡(luò)文本爬蟲技術(shù)本文利用python軟件實現(xiàn)網(wǎng)絡(luò)文本數(shù)據(jù)爬蟲,即按照既定規(guī)則在今日頭條網(wǎng)站上自動爬取網(wǎng)頁新聞內(nèi)容。網(wǎng)絡(luò)爬蟲的具體流程如下:(1)調(diào)用Python的Reques模塊,使用Get函數(shù)通過HTTP庫向爬蟲目標(biāo)網(wǎng)站發(fā)起請求,具體包含User-Agent、Headers和Cookie等信息。(2)使用Get函數(shù)從給定的URL獲取響應(yīng)內(nèi)容,數(shù)據(jù)類型可能包含HTML文件和JSON字符串等。(3)獲取服務(wù)器端文件到本地,使用正則表達式解析HTML內(nèi)容,或者將解析文件可以直接轉(zhuǎn)為Json對象,解析Json內(nèi)容。(4)保存數(shù)據(jù),把解析內(nèi)容后的數(shù)據(jù)存為文本或者到本地數(shù)據(jù)庫。2.1.2文本清洗和預(yù)處理技術(shù)(1)文本數(shù)據(jù)清洗為了提升文本數(shù)據(jù)的有效性與準(zhǔn)確性,要通過一定的處理方式完成對文本數(shù)據(jù)的清洗,比如html解析,去除非中文字符等處理。網(wǎng)絡(luò)文本的預(yù)處理是實現(xiàn)將文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的必要準(zhǔn)備工作,一般地要將清洗過文本語料數(shù)據(jù)進行中文分詞、去除停用詞等方法處理,才可以開展下一步文本表示模型構(gòu)建工作。
基于主題模型的文本聚類研究與應(yīng)用16Step4計算V_LDA模型相似度S的值,根據(jù)公式3.4計算。Step5使用K-means算法進行聚類計算,計算F1值評價聚類結(jié)果。圖3.3基于V_LDA文本聚類流程圖通常在度量向量空間模型(VSM)中文本之間的相似度使用夾角余弦值,稱為余弦相似度,假設(shè)存在兩個文本1D和2D,12D,DD,其中1D和2D能夠使用向量表示成111121,,nDwwKw和221222,,nDwwKw,則文本1D和2D的余弦相似度計算如公式3-所示:12121121212222211,cosnkkknnkkkkwwDDsimDDDDwwg(3.1)由以上公式可知,當(dāng)12simD,D1說明文本1D和2D有相對較高的相似度。假定某一篇文本id,基于TF-IDF特征提取構(gòu)造的文本-詞項矩陣為_12,,iTfidfndwwwK,其中n為特征詞的個數(shù)。則根據(jù)公式可得,文本id和jd的相似度為,TFIDFijSdd;同樣基于LDA主題模型的構(gòu)造的文本-主題分布為_12,,iLDATdttKt,其中T為潛在主題的個數(shù),則基于LDA主題模型計算文本id和jd的相似度為,LDAijSdd1cosijTFIDFijijddSSddg(3.2)2cosijLDAijijddSSddg(3.3)則對兩種相似度進行線性組合為12,1ijSddSS,(3.4)其中為特征比例系數(shù),,ijSdd記作為V_LDA模型的文本相似度。
【參考文獻】:
期刊論文
[1]基于Labeled-LDA模型的文本特征提取方法[J]. 王瑞,龍華,邵玉斌,杜慶治. 電子測量技術(shù). 2020(01)
[2]基于詞向量和增量聚類的短文本聚類算法[J]. 楊波,楊文忠,殷亞博,何雪琴,袁婷婷,劉澤洋. 計算機工程與設(shè)計. 2019(10)
[3]融合多粒度信息的文本向量表示模型[J]. 聶維民,陳永洲,馬靜. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(09)
[4]基于詞向量和BTM的短文本話題演化分析[J]. 張佩瑤,劉東蘇. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(03)
[5]基于Sentence-LDA主題模型的短文本分類[J]. 張浩,鐘敏. 計算機與現(xiàn)代化. 2019(03)
[6]結(jié)合字詞向量的主題向量模型[J]. 張青,韓立新,劉合兵. 電子測量技術(shù). 2019(03)
[7]一種基于頻繁詞集表示的新文本聚類方法[J]. 張雪松,賈彩燕. 計算機研究與發(fā)展. 2018(01)
[8]基于VSM和LDA混合模型的文本聚類研究[J]. 劉曉蒙,熊海濤. 電腦知識與技術(shù). 2018(01)
[9]LDA主題模型在文本聚類中的應(yīng)用[J]. 鄒曉輝. 數(shù)字技術(shù)與應(yīng)用. 2017(12)
[10]基于詞向量和EMD距離的短文本聚類[J]. 黃棟,徐博,許侃,林鴻飛,楊志豪. 山東大學(xué)學(xué)報(理學(xué)版). 2017(07)
碩士論文
[1]融合主題模型與詞向量的短文本分類方法研究[D]. 邵云飛.西安電子科技大學(xué) 2019
[2]基于LDA主題模型的高校新聞話題發(fā)現(xiàn)研究[D]. 伊秀娟.北京交通大學(xué) 2019
本文編號:3611304
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
研究內(nèi)容技術(shù)路線圖
第二章相關(guān)理論與技術(shù)概述5第二章相關(guān)理論與技術(shù)概述2.1文本主題挖掘流程介紹首先介紹本文主要研究技術(shù)路線,如圖2.1所示,本文以網(wǎng)絡(luò)文本為研究對象,通過python軟件進行網(wǎng)絡(luò)文本語料的采集,接著對爬蟲獲取的原始文本語料數(shù)據(jù)進行數(shù)據(jù)清洗和預(yù)處理、然后建立文本表示模型,最后實現(xiàn)網(wǎng)絡(luò)文本的聚類和主題挖掘,接下來會詳細(xì)介紹文本聚類研究中所涉及到的關(guān)鍵理論與技術(shù)。圖2.1網(wǎng)絡(luò)文本主題挖掘流程2.1.1網(wǎng)絡(luò)文本爬蟲技術(shù)本文利用python軟件實現(xiàn)網(wǎng)絡(luò)文本數(shù)據(jù)爬蟲,即按照既定規(guī)則在今日頭條網(wǎng)站上自動爬取網(wǎng)頁新聞內(nèi)容。網(wǎng)絡(luò)爬蟲的具體流程如下:(1)調(diào)用Python的Reques模塊,使用Get函數(shù)通過HTTP庫向爬蟲目標(biāo)網(wǎng)站發(fā)起請求,具體包含User-Agent、Headers和Cookie等信息。(2)使用Get函數(shù)從給定的URL獲取響應(yīng)內(nèi)容,數(shù)據(jù)類型可能包含HTML文件和JSON字符串等。(3)獲取服務(wù)器端文件到本地,使用正則表達式解析HTML內(nèi)容,或者將解析文件可以直接轉(zhuǎn)為Json對象,解析Json內(nèi)容。(4)保存數(shù)據(jù),把解析內(nèi)容后的數(shù)據(jù)存為文本或者到本地數(shù)據(jù)庫。2.1.2文本清洗和預(yù)處理技術(shù)(1)文本數(shù)據(jù)清洗為了提升文本數(shù)據(jù)的有效性與準(zhǔn)確性,要通過一定的處理方式完成對文本數(shù)據(jù)的清洗,比如html解析,去除非中文字符等處理。網(wǎng)絡(luò)文本的預(yù)處理是實現(xiàn)將文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的必要準(zhǔn)備工作,一般地要將清洗過文本語料數(shù)據(jù)進行中文分詞、去除停用詞等方法處理,才可以開展下一步文本表示模型構(gòu)建工作。
基于主題模型的文本聚類研究與應(yīng)用16Step4計算V_LDA模型相似度S的值,根據(jù)公式3.4計算。Step5使用K-means算法進行聚類計算,計算F1值評價聚類結(jié)果。圖3.3基于V_LDA文本聚類流程圖通常在度量向量空間模型(VSM)中文本之間的相似度使用夾角余弦值,稱為余弦相似度,假設(shè)存在兩個文本1D和2D,12D,DD,其中1D和2D能夠使用向量表示成111121,,nDwwKw和221222,,nDwwKw,則文本1D和2D的余弦相似度計算如公式3-所示:12121121212222211,cosnkkknnkkkkwwDDsimDDDDwwg(3.1)由以上公式可知,當(dāng)12simD,D1說明文本1D和2D有相對較高的相似度。假定某一篇文本id,基于TF-IDF特征提取構(gòu)造的文本-詞項矩陣為_12,,iTfidfndwwwK,其中n為特征詞的個數(shù)。則根據(jù)公式可得,文本id和jd的相似度為,TFIDFijSdd;同樣基于LDA主題模型的構(gòu)造的文本-主題分布為_12,,iLDATdttKt,其中T為潛在主題的個數(shù),則基于LDA主題模型計算文本id和jd的相似度為,LDAijSdd1cosijTFIDFijijddSSddg(3.2)2cosijLDAijijddSSddg(3.3)則對兩種相似度進行線性組合為12,1ijSddSS,(3.4)其中為特征比例系數(shù),,ijSdd記作為V_LDA模型的文本相似度。
【參考文獻】:
期刊論文
[1]基于Labeled-LDA模型的文本特征提取方法[J]. 王瑞,龍華,邵玉斌,杜慶治. 電子測量技術(shù). 2020(01)
[2]基于詞向量和增量聚類的短文本聚類算法[J]. 楊波,楊文忠,殷亞博,何雪琴,袁婷婷,劉澤洋. 計算機工程與設(shè)計. 2019(10)
[3]融合多粒度信息的文本向量表示模型[J]. 聶維民,陳永洲,馬靜. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(09)
[4]基于詞向量和BTM的短文本話題演化分析[J]. 張佩瑤,劉東蘇. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(03)
[5]基于Sentence-LDA主題模型的短文本分類[J]. 張浩,鐘敏. 計算機與現(xiàn)代化. 2019(03)
[6]結(jié)合字詞向量的主題向量模型[J]. 張青,韓立新,劉合兵. 電子測量技術(shù). 2019(03)
[7]一種基于頻繁詞集表示的新文本聚類方法[J]. 張雪松,賈彩燕. 計算機研究與發(fā)展. 2018(01)
[8]基于VSM和LDA混合模型的文本聚類研究[J]. 劉曉蒙,熊海濤. 電腦知識與技術(shù). 2018(01)
[9]LDA主題模型在文本聚類中的應(yīng)用[J]. 鄒曉輝. 數(shù)字技術(shù)與應(yīng)用. 2017(12)
[10]基于詞向量和EMD距離的短文本聚類[J]. 黃棟,徐博,許侃,林鴻飛,楊志豪. 山東大學(xué)學(xué)報(理學(xué)版). 2017(07)
碩士論文
[1]融合主題模型與詞向量的短文本分類方法研究[D]. 邵云飛.西安電子科技大學(xué) 2019
[2]基于LDA主題模型的高校新聞話題發(fā)現(xiàn)研究[D]. 伊秀娟.北京交通大學(xué) 2019
本文編號:3611304
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3611304.html
最近更新
教材專著