天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于主題模型的文本聚類研究與應(yīng)用

發(fā)布時(shí)間:2022-01-26 23:17
  新世紀(jì)以來,互聯(lián)網(wǎng)技術(shù)和新媒體技術(shù)迅速發(fā)展,社會(huì)進(jìn)入了充滿海量數(shù)據(jù)信息的時(shí)代。信息時(shí)代涌現(xiàn)出各種信息載體的互聯(lián)網(wǎng)新媒體平臺(tái)類似Twitter、微博和頭條,文本信息的承載媒介從紙質(zhì)報(bào)刊逐漸變?yōu)榫W(wǎng)絡(luò)數(shù)字媒體,網(wǎng)絡(luò)文本日益成為現(xiàn)代社會(huì)的一種主要信息媒體傳播形式。近年來網(wǎng)絡(luò)文本(比如新聞,博客等)的數(shù)量出現(xiàn)了爆發(fā)式的增加,產(chǎn)生了海量半結(jié)構(gòu)性或非結(jié)構(gòu)性文本數(shù)據(jù)。文本挖掘領(lǐng)域的技術(shù)熱點(diǎn)問題是如何從這些互聯(lián)網(wǎng)平臺(tái)產(chǎn)生的海量文本數(shù)據(jù)中提取出有價(jià)值的信息。本文基于主題模型進(jìn)行網(wǎng)絡(luò)文本聚類的研究,改善了傳統(tǒng)向量空間模型在挖掘文本語義內(nèi)部潛在聯(lián)系上的缺陷,也克服了傳統(tǒng)向量空間模型在文本聚類過程中可能存在一些嚴(yán)重的高緯性和稀疏性問題,通過將LDA主題模型計(jì)算得到的文本相似度與基于TF-IDF特征提取的VSM模型計(jì)算得到的文本相似度進(jìn)行線性組合,提出了VLDA文本聚類模型,考慮結(jié)合網(wǎng)絡(luò)文本的特征詞和主題信息實(shí)現(xiàn)聚類分析。該模型按照一定的特征比例系數(shù)來計(jì)算文本相似度,然后利用K均值聚類算法進(jìn)行網(wǎng)絡(luò)文本的聚類,相對(duì)于單一的VSM模型和LDA主題模型,文本聚類效果有明顯的提高。同時(shí)研究發(fā)現(xiàn)一方面... 

【文章來源】:山西大學(xué)山西省

【文章頁(yè)數(shù)】:54 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于主題模型的文本聚類研究與應(yīng)用


研究?jī)?nèi)容技術(shù)路線圖

流程圖,文本,主題,流程


第二章相關(guān)理論與技術(shù)概述5第二章相關(guān)理論與技術(shù)概述2.1文本主題挖掘流程介紹首先介紹本文主要研究技術(shù)路線,如圖2.1所示,本文以網(wǎng)絡(luò)文本為研究對(duì)象,通過python軟件進(jìn)行網(wǎng)絡(luò)文本語料的采集,接著對(duì)爬蟲獲取的原始文本語料數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和預(yù)處理、然后建立文本表示模型,最后實(shí)現(xiàn)網(wǎng)絡(luò)文本的聚類和主題挖掘,接下來會(huì)詳細(xì)介紹文本聚類研究中所涉及到的關(guān)鍵理論與技術(shù)。圖2.1網(wǎng)絡(luò)文本主題挖掘流程2.1.1網(wǎng)絡(luò)文本爬蟲技術(shù)本文利用python軟件實(shí)現(xiàn)網(wǎng)絡(luò)文本數(shù)據(jù)爬蟲,即按照既定規(guī)則在今日頭條網(wǎng)站上自動(dòng)爬取網(wǎng)頁(yè)新聞內(nèi)容。網(wǎng)絡(luò)爬蟲的具體流程如下:(1)調(diào)用Python的Reques模塊,使用Get函數(shù)通過HTTP庫(kù)向爬蟲目標(biāo)網(wǎng)站發(fā)起請(qǐng)求,具體包含User-Agent、Headers和Cookie等信息。(2)使用Get函數(shù)從給定的URL獲取響應(yīng)內(nèi)容,數(shù)據(jù)類型可能包含HTML文件和JSON字符串等。(3)獲取服務(wù)器端文件到本地,使用正則表達(dá)式解析HTML內(nèi)容,或者將解析文件可以直接轉(zhuǎn)為Json對(duì)象,解析Json內(nèi)容。(4)保存數(shù)據(jù),把解析內(nèi)容后的數(shù)據(jù)存為文本或者到本地?cái)?shù)據(jù)庫(kù)。2.1.2文本清洗和預(yù)處理技術(shù)(1)文本數(shù)據(jù)清洗為了提升文本數(shù)據(jù)的有效性與準(zhǔn)確性,要通過一定的處理方式完成對(duì)文本數(shù)據(jù)的清洗,比如html解析,去除非中文字符等處理。網(wǎng)絡(luò)文本的預(yù)處理是實(shí)現(xiàn)將文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的必要準(zhǔn)備工作,一般地要將清洗過文本語料數(shù)據(jù)進(jìn)行中文分詞、去除停用詞等方法處理,才可以開展下一步文本表示模型構(gòu)建工作。

流程圖,文本,聚類,流程圖


基于主題模型的文本聚類研究與應(yīng)用16Step4計(jì)算V_LDA模型相似度S的值,根據(jù)公式3.4計(jì)算。Step5使用K-means算法進(jìn)行聚類計(jì)算,計(jì)算F1值評(píng)價(jià)聚類結(jié)果。圖3.3基于V_LDA文本聚類流程圖通常在度量向量空間模型(VSM)中文本之間的相似度使用夾角余弦值,稱為余弦相似度,假設(shè)存在兩個(gè)文本1D和2D,12D,DD,其中1D和2D能夠使用向量表示成111121,,nDwwKw和221222,,nDwwKw,則文本1D和2D的余弦相似度計(jì)算如公式3-所示:12121121212222211,cosnkkknnkkkkwwDDsimDDDDwwg(3.1)由以上公式可知,當(dāng)12simD,D1說明文本1D和2D有相對(duì)較高的相似度。假定某一篇文本id,基于TF-IDF特征提取構(gòu)造的文本-詞項(xiàng)矩陣為_12,,iTfidfndwwwK,其中n為特征詞的個(gè)數(shù)。則根據(jù)公式可得,文本id和jd的相似度為,TFIDFijSdd;同樣基于LDA主題模型的構(gòu)造的文本-主題分布為_12,,iLDATdttKt,其中T為潛在主題的個(gè)數(shù),則基于LDA主題模型計(jì)算文本id和jd的相似度為,LDAijSdd1cosijTFIDFijijddSSddg(3.2)2cosijLDAijijddSSddg(3.3)則對(duì)兩種相似度進(jìn)行線性組合為12,1ijSddSS,(3.4)其中為特征比例系數(shù),,ijSdd記作為V_LDA模型的文本相似度。

【參考文獻(xiàn)】:
期刊論文
[1]基于Labeled-LDA模型的文本特征提取方法[J]. 王瑞,龍華,邵玉斌,杜慶治.  電子測(cè)量技術(shù). 2020(01)
[2]基于詞向量和增量聚類的短文本聚類算法[J]. 楊波,楊文忠,殷亞博,何雪琴,袁婷婷,劉澤洋.  計(jì)算機(jī)工程與設(shè)計(jì). 2019(10)
[3]融合多粒度信息的文本向量表示模型[J]. 聶維民,陳永洲,馬靜.  數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019(09)
[4]基于詞向量和BTM的短文本話題演化分析[J]. 張佩瑤,劉東蘇.  數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019(03)
[5]基于Sentence-LDA主題模型的短文本分類[J]. 張浩,鐘敏.  計(jì)算機(jī)與現(xiàn)代化. 2019(03)
[6]結(jié)合字詞向量的主題向量模型[J]. 張青,韓立新,劉合兵.  電子測(cè)量技術(shù). 2019(03)
[7]一種基于頻繁詞集表示的新文本聚類方法[J]. 張雪松,賈彩燕.  計(jì)算機(jī)研究與發(fā)展. 2018(01)
[8]基于VSM和LDA混合模型的文本聚類研究[J]. 劉曉蒙,熊海濤.  電腦知識(shí)與技術(shù). 2018(01)
[9]LDA主題模型在文本聚類中的應(yīng)用[J]. 鄒曉輝.  數(shù)字技術(shù)與應(yīng)用. 2017(12)
[10]基于詞向量和EMD距離的短文本聚類[J]. 黃棟,徐博,許侃,林鴻飛,楊志豪.  山東大學(xué)學(xué)報(bào)(理學(xué)版). 2017(07)

碩士論文
[1]融合主題模型與詞向量的短文本分類方法研究[D]. 邵云飛.西安電子科技大學(xué) 2019
[2]基于LDA主題模型的高校新聞話題發(fā)現(xiàn)研究[D]. 伊秀娟.北京交通大學(xué) 2019



本文編號(hào):3611304

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3611304.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f60bd***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
一区二区三区精品人妻| 久久久精品日韩欧美丰满 | 国产不卡在线免费观看视频| 成人精品欧美一级乱黄| 日本成人三级在线播放| 国产一区二区三区丝袜不卡| 日系韩系还是欧美久久| 亚洲视频一区自拍偷拍另类| 亚洲精品中文字幕在线视频| 欧美加勒比一区二区三区| 国产精品免费无遮挡不卡视频| 国产免费自拍黄片免费看| 欧美乱码精品一区二区三| 国产成人在线一区二区三区| 午夜福利激情性生活免费视频| 欧美国产日韩在线综合| 日韩性生活片免费观看| 亚洲视频在线观看免费中文字幕| 亚洲精品日韩欧美精品| 人人妻在人人看人人澡| 久久精品国产亚洲av麻豆| 欧美日韩亚洲国产av| 亚洲第一区二区三区女厕偷拍| 东京热加勒比一区二区三区| 久草精品视频精品视频精品| 东京热一二三区在线免| 日韩蜜桃一区二区三区| 国产精品内射视频免费| 日韩精品一区二区三区含羞含羞草| 日韩中文字幕在线不卡一区| 久久中文字幕中文字幕中文| 成人免费视频免费观看| 国产成人精品午夜福利| 好吊日在线视频免费观看| 大屁股肥臀熟女一区二区视频| 日韩精品一区二区毛片| 内用黄老外示儒术出处| 日本二区三区在线播放| 精品少妇人妻一区二区三区| 精品人妻一区二区四区| 国产不卡的视频在线观看|