天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于BTM和K-means的微博話題檢測

發(fā)布時間:2018-09-15 06:37
【摘要】:近年來,微博等社交網(wǎng)絡(luò)的發(fā)展給人們的溝通交流提供了方便。由于每條微博都限定在140字以內(nèi),因此產(chǎn)生了大量的短文本信息。從短文本中發(fā)現(xiàn)話題日漸成為一項重要的課題。傳統(tǒng)的話題模型(如概率潛在語義分析(PLSA)、潛在狄利克雷分配(LDA)等)在處理短文本方面都面臨著嚴(yán)重的數(shù)據(jù)稀疏問題。另外,當(dāng)數(shù)據(jù)集比較集中并且話題文檔間的差別較明顯時,K-means聚類算法能夠聚類出有區(qū)分度的話題。引入BTM話題模型來處理微博數(shù)據(jù)這樣的短文本,以緩解數(shù)據(jù)稀疏的問題。同時,整合了K-means聚類算法來對BTM模型所發(fā)現(xiàn)的話題進(jìn)行聚類。在新浪微博短文本集上進(jìn)行的實驗證明了此方法發(fā)現(xiàn)話題的有效性。
[Abstract]:In recent years, the development of Weibo and other social networks has provided convenience for people to communicate. As each Weibo is limited to 140 words, so a large number of short text information. Finding topics from short texts is becoming an important topic. Traditional topic models (such as probabilistic latent semantic analysis, (PLSA), potential Delikley assignment (LDA), etc.) face serious data sparsity problems in dealing with short text. In addition, when the data set is concentrated and the difference between topic documents is obvious, K-means clustering algorithm can cluster the differentiated topics. BTM topic model is introduced to deal with short texts such as Weibo data to alleviate the problem of data sparsity. At the same time, the K-means clustering algorithm is integrated to cluster the topics found in the BTM model. Experiments in Sina Weibo's essay book show the effectiveness of this method.
【作者單位】: 昆明理工大學(xué)信息工程與自動化學(xué)院;
【基金】:地區(qū)科學(xué)基金項目:基于統(tǒng)計機(jī)器翻譯和自動文摘的查詢擴(kuò)展研究(61363045) 云南省自然科學(xué)基金重點項目(2013FA130) 科技部中青年科技創(chuàng)新領(lǐng)軍人才項目(2014HE001)資助
【分類號】:TP393.092;TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張亞萍;胡學(xué)鋼;;基于K-means的樸素貝葉斯分類算法的研究[J];計算機(jī)技術(shù)與發(fā)展;2007年11期

2 劉運;殷建平;程杰仁;蔡志平;;基于k-Means改進(jìn)算法的分布式拒絕服務(wù)攻擊檢測[J];計算機(jī)工程與科學(xué);2008年12期

3 張濟(jì)強(qiáng);高玉良;;遺傳模擬退火算法在k-means聚類中的應(yīng)用[J];電腦知識與技術(shù);2012年07期

4 賈花萍;李堯龍;哈渭濤;史曉影;;K-means聚類神經(jīng)網(wǎng)絡(luò)分類器在睡眠腦電分期中的應(yīng)用研究[J];河南科學(xué);2012年06期

5 李學(xué)勇;高國紅;孫甲霞;;基于互信息和K-means聚類的信息安全風(fēng)險評估[J];河南師范大學(xué)學(xué)報(自然科學(xué)版);2011年02期

6 郁雪;李敏強(qiáng);;一種結(jié)合有效降維和K-means聚類的協(xié)同過濾推薦模型[J];計算機(jī)應(yīng)用研究;2009年10期

7 屈新懷;高萬里;丁必榮;李朕;;基于聚類數(shù)和初始值的K-means算法改進(jìn)研究[J];組合機(jī)床與自動化加工技術(shù);2011年04期

8 邊鵬;趙妍;蘇玉召;;一種改進(jìn)的K-means算法最佳聚類數(shù)確定方法[J];現(xiàn)代圖書情報技術(shù);2011年09期

9 宗瑜;金萍;李明楚;;BK-means:骨架初始解K-means[J];計算機(jī)工程與應(yīng)用;2009年14期

10 韓凌波;;一種新的K-means最佳聚類數(shù)確定方法[J];現(xiàn)代計算機(jī);2013年30期

相關(guān)會議論文 前6條

1 楊青;劉曄;張東旭;劉暢;;快速查找最優(yōu)初始聚類數(shù)K的改進(jìn)K-means算法[A];中國自動化學(xué)會控制理論專業(yè)委員會A卷[C];2011年

2 陳磊;胡佳敏;嚴(yán)華;;K-means算法在散貨船代貨運系統(tǒng)中的應(yīng)用[A];全國第20屆計算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(上冊)[C];2009年

3 鄭建軍;甘仞初;賀躍;畢思飛;;一種基于k-means的聚類集成方法[A];全國第九屆企業(yè)信息化與工業(yè)工程學(xué)術(shù)會議論文集[C];2005年

4 張望;王輝;;個性化服務(wù)中的并行K-Means聚類算法[A];2007年全國開放式分布與并行計算機(jī)學(xué)術(shù)會議論文集(下冊)[C];2007年

5 江華;王翰虎;陳梅;;一種基于K-means聚類分組的P2P超結(jié)點模型[A];2005年全國開放式分布與并行計算學(xué)術(shù)會議論文集[C];2005年

6 王守強(qiáng);朱大銘;史士英;;基于輸入點集求解k-Means聚類算法[A];第二十六屆中國控制會議論文集[C];2007年

相關(guān)碩士學(xué)位論文 前10條

1 陳智;基于K-means聚類算法的機(jī)會網(wǎng)絡(luò)群組移動模型及其長相關(guān)性研究[D];湘潭大學(xué);2015年

2 許允棟;K-means聚類算法的改進(jìn)與應(yīng)用[D];廣西師范大學(xué);2015年

3 丁斌;基于布谷鳥算法的K-means聚類挖掘算法研究[D];合肥工業(yè)大學(xué);2015年

4 賀艷芳;熵加權(quán)多視角核k-means聚類算法的研究[D];鄭州大學(xué);2016年

5 梁云昭;基于K-means的圍棋特征提取方法研究[D];北京理工大學(xué);2015年

6 于洋洋;基于并行K-MEANS聚類分析的社群發(fā)現(xiàn)算法研究[D];東北大學(xué);2012年

7 崔曉麗;基于MapReduce的海量數(shù)據(jù)K-means聚類算法研究[D];大連理工大學(xué);2014年

8 高存彬;基于K-Means聚類法的水團(tuán)劃分算法和可視化研究[D];中國海洋大學(xué);2008年

9 劉建國;改進(jìn)的K-means算法及其在采油數(shù)據(jù)分析中的應(yīng)用[D];北京郵電大學(xué);2010年

10 陳翠卓;移動平臺下基于K-means的租房信息聚類算法研究與實現(xiàn)[D];華中師范大學(xué);2014年

,

本文編號:2244071

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2244071.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f830c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com