基于CTM模型與K-means算法融合的文本聚類研究

發(fā)布時(shí)間：2018-03-01 05:13

本文關(guān)鍵詞： K-means算法 CTM模型融合文本聚類　出處：《情報(bào)理論與實(shí)踐》2017年11期 　論文類型：期刊論文

【摘要】：[目的/意義]針對(duì)CTM模型與K-means算法在文本聚類中存在的不足,提出將二者融合的CKM算法。該算法利用CTM模型確定聚類數(shù)和初始聚類中心,利用K-means算法進(jìn)行聚類。[方法/過程]以Web of Science為數(shù)據(jù)來源,建立涵蓋6個(gè)主題的多學(xué)科文獻(xiàn)集,以F值為評(píng)價(jià)指標(biāo),利用R語言中的k-means函數(shù)和topicmodels包,比較K-means算法、CTM模型、CKM算法的聚類效果。[結(jié)果 /結(jié)論]結(jié)果表明,與單純使用K-means算法、CTM模型相比,CKM算法的聚類效果更優(yōu),穩(wěn)定性更好。
[Abstract]:[objective / significance] in view of the shortcomings of CTM model and K-means algorithm in text clustering, a CKM algorithm combining the two algorithms is proposed. The CTM model is used to determine the clustering number and initial clustering center. Using K-means algorithm to cluster. [method / process] taking Web of Science as data source, establishing a multidisciplinary literature set covering 6 topics, taking F value as evaluation index, using k-means function and topicmodels package in R language. The clustering effect of K-means algorithm is compared with that of K-means algorithm. [results / conclusion] the results show that the clustering effect of CKM algorithm is better and the stability is better than that of using K-means algorithm alone.
【作者單位】：曲阜師范大學(xué)傳媒學(xué)院;
【基金】：國(guó)家社會(huì)科學(xué)基金項(xiàng)目“文獻(xiàn)內(nèi)容分析與引文分析融合的知識(shí)挖掘與發(fā)現(xiàn)研究”的成果,項(xiàng)目編號(hào):16BTQ074
【分類號(hào)】：G254

【相似文獻(xiàn)】

相關(guān)期刊論文前5條

1 何文靜;何琳;;基于社會(huì)標(biāo)簽的文本聚類研究[J];現(xiàn)代圖書情報(bào)技術(shù);2013年Z1期

2 趙輝;劉懷亮;;面向用戶生成內(nèi)容的短文本聚類算法研究[J];現(xiàn)代圖書情報(bào)技術(shù);2013年09期

3 劉佳;宋之杰;;基于文本聚類的稀土萃取技術(shù)專利信息分析[J];燕山大學(xué)學(xué)報(bào);2014年03期

4 洪韻佳;許鑫;;基于領(lǐng)域本體的知識(shí)庫多層次文本聚類研究——以中華烹飪文化知識(shí)庫為例[J];現(xiàn)代圖書情報(bào)技術(shù);2013年12期

5 文炯;;應(yīng)用多層次聚類方法挖掘圖書館微博數(shù)據(jù)[J];中華醫(yī)學(xué)圖書情報(bào)雜志;2014年04期

相關(guān)會(huì)議論文前1條

1 王明文;付劍波;羅遠(yuǎn)勝;陸旭;;基于協(xié)同聚類的兩階段文本聚類方法研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集（上）[C];2008年

相關(guān)碩士學(xué)位論文前1條

1 李海峰;基于概念格的Web文本聚類過程模型研究[D];吉林大學(xué);2010年

，

本文編號(hào)：1550550

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/tushudanganlunwen/1550550.html

上一篇：鐵嶺市檔案局邀請(qǐng)市委講師團(tuán)團(tuán)長(zhǎng)楊曉東上專題黨課
下一篇：封面照片簡(jiǎn)介:山東師范大學(xué)圖書館

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于CTM模型與K-means算法融合的文本聚類研究