基于CTM模型與K-means算法融合的文本聚類研究
發(fā)布時間:2018-03-01 05:13
本文關(guān)鍵詞: K-means算法 CTM模型 融合 文本聚類 出處:《情報理論與實踐》2017年11期 論文類型:期刊論文
【摘要】:[目的/意義]針對CTM模型與K-means算法在文本聚類中存在的不足,提出將二者融合的CKM算法。該算法利用CTM模型確定聚類數(shù)和初始聚類中心,利用K-means算法進(jìn)行聚類。[方法/過程]以Web of Science為數(shù)據(jù)來源,建立涵蓋6個主題的多學(xué)科文獻(xiàn)集,以F值為評價指標(biāo),利用R語言中的k-means函數(shù)和topicmodels包,比較K-means算法、CTM模型、CKM算法的聚類效果。[結(jié)果 /結(jié)論]結(jié)果表明,與單純使用K-means算法、CTM模型相比,CKM算法的聚類效果更優(yōu),穩(wěn)定性更好。
[Abstract]:[objective / significance] in view of the shortcomings of CTM model and K-means algorithm in text clustering, a CKM algorithm combining the two algorithms is proposed. The CTM model is used to determine the clustering number and initial clustering center. Using K-means algorithm to cluster. [method / process] taking Web of Science as data source, establishing a multidisciplinary literature set covering 6 topics, taking F value as evaluation index, using k-means function and topicmodels package in R language. The clustering effect of K-means algorithm is compared with that of K-means algorithm. [results / conclusion] the results show that the clustering effect of CKM algorithm is better and the stability is better than that of using K-means algorithm alone.
【作者單位】: 曲阜師范大學(xué)傳媒學(xué)院;
【基金】:國家社會科學(xué)基金項目“文獻(xiàn)內(nèi)容分析與引文分析融合的知識挖掘與發(fā)現(xiàn)研究”的成果,項目編號:16BTQ074
【分類號】:G254
【相似文獻(xiàn)】
相關(guān)期刊論文 前5條
1 何文靜;何琳;;基于社會標(biāo)簽的文本聚類研究[J];現(xiàn)代圖書情報技術(shù);2013年Z1期
2 趙輝;劉懷亮;;面向用戶生成內(nèi)容的短文本聚類算法研究[J];現(xiàn)代圖書情報技術(shù);2013年09期
3 劉佳;宋之杰;;基于文本聚類的稀土萃取技術(shù)專利信息分析[J];燕山大學(xué)學(xué)報;2014年03期
4 洪韻佳;許鑫;;基于領(lǐng)域本體的知識庫多層次文本聚類研究——以中華烹飪文化知識庫為例[J];現(xiàn)代圖書情報技術(shù);2013年12期
5 文炯;;應(yīng)用多層次聚類方法挖掘圖書館微博數(shù)據(jù)[J];中華醫(yī)學(xué)圖書情報雜志;2014年04期
相關(guān)會議論文 前1條
1 王明文;付劍波;羅遠(yuǎn)勝;陸旭;;基于協(xié)同聚類的兩階段文本聚類方法研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
相關(guān)碩士學(xué)位論文 前1條
1 李海峰;基于概念格的Web文本聚類過程模型研究[D];吉林大學(xué);2010年
,本文編號:1550550
本文鏈接:http://sikaile.net/tushudanganlunwen/1550550.html
最近更新
教材專著