基于閉頻繁項集短文本聚類
本文選題:短文本 + 語義模型; 參考:《計算機(jī)應(yīng)用》2016年S2期
【摘要】:為應(yīng)對基于向量空間模型的短文本聚類面臨的關(guān)鍵詞特征稀疏、高維及樣本數(shù)量多等挑戰(zhàn),將潛在語義模型應(yīng)用于短文本分析。首先基于潛在主題模型對實驗短文本集進(jìn)行建模,以K-means算法、Single-Pass算法及近鄰傳播(AP)算法作為聚類算法對文本集進(jìn)行聚類。聚類結(jié)果表明近AP聚類效果最好,F-measure測度達(dá)77.43%。提出一種基于閉頻繁項集的聚類方法,比較最大頻繁項集和閉頻繁項集的關(guān)系,提出一種基于閉頻繁項集的文本相似度計算方法。閉頻繁項集引入可以有效實現(xiàn)特征降維,挖掘出有益于聚類的詞語項集。實驗結(jié)果表明,基于閉頻繁項集的聚類提高了聚類效果,相比基于潛在狄利克雷分布(LDA)模型,三種算法在F-measure和純度有10%以上的提高。
[Abstract]:In order to deal with the challenges of short text clustering based on vector space model, such as sparse keyword features, high dimension and large number of samples, the potential semantic model is applied to text analysis. Firstly, the experimental text set is modeled based on the potential topic model, and the text set is clustered by using the K-means algorithm, Single-Pass algorithm and the nearest neighbor Propagation algorithm as clustering algorithms. The clustering results show that the near AP clustering effect is the best and the F-measure measure is 77.43. A clustering method based on closed frequent itemsets is proposed to compare the relationship between maximal frequent itemsets and closed frequent itemsets and a text similarity calculation method based on closed frequent itemsets is proposed. The introduction of closed frequent itemsets can effectively reduce the dimensionality of features and mine out the lexical itemsets beneficial to clustering. The experimental results show that clustering based on closed frequent itemsets can improve the clustering performance. Compared with the latent Delikley distributed LDA-based model, the F-measure and purity of the three algorithms are improved by more than 10%.
【作者單位】: 火箭軍工程大學(xué)理學(xué)院;
【分類號】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 肖基毅,鄒臘梅,劉豐;頻繁項集挖掘算法研究[J];情報雜志;2005年11期
2 蔡進(jìn);薛永生;張東站;;基于分區(qū)分類法快速更新頻繁項集[J];計算機(jī)工程與應(yīng)用;2007年09期
3 胡學(xué)鋼;徐勇;王德興;張晶;;基于多剪枝格的頻繁項集表示與挖掘[J];合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2007年04期
4 胡學(xué)鋼;劉衛(wèi);王德興;;基于剪枝概念格模型的頻繁項集表示及挖掘[J];合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2007年09期
5 欒鸞;李云;盛艷;;多關(guān)系頻繁項集的并行獲取[J];微電子學(xué)與計算機(jī);2008年10期
6 李彥偉;戴月明;王金鑫;;一種挖掘加權(quán)頻繁項集的改進(jìn)算法[J];計算機(jī)工程與應(yīng)用;2011年15期
7 陳立潮,張建華,劉玉樹;提高頻繁項集挖掘算法效率的方法研究[J];計算機(jī)工程與應(yīng)用;2002年10期
8 朱玉全,孫志揮,趙傳申;快速更新頻繁項集[J];計算機(jī)研究與發(fā)展;2003年01期
9 宋寶莉;張幫華;何炎祥;朱驍峰;;帶有多個可轉(zhuǎn)化約束的頻繁項集挖掘算法[J];計算機(jī)科學(xué);2003年12期
10 王自強(qiáng),馮博琴;頻繁項集的簡潔表示方法研究[J];系統(tǒng)工程理論與實踐;2004年07期
相關(guān)會議論文 前10條
1 欒鸞;李云;盛艷;;多關(guān)系頻繁項集的并行獲取[A];2008年全國開放式分布與并行計算機(jī)學(xué)術(shù)會議論文集(下冊)[C];2008年
2 楊曉明;王晨;汪衛(wèi);張守志;施伯樂;;頻繁項集的精簡表達(dá)與還原問題研究[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
3 鄧傳國;;頻繁項集挖掘與學(xué)生素質(zhì)測評應(yīng)用研究[A];2007系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會議論文集[C];2007年
4 李彤巖;李興明;;基于分布式關(guān)聯(lián)規(guī)則挖掘的告警相關(guān)性研究[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(下冊)[C];2007年
5 王洪利;馮玉強(qiáng);;頻繁項集挖掘算法Apriori的改進(jìn)研究[A];全國第九屆企業(yè)信息化與工業(yè)工程學(xué)術(shù)會議論文集[C];2005年
6 陳曉云;李龍杰;馬志新;白伸伸;王磊;;AFP-Miner:一種新高效的頻繁項集挖掘算法[A];2006年全國理論計算機(jī)科學(xué)學(xué)術(shù)年會論文集[C];2006年
7 李坤;王永炎;王宏安;;一種基于樂觀裁剪策略的挖掘數(shù)據(jù)流滑動窗口上閉合頻繁項集的算法[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年
8 鄒遠(yuǎn)婭;周皓峰;王晨;汪衛(wèi);施伯樂;;FSC——利用頻繁項集挖掘估算視圖大小[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
9 楊曉雪;衡紅軍;;一種對XML數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘的方法研究[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年
10 謝志軍;陳紅;;EFIM——數(shù)據(jù)流上頻繁項集挖掘的高性能算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2006年
相關(guān)博士學(xué)位論文 前3條
1 溫磊;基于有向項集圖的關(guān)聯(lián)規(guī)則挖掘算法研究與應(yīng)用[D];天津大學(xué);2004年
2 董杰;基于位表的關(guān)聯(lián)規(guī)則挖掘及關(guān)聯(lián)分類研究[D];大連理工大學(xué);2009年
3 賈彩燕;關(guān)聯(lián)規(guī)則挖掘的取樣復(fù)雜性分析[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2004年
相關(guān)碩士學(xué)位論文 前10條
1 王立俊;基于多重最小支持度的氋效用頻繁項集挖掘算法研究[D];廣西大學(xué);2015年
2 陳國俊;基于Hadoop的云存儲系統(tǒng)的研究與應(yīng)用[D];電子科技大學(xué);2014年
3 尹艷紅;基于Apriori算法的增量式關(guān)聯(lián)規(guī)則控制研究[D];大連理工大學(xué);2015年
4 田苗鳳;大數(shù)據(jù)背景下并行動態(tài)關(guān)聯(lián)規(guī)則挖掘研究[D];蘭州交通大學(xué);2015年
5 李雪迪;基于本體論的精細(xì)化數(shù)據(jù)分析[D];南京郵電大學(xué);2015年
6 許靜文;基于模糊等價類的頻繁項集精簡表示算法研究[D];合肥工業(yè)大學(xué);2015年
7 王大偉;大數(shù)據(jù)環(huán)境下的關(guān)聯(lián)規(guī)則提取算法研究[D];遼寧工業(yè)大學(xué);2016年
8 廖友金;基于有向圖的關(guān)聯(lián)規(guī)則挖掘研究與改進(jìn)[D];東南大學(xué);2015年
9 王蘇琦;基于Hadoop的不確定頻繁項集并行挖掘方法研究[D];南京大學(xué);2013年
10 韓宏瑩;并行數(shù)據(jù)挖掘技術(shù)在電信網(wǎng)管告警中的應(yīng)用研究[D];長春工業(yè)大學(xué);2016年
,本文編號:1806296
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1806296.html