天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于閉頻繁項(xiàng)集短文本聚類

發(fā)布時(shí)間:2018-04-26 13:55

  本文選題:短文本 + 語(yǔ)義模型 ; 參考:《計(jì)算機(jī)應(yīng)用》2016年S2期


【摘要】:為應(yīng)對(duì)基于向量空間模型的短文本聚類面臨的關(guān)鍵詞特征稀疏、高維及樣本數(shù)量多等挑戰(zhàn),將潛在語(yǔ)義模型應(yīng)用于短文本分析。首先基于潛在主題模型對(duì)實(shí)驗(yàn)短文本集進(jìn)行建模,以K-means算法、Single-Pass算法及近鄰傳播(AP)算法作為聚類算法對(duì)文本集進(jìn)行聚類。聚類結(jié)果表明近AP聚類效果最好,F-measure測(cè)度達(dá)77.43%。提出一種基于閉頻繁項(xiàng)集的聚類方法,比較最大頻繁項(xiàng)集和閉頻繁項(xiàng)集的關(guān)系,提出一種基于閉頻繁項(xiàng)集的文本相似度計(jì)算方法。閉頻繁項(xiàng)集引入可以有效實(shí)現(xiàn)特征降維,挖掘出有益于聚類的詞語(yǔ)項(xiàng)集。實(shí)驗(yàn)結(jié)果表明,基于閉頻繁項(xiàng)集的聚類提高了聚類效果,相比基于潛在狄利克雷分布(LDA)模型,三種算法在F-measure和純度有10%以上的提高。
[Abstract]:In order to deal with the challenges of short text clustering based on vector space model, such as sparse keyword features, high dimension and large number of samples, the potential semantic model is applied to text analysis. Firstly, the experimental text set is modeled based on the potential topic model, and the text set is clustered by using the K-means algorithm, Single-Pass algorithm and the nearest neighbor Propagation algorithm as clustering algorithms. The clustering results show that the near AP clustering effect is the best and the F-measure measure is 77.43. A clustering method based on closed frequent itemsets is proposed to compare the relationship between maximal frequent itemsets and closed frequent itemsets and a text similarity calculation method based on closed frequent itemsets is proposed. The introduction of closed frequent itemsets can effectively reduce the dimensionality of features and mine out the lexical itemsets beneficial to clustering. The experimental results show that clustering based on closed frequent itemsets can improve the clustering performance. Compared with the latent Delikley distributed LDA-based model, the F-measure and purity of the three algorithms are improved by more than 10%.
【作者單位】: 火箭軍工程大學(xué)理學(xué)院;
【分類號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 肖基毅,鄒臘梅,劉豐;頻繁項(xiàng)集挖掘算法研究[J];情報(bào)雜志;2005年11期

2 蔡進(jìn);薛永生;張東站;;基于分區(qū)分類法快速更新頻繁項(xiàng)集[J];計(jì)算機(jī)工程與應(yīng)用;2007年09期

3 胡學(xué)鋼;徐勇;王德興;張晶;;基于多剪枝格的頻繁項(xiàng)集表示與挖掘[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年04期

4 胡學(xué)鋼;劉衛(wèi);王德興;;基于剪枝概念格模型的頻繁項(xiàng)集表示及挖掘[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年09期

5 欒鸞;李云;盛艷;;多關(guān)系頻繁項(xiàng)集的并行獲取[J];微電子學(xué)與計(jì)算機(jī);2008年10期

6 李彥偉;戴月明;王金鑫;;一種挖掘加權(quán)頻繁項(xiàng)集的改進(jìn)算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年15期

7 陳立潮,張建華,劉玉樹(shù);提高頻繁項(xiàng)集挖掘算法效率的方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2002年10期

8 朱玉全,孫志揮,趙傳申;快速更新頻繁項(xiàng)集[J];計(jì)算機(jī)研究與發(fā)展;2003年01期

9 宋寶莉;張幫華;何炎祥;朱驍峰;;帶有多個(gè)可轉(zhuǎn)化約束的頻繁項(xiàng)集挖掘算法[J];計(jì)算機(jī)科學(xué);2003年12期

10 王自強(qiáng),馮博琴;頻繁項(xiàng)集的簡(jiǎn)潔表示方法研究[J];系統(tǒng)工程理論與實(shí)踐;2004年07期

相關(guān)會(huì)議論文 前10條

1 欒鸞;李云;盛艷;;多關(guān)系頻繁項(xiàng)集的并行獲取[A];2008年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2008年

2 楊曉明;王晨;汪衛(wèi);張守志;施伯樂(lè);;頻繁項(xiàng)集的精簡(jiǎn)表達(dá)與還原問(wèn)題研究[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年

3 鄧傳國(guó);;頻繁項(xiàng)集挖掘與學(xué)生素質(zhì)測(cè)評(píng)應(yīng)用研究[A];2007系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2007年

4 李彤巖;李興明;;基于分布式關(guān)聯(lián)規(guī)則挖掘的告警相關(guān)性研究[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2007年

5 王洪利;馮玉強(qiáng);;頻繁項(xiàng)集挖掘算法Apriori的改進(jìn)研究[A];全國(guó)第九屆企業(yè)信息化與工業(yè)工程學(xué)術(shù)會(huì)議論文集[C];2005年

6 陳曉云;李龍杰;馬志新;白伸伸;王磊;;AFP-Miner:一種新高效的頻繁項(xiàng)集挖掘算法[A];2006年全國(guó)理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì)論文集[C];2006年

7 李坤;王永炎;王宏安;;一種基于樂(lè)觀裁剪策略的挖掘數(shù)據(jù)流滑動(dòng)窗口上閉合頻繁項(xiàng)集的算法[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年

8 鄒遠(yuǎn)婭;周皓峰;王晨;汪衛(wèi);施伯樂(lè);;FSC——利用頻繁項(xiàng)集挖掘估算視圖大小[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年

9 楊曉雪;衡紅軍;;一種對(duì)XML數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘的方法研究[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年

10 謝志軍;陳紅;;EFIM——數(shù)據(jù)流上頻繁項(xiàng)集挖掘的高性能算法[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年

相關(guān)博士學(xué)位論文 前3條

1 溫磊;基于有向項(xiàng)集圖的關(guān)聯(lián)規(guī)則挖掘算法研究與應(yīng)用[D];天津大學(xué);2004年

2 董杰;基于位表的關(guān)聯(lián)規(guī)則挖掘及關(guān)聯(lián)分類研究[D];大連理工大學(xué);2009年

3 賈彩燕;關(guān)聯(lián)規(guī)則挖掘的取樣復(fù)雜性分析[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2004年

相關(guān)碩士學(xué)位論文 前10條

1 王立俊;基于多重最小支持度的氋效用頻繁項(xiàng)集挖掘算法研究[D];廣西大學(xué);2015年

2 陳國(guó)俊;基于Hadoop的云存儲(chǔ)系統(tǒng)的研究與應(yīng)用[D];電子科技大學(xué);2014年

3 尹艷紅;基于Apriori算法的增量式關(guān)聯(lián)規(guī)則控制研究[D];大連理工大學(xué);2015年

4 田苗鳳;大數(shù)據(jù)背景下并行動(dòng)態(tài)關(guān)聯(lián)規(guī)則挖掘研究[D];蘭州交通大學(xué);2015年

5 李雪迪;基于本體論的精細(xì)化數(shù)據(jù)分析[D];南京郵電大學(xué);2015年

6 許靜文;基于模糊等價(jià)類的頻繁項(xiàng)集精簡(jiǎn)表示算法研究[D];合肥工業(yè)大學(xué);2015年

7 王大偉;大數(shù)據(jù)環(huán)境下的關(guān)聯(lián)規(guī)則提取算法研究[D];遼寧工業(yè)大學(xué);2016年

8 廖友金;基于有向圖的關(guān)聯(lián)規(guī)則挖掘研究與改進(jìn)[D];東南大學(xué);2015年

9 王蘇琦;基于Hadoop的不確定頻繁項(xiàng)集并行挖掘方法研究[D];南京大學(xué);2013年

10 韓宏瑩;并行數(shù)據(jù)挖掘技術(shù)在電信網(wǎng)管告警中的應(yīng)用研究[D];長(zhǎng)春工業(yè)大學(xué);2016年

,

本文編號(hào):1806296

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1806296.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶93bfe***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com