基于密度峰值優(yōu)化的K-means文本聚類算法
本文選題:文本聚類 切入點(diǎn):密度峰值 出處:《計(jì)算機(jī)工程與設(shè)計(jì)》2017年04期
【摘要】:傳統(tǒng)K-means算法中初始質(zhì)心選定的隨機(jī)性可能使算法陷入局部最優(yōu)解,使聚類結(jié)果不夠準(zhǔn)確。改進(jìn)初始質(zhì)心的選擇算法,為各樣本點(diǎn)引入局部密度指標(biāo),根據(jù)其局部密度分布情況,選取處于密度峰值的點(diǎn)作為初始質(zhì)心,得到穩(wěn)定的離收斂質(zhì)心很近的初始質(zhì)心,減少算法迭代次數(shù),提高運(yùn)行效率,降低陷入局部最優(yōu)的概率,顯著提高聚類準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,與幾種已有算法相比,該算法在文本聚類中有明顯優(yōu)勢。
[Abstract]:The randomness of the initial centroid selection in the traditional K-means algorithm may make the algorithm fall into the local optimal solution and make the clustering result inaccurate. The selection algorithm of the initial centroid is improved and the local density index is introduced for each sample point according to its local density distribution. The point at the peak of density is selected as the initial centroid to obtain the stable initial centroid close to the convergent centroid, which reduces the number of iterations of the algorithm, improves the running efficiency, and reduces the probability of falling into the local optimum. The experimental results show that this algorithm has obvious advantages in text clustering compared with several existing algorithms.
【作者單位】: 武漢大學(xué)計(jì)算機(jī)學(xué)院;
【基金】:國家自然科學(xué)基金項(xiàng)目(60975050) 中央高;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)基金項(xiàng)目(2452015197,2452015194,2452015200)
【分類號】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 賈瑞玉;李振;;基于最小生成樹的層次K-means聚類算法[J];微電子學(xué)與計(jì)算機(jī);2016年03期
2 韓巖;李曉;;加速大數(shù)據(jù)聚類K-means算法的改進(jìn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2015年05期
3 翟東海;魚江;高飛;于磊;丁鋒;;最大距離法選取初始簇中心的K-means文本聚類算法的研究[J];計(jì)算機(jī)應(yīng)用研究;2014年03期
4 熊忠陽;陳若田;張玉芳;;一種有效的K-means聚類中心初始化方法[J];計(jì)算機(jī)應(yīng)用研究;2011年11期
5 仝雪姣;孟凡榮;王志曉;;對k-means初始聚類中心的優(yōu)化[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年08期
6 陳建超;胡桂武;楊志華;嚴(yán)桂奪;;基于全局性確定聚類中心的文本聚類[J];計(jì)算機(jī)工程與應(yīng)用;2011年10期
7 徐建民;王金花;馬偉瑜;;利用本體關(guān)聯(lián)度改進(jìn)的TF-IDF特征詞提取方法[J];情報(bào)科學(xué);2011年02期
8 田森平;吳文亮;;自動(dòng)獲取k-means聚類參數(shù)k值的算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年01期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 田詩宵;丁立新;鄭金秋;;基于密度峰值優(yōu)化的K-means文本聚類算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2017年04期
2 金銘;汪友生;邊航;王雨婷;;一種基于視覺詞袋模型的圖像檢索方法[J];計(jì)算機(jī)應(yīng)用與軟件;2017年04期
3 李梅蓮;;基于密度分布的K-Means初始聚類中心選擇算法[J];許昌學(xué)院學(xué)報(bào);2017年02期
4 吳金李;張建明;;基于二分K-means的協(xié)同過濾推薦算法[J];軟件導(dǎo)刊;2017年01期
5 周小玲;章新友;仵倚;齊城成;;基于模糊理論的碩士生復(fù)試考評方法的探討[J];中醫(yī)藥管理雜志;2017年04期
6 李曉瑜;俞麗穎;雷航;唐雪飛;;一種K-means改進(jìn)算法的并行化實(shí)現(xiàn)與應(yīng)用[J];電子科技大學(xué)學(xué)報(bào);2017年01期
7 羅可;易斌;;一種基于改進(jìn)蜂群的K-means聚類算法[J];長沙理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2016年04期
8 曾慶山;張貴勇;;基于距離閾值的自適應(yīng)K-均值聚類算法[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2016年04期
9 劉澎;陸介平;;基于MapReduce的改進(jìn)k-means文本聚類算法[J];信息技術(shù);2016年11期
10 宋先強(qiáng);高仲合;劉瀧;國凱平;;基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)異常檢測方法的研究[J];電子技術(shù);2016年11期
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王秀華;;基于隨機(jī)抽樣的加速K-均值聚類方法[J];計(jì)算機(jī)與現(xiàn)代化;2013年12期
2 徐沁;羅斌;;結(jié)合mean-shift與MST的K-means聚類算法[J];計(jì)算機(jī)工程;2013年12期
3 王秀華;;一種并行的加速k-均值聚類方法[J];電腦知識與技術(shù);2013年18期
4 李翔宇;王開軍;郭躬德;;基于網(wǎng)格最小生成樹的聚類算法選擇[J];模式識別與人工智能;2013年01期
5 熊忠陽;陳若田;張玉芳;;一種有效的K-means聚類中心初始化方法[J];計(jì)算機(jī)應(yīng)用研究;2011年11期
6 胡偉;;改進(jìn)的層次K均值聚類算法[J];計(jì)算機(jī)工程與應(yīng)用;2013年02期
7 張世博;;基于優(yōu)化初始中心點(diǎn)的K-means文本聚類算法[J];計(jì)算機(jī)與數(shù)字工程;2011年10期
8 黃韜;劉勝輝;譚艷娜;;基于k-means聚類算法的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年07期
9 周愛武;崔丹丹;潘勇;;一種優(yōu)化初始聚類中心的K-means聚類算法[J];微型機(jī)與應(yīng)用;2011年13期
10 黃承慧;印鑒;侯f ;;一種結(jié)合詞項(xiàng)語義信息和TF-IDF方法的文本相似度量方法[J];計(jì)算機(jī)學(xué)報(bào);2011年05期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 趙亞琴;周獻(xiàn)中;;一種基于小生境遺傳算法的中文文本聚類新方法[J];計(jì)算機(jī)工程;2006年06期
2 劉務(wù)華;羅鐵堅(jiān);王文杰;;文本聚類技術(shù)的有效性驗(yàn)證[J];計(jì)算機(jī)工程;2007年01期
3 丁X;許侃;;基于文本聚類方法的我國科技管理研究領(lǐng)域的計(jì)量研究[J];科學(xué)學(xué)研究;2007年S1期
4 孫愛香;楊鑫華;;關(guān)于文本聚類有效性評價(jià)的研究[J];山東理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年05期
5 丘志宏;宮雷光;;利用上下文提高文本聚類的效果[J];中文信息學(xué)報(bào);2007年06期
6 吳啟明;易云飛;;文本聚類綜述[J];河池學(xué)院學(xué)報(bào);2008年02期
7 李江華;楊書新;劉利峰;;基于概念格的文本聚類[J];計(jì)算機(jī)應(yīng)用;2008年09期
8 趙文鵬;;淺談文本聚類研究[J];企業(yè)家天地下半月刊(理論版);2009年02期
9 章成志;;文本聚類結(jié)果描述研究綜述[J];現(xiàn)代圖書情報(bào)技術(shù);2009年02期
10 馬娜;;文本聚類研究[J];電腦知識與技術(shù);2009年20期
相關(guān)會議論文 前10條
1 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[A];第三屆學(xué)生計(jì)算語言學(xué)研討會論文集[C];2006年
2 王洪俊;俞士汶;蘇祺;施水才;肖詩斌;;中文文本聚類的特征單元比較[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
3 胡吉祥;許洪波;劉悅;王斌;程學(xué)旗;;基于重復(fù)串的短文本聚類研究[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
4 白剛;張錚;丁宗堯;朱毅;;中文文本聚類在互聯(lián)網(wǎng)搜索的研究與應(yīng)用[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
5 王明文;付劍波;羅遠(yuǎn)勝;陸旭;;基于協(xié)同聚類的兩階段文本聚類方法研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
6 張猛;王大玲;于戈;;一種基于自動(dòng)閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2004年
7 王樂;田李;賈焰;韓偉紅;;一個(gè)并行的文本聚類混合算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2007年
8 王瑩;劉楊;;維基百科的文本聚類方法分析[A];2009年研究生學(xué)術(shù)交流會通信與信息技術(shù)論文集[C];2009年
9 張寶艷;王慶輝;;中文文本聚類的研究與實(shí)現(xiàn)[A];第一屆學(xué)生計(jì)算語言學(xué)研討會論文集[C];2002年
10 章成志;;基于多語文本聚類的主題層次體系生成研究1)[A];國家自然科學(xué)基金委員會管理科學(xué)部宏觀管理與政策學(xué)科青年基金獲得者交流研討會論文集[C];2010年
相關(guān)博士學(xué)位論文 前3條
1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
2 高茂庭;文本聚類分析若干問題研究[D];天津大學(xué);2007年
3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 康健;基于Multi-agent和群體智能的藏文網(wǎng)絡(luò)輿情管理研究[D];西南交通大學(xué);2015年
2 張培偉;基于改進(jìn)Single-Pass算法的熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中師范大學(xué);2015年
3 郭士串;結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用[D];江西理工大學(xué);2015年
4 邵明來;中文文本聚類關(guān)鍵技術(shù)研究[D];廣西大學(xué);2015年
5 王恒靜;基于詞類和搭配的微博輿情文本聚類方法研究[D];江蘇科技大學(xué);2015年
6 吳潔潔;基于RI方法的文本聚類研究[D];南昌大學(xué);2015年
7 樊兆欣;個(gè)性化新聞推薦系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];北京理工大學(xué);2015年
8 蘇圣瞳;微博熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2014年
9 孫東普;融合屬性抽取的多粒度專利文本聚類研究[D];大連理工大學(xué);2015年
10 李蕓;基于爬蟲和文本聚類分析的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
,本文編號:1664903
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1664903.html