一種基于密度峰值發(fā)現(xiàn)的文本聚類算法
本文關(guān)鍵詞:一種基于密度峰值發(fā)現(xiàn)的文本聚類算法
更多相關(guān)文章: 密度 文本聚類 特征項 向量距離
【摘要】:提出一種基于密度峰值發(fā)現(xiàn)的文本聚類算法,將文本的距離與密度計算轉(zhuǎn)化為文本向量的相似度計算,實現(xiàn)基于密度峰值發(fā)現(xiàn)的文本聚類算法。該算法采用空間向量模型表示文本,用余弦公式進行相似度計算,然后求得每個文本的密度和距離。剔除噪音點后,選取聚類中心,將剩下的非中心點劃分到距離其最近的聚類中心所在的類簇中去。通過多組對比試驗,驗證了本方法的可靠性和魯棒性。
【作者單位】: 山東師范大學(xué)信息科學(xué)與工程學(xué)院;山東交通學(xué)院信息科學(xué)與電氣工程學(xué)院;
【關(guān)鍵詞】: 密度 文本聚類 特征項 向量距離
【基金】:國家自然科學(xué)基金資助項目(61373148) 國家社會科學(xué)基金資助項目(12BXW040) 山東省自然基金資助項目(ZR2012FM038) 山東省優(yōu)秀中青年科學(xué)家獎勵基金資助項目(BS2013DX033) 教育部人文社科基金資助項目(14YJC860042) 山東省社科規(guī)劃項目(12BXWJ01) 山東省高等學(xué)?萍加媱濏椖(J12LN21)
【分類號】:TP391.1
【正文快照】: 0引言文本聚類是文本挖掘與信息檢索領(lǐng)域的核心問題之一,因此文本聚類算法的研究是該領(lǐng)域的研究熱點。文本聚類的核心問題是如何將聚類方法應(yīng)用于文本挖掘領(lǐng)域。聚類的目的是將大量數(shù)據(jù)根據(jù)其相互之間的相似程度進行劃分,形成若干個不同的類簇,類簇內(nèi)的數(shù)據(jù)相似程度高,類簇之
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 趙衛(wèi)中;馬慧芳;李志清;史忠植;;一種結(jié)合主動學(xué)習(xí)的半監(jiān)督文檔聚類算法[J];軟件學(xué)報;2012年06期
2 張云;馮博琴;麻首強;劉連夢;;蟻群-遺傳融合的文本聚類算法[J];西安交通大學(xué)學(xué)報;2007年10期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 徐淑坦;王朝勇;孫延風(fēng);;一種不均衡數(shù)據(jù)的改進蟻群分類算法[J];吉林大學(xué)學(xué)報(理學(xué)版);2011年04期
2 馬世霞;劉丹;賈世杰;;基于蟻群算法的文本聚類算法[J];計算機工程;2010年08期
3 謝科;;融合協(xié)同訓(xùn)練和兩層主動學(xué)習(xí)策略的SVM分類方法[J];湖南師范大學(xué)自然科學(xué)學(xué)報;2014年01期
4 王永貴;林琳;劉憲國;;結(jié)合雙粒子群和K-means的混合文本聚類算法[J];計算機應(yīng)用研究;2014年02期
5 孟光勝;趙志宇;;基于兩層主動學(xué)習(xí)策略的SVM分類方法[J];河南師范大學(xué)學(xué)報(自然科學(xué)版);2014年02期
6 張靜;聶章龍;;基于主動學(xué)習(xí)的動態(tài)模糊聚類算法[J];計算機與現(xiàn)代化;2014年05期
7 李艷玲;顏永紅;;中文口語理解弱監(jiān)督訓(xùn)練方法[J];計算機應(yīng)用;2015年07期
8 蘇贏彬;杜學(xué)繪;夏春濤;曹利峰;陳華成;;基于半監(jiān)督聚類的文檔敏感信息推導(dǎo)方法[J];計算機科學(xué);2015年10期
9 周國娟;;基于蟻群算法的文本聚類處理的研究[J];通信技術(shù);2010年11期
10 孟凡榮;張可為;朱牧;;基于密度的半監(jiān)督復(fù)雜網(wǎng)絡(luò)聚類算法[J];計算機工程與設(shè)計;2014年01期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 姜棟;鄭康鋒;胡影;;基于蟻群的啟發(fā)式網(wǎng)絡(luò)拓?fù)鋱D布局算法[A];第九屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2012年
2 Ping Zhou;Jiayin Wei;Yongbin Qin;;A Semi-Supervised Text Clustering Algorithm with Word Distribution Weights[A];2013教育技術(shù)與信息系統(tǒng)國際會議論文集[C];2013年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前8條
1 邸書靈;Agent聯(lián)盟和流形學(xué)習(xí)在中文問答系統(tǒng)中的應(yīng)用研究[D];天津大學(xué);2010年
2 代勁;云模型在文本挖掘應(yīng)用中的關(guān)鍵問題研究[D];重慶大學(xué);2011年
3 胡佳妮;文本挖掘中若干關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年
4 彭菲菲;網(wǎng)絡(luò)熱點話題發(fā)現(xiàn)的關(guān)鍵技術(shù)研究[D];中國礦業(yè)大學(xué)(北京);2012年
5 王妍妍;基于序列聚類的軟件漏洞檢測方法研究[D];燕山大學(xué);2012年
6 劉麗敏;選擇性聚類融合算法研究[D];中南大學(xué);2013年
7 張捷;進化算法及智能數(shù)據(jù)挖掘若干問題研究[D];西安電子科技大學(xué);2013年
8 費紹棟;網(wǎng)絡(luò)輿情突發(fā)事件檢測與追蹤關(guān)鍵技術(shù)研究[D];山東師范大學(xué);2015年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前9條
1 吳啟綱;中文文本聚類算法的研究與實現(xiàn)[D];西安電子科技大學(xué);2010年
2 王慧;C-均值聚類算法的改進研究[D];河南大學(xué);2011年
3 劉文靜;基于標(biāo)簽詞抽取的搜索結(jié)果聚類研究[D];北京郵電大學(xué);2012年
4 張文明;文本案例知識庫構(gòu)建的關(guān)鍵技術(shù)研究[D];西北大學(xué);2010年
5 唐媛;基于蟻群的文本文檔聚類技術(shù)研究[D];武漢科技大學(xué);2010年
6 郭增新;基于語義的文本聚類算法研究[D];西安電子科技大學(xué);2012年
7 姜棟;網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)及顯示技術(shù)研究[D];北京郵電大學(xué);2013年
8 許鈺;基于半監(jiān)督SVM主動學(xué)習(xí)的文本分類算法研究[D];蘭州交通大學(xué);2013年
9 郭丁;基于密度檢測和信息增益的半監(jiān)督kmeans算法[D];河北大學(xué);2015年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 吳春明;陳治;姜明;;蟻群算法中系統(tǒng)初始化及系統(tǒng)參數(shù)的研究[J];電子學(xué)報;2006年08期
2 黃永青;梁昌勇;張祥德;;基于均勻設(shè)計的蟻群算法參數(shù)設(shè)定[J];控制與決策;2006年01期
3 劉遠超;王曉龍;徐志明;關(guān)毅;;文檔聚類綜述[J];中文信息學(xué)報;2006年03期
4 李昆侖;曹錚;曹麗蘋;張超;劉明;;半監(jiān)督聚類的若干新進展[J];模式識別與人工智能;2009年05期
5 王玲;薄列峰;焦李成;;密度敏感的半監(jiān)督譜聚類[J];軟件學(xué)報;2007年10期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 龔靜;李英杰;;文本聚類算法的分析與比較[J];湖南環(huán)境生物職業(yè)技術(shù)學(xué)院學(xué)報;2006年03期
2 李眾;梁志劍;;一種改進的文本聚類算法[J];陜西科技大學(xué)學(xué)報(自然科學(xué)版);2008年06期
3 甘克勤;叢超;張寶林;孫旭凱;;基于劃分的文本聚類算法在標(biāo)準(zhǔn)文獻中的試驗與對比研究[J];標(biāo)準(zhǔn)科學(xué);2013年10期
4 莫紫娟;;試論短文本聚類算法在微博的應(yīng)用[J];科技致富向?qū)?2014年09期
5 史夢潔;;文本聚類算法綜述[J];現(xiàn)代計算機(專業(yè)版);2014年03期
6 張書敏;;短文本聚類算法研究[J];科技致富向?qū)?2013年09期
7 朱君;曲超;湯庸;;利用單詞超團的二分圖文本聚類算法[J];電子科技大學(xué)學(xué)報;2008年03期
8 石曉敬;韓燮;;文本聚類算法的設(shè)計與實現(xiàn)[J];計算機工程與設(shè)計;2010年09期
9 殷風(fēng)景;肖衛(wèi)東;葛斌;李芳芳;;一種面向網(wǎng)絡(luò)話題發(fā)現(xiàn)的增量文本聚類算法[J];計算機應(yīng)用研究;2011年01期
10 李巖;婁云;;文本聚類算法在輿情監(jiān)控中的應(yīng)用分析[J];電子設(shè)計工程;2013年01期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 蔡嘉榮;印鑒;劉玉葆;黃志蘭;;一種有效的文本聚類算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 馬文超;基于2度頻繁詞序列的文本聚類算法研究[D];河南大學(xué);2009年
2 劉龍海;基于成對約束的半監(jiān)督文本聚類算法研究[D];重慶大學(xué);2011年
3 黃文江;中文文本聚類算法分析與研究[D];上海交通大學(xué);2010年
4 潘啟蒙;文本聚類算法的研究與實現(xiàn)[D];吉林大學(xué);2008年
5 郭增新;基于語義的文本聚類算法研究[D];西安電子科技大學(xué);2012年
6 高利波;文本聚類算法的研究及應(yīng)用[D];電子科技大學(xué);2013年
7 馬素琴;基于相似度的文本聚類算法研究及應(yīng)用[D];江蘇大學(xué);2010年
8 翟獻民;維吾爾語文本聚類算法研究[D];新疆大學(xué);2013年
9 馮曉云;基于云計算的文本聚類算法研究[D];南京理工大學(xué);2014年
10 鄭方;蟻群文本聚類算法的研究與應(yīng)用[D];西安電子科技大學(xué);2013年
,本文編號:650423
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/650423.html