基于改進LDA和K-means算法的主題句聚類
本文關(guān)鍵詞:基于改進LDA和K-means算法的主題句聚類 出處:《計算機應(yīng)用》2016年S2期 論文類型:期刊論文
更多相關(guān)文章: 潛在狄立克雷分布 K-means算法 最小描述長度算法 句子聚類
【摘要】:針對隱含狄利克雷分布(LDA)主題個數(shù)的隨機選定和傳統(tǒng)K-means算法初始聚類中心選擇的隨機性等缺陷,提出一種新穎啟發(fā)式的主題句聚類方法。該方法利用文檔集聚類簇數(shù)與拆分為句子集中隱藏的主題數(shù)目一致特點,先通過層次聚類分析出文檔集聚類簇,采用最小描述長度(MDL)剪枝算法來確定最佳聚類數(shù)n個,然后將n作為隱含狄利克雷分布的主題數(shù)目的先驗參數(shù),計算n個主題所在維度上的重要句子作為初始聚類中心,最終完成隱含主題句聚類。實驗結(jié)果表明改進后聚類算法克服了噪聲數(shù)據(jù)的干擾,避免了主題數(shù)的經(jīng)驗誤差,聚類結(jié)果更精確。
【作者單位】: 重慶大學計算機學院;
【基金】:國家自然科學基金資助項目(60873200,90818028)
【分類號】:TP391.1
【正文快照】: 0引言隨著移動互聯(lián)網(wǎng)的蓬勃發(fā)展,網(wǎng)絡(luò)信息量以指數(shù)級增加,特別是文本信息,如何精準有效地發(fā)現(xiàn)、組織和利用海量文本背后的有用信息成為一個熱門話題[1]。句子聚類技術(shù)作為自然語言處理(Natural Language Processing,NLP)的預處理步驟,對文本進一步分析和處理產(chǎn)生了重要的影響,
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張亞萍;胡學鋼;;基于K-means的樸素貝葉斯分類算法的研究[J];計算機技術(shù)與發(fā)展;2007年11期
2 劉運;殷建平;程杰仁;蔡志平;;基于k-Means改進算法的分布式拒絕服務(wù)攻擊檢測[J];計算機工程與科學;2008年12期
3 張濟強;高玉良;;遺傳模擬退火算法在k-means聚類中的應(yīng)用[J];電腦知識與技術(shù);2012年07期
4 賈花萍;李堯龍;哈渭濤;史曉影;;K-means聚類神經(jīng)網(wǎng)絡(luò)分類器在睡眠腦電分期中的應(yīng)用研究[J];河南科學;2012年06期
5 李學勇;高國紅;孫甲霞;;基于互信息和K-means聚類的信息安全風險評估[J];河南師范大學學報(自然科學版);2011年02期
6 郁雪;李敏強;;一種結(jié)合有效降維和K-means聚類的協(xié)同過濾推薦模型[J];計算機應(yīng)用研究;2009年10期
7 屈新懷;高萬里;丁必榮;李朕;;基于聚類數(shù)和初始值的K-means算法改進研究[J];組合機床與自動化加工技術(shù);2011年04期
8 邊鵬;趙妍;蘇玉召;;一種改進的K-means算法最佳聚類數(shù)確定方法[J];現(xiàn)代圖書情報技術(shù);2011年09期
9 宗瑜;金萍;李明楚;;BK-means:骨架初始解K-means[J];計算機工程與應(yīng)用;2009年14期
10 韓凌波;;一種新的K-means最佳聚類數(shù)確定方法[J];現(xiàn)代計算機;2013年30期
中國重要會議論文全文數(shù)據(jù)庫 前6條
1 楊青;劉曄;張東旭;劉暢;;快速查找最優(yōu)初始聚類數(shù)K的改進K-means算法[A];中國自動化學會控制理論專業(yè)委員會A卷[C];2011年
2 陳磊;胡佳敏;嚴華;;K-means算法在散貨船代貨運系統(tǒng)中的應(yīng)用[A];全國第20屆計算機技術(shù)與應(yīng)用學術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學術(shù)會議論文集(上冊)[C];2009年
3 鄭建軍;甘仞初;賀躍;畢思飛;;一種基于k-means的聚類集成方法[A];全國第九屆企業(yè)信息化與工業(yè)工程學術(shù)會議論文集[C];2005年
4 張望;王輝;;個性化服務(wù)中的并行K-Means聚類算法[A];2007年全國開放式分布與并行計算機學術(shù)會議論文集(下冊)[C];2007年
5 江華;王翰虎;陳梅;;一種基于K-means聚類分組的P2P超結(jié)點模型[A];2005年全國開放式分布與并行計算學術(shù)會議論文集[C];2005年
6 王守強;朱大銘;史士英;;基于輸入點集求解k-Means聚類算法[A];第二十六屆中國控制會議論文集[C];2007年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 陳智;基于K-means聚類算法的機會網(wǎng)絡(luò)群組移動模型及其長相關(guān)性研究[D];湘潭大學;2015年
2 許允棟;K-means聚類算法的改進與應(yīng)用[D];廣西師范大學;2015年
3 丁斌;基于布谷鳥算法的K-means聚類挖掘算法研究[D];合肥工業(yè)大學;2015年
4 梁云昭;基于K-means的圍棋特征提取方法研究[D];北京理工大學;2015年
5 于洋洋;基于并行K-MEANS聚類分析的社群發(fā)現(xiàn)算法研究[D];東北大學;2012年
6 崔曉麗;基于MapReduce的海量數(shù)據(jù)K-means聚類算法研究[D];大連理工大學;2014年
7 高存彬;基于K-Means聚類法的水團劃分算法和可視化研究[D];中國海洋大學;2008年
8 劉建國;改進的K-means算法及其在采油數(shù)據(jù)分析中的應(yīng)用[D];北京郵電大學;2010年
9 陳翠卓;移動平臺下基于K-means的租房信息聚類算法研究與實現(xiàn)[D];華中師范大學;2014年
10 高利軍;基于K-Means聚類算法的智能化站點設(shè)計與實現(xiàn)[D];河南科技大學;2007年
,本文編號:1317306
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1317306.html