基于優(yōu)化密度的耦合空間LDA文本聚類算法研究
本文選題:文本聚類 切入點(diǎn):耦合空間模型 出處:《計(jì)算機(jī)應(yīng)用研究》2017年07期
【摘要】:針對(duì)傳統(tǒng)的空間向量模型在進(jìn)行文本表示時(shí)計(jì)算相似度僅采用詞頻統(tǒng)計(jì)來表示文本以及對(duì)高維文本數(shù)據(jù)聚類效果有所下降等問題,提出一種基于優(yōu)化密度的耦合空間LDA文本聚類算法。該算法利用提出的耦合空間模型和LDA主題模型線性融合計(jì)算文本相似度,并對(duì)閾值敏感問題進(jìn)行優(yōu)化,確定不同密度區(qū)域?qū)?yīng)的閾值半徑。實(shí)驗(yàn)結(jié)果表明,與改進(jìn)的DBSCAN文本聚類算法和R-DBSCAN文本聚類算法相比,該算法的文本聚類精度更高、聚類效果更優(yōu)。
[Abstract]:In order to solve the problem that the traditional spatial vector model only uses word frequency statistics to express the text and the clustering effect of the high-dimensional text data is decreased when the text is represented by the traditional spatial vector model.A coupled space LDA text clustering algorithm based on optimal density is proposed.The proposed algorithm uses the coupled space model and the LDA topic model to calculate the text similarity, and optimizes the threshold sensitivity problem to determine the threshold radius of different density regions.The experimental results show that compared with the improved DBSCAN text clustering algorithm and the R-DBSCAN text clustering algorithm, this algorithm has higher text clustering accuracy and better clustering effect.
【作者單位】: 遼寧工程技術(shù)大學(xué)電子與信息工程學(xué)院;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(61402212) 遼寧省高等學(xué)校杰出青年學(xué)者成長(zhǎng)計(jì)劃資助項(xiàng)目(LJQ2015045) 遼寧省自然科學(xué)基金資助項(xiàng)目(2015020098) 遼寧省教育廳城市研究院一般項(xiàng)目(LJCL008)
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 龔靜;李英杰;;文本聚類算法的分析與比較[J];湖南環(huán)境生物職業(yè)技術(shù)學(xué)院學(xué)報(bào);2006年03期
2 李眾;梁志劍;;一種改進(jìn)的文本聚類算法[J];陜西科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年06期
3 甘克勤;叢超;張寶林;孫旭凱;;基于劃分的文本聚類算法在標(biāo)準(zhǔn)文獻(xiàn)中的試驗(yàn)與對(duì)比研究[J];標(biāo)準(zhǔn)科學(xué);2013年10期
4 莫紫娟;;試論短文本聚類算法在微博的應(yīng)用[J];科技致富向?qū)?2014年09期
5 史夢(mèng)潔;;文本聚類算法綜述[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2014年03期
6 張書敏;;短文本聚類算法研究[J];科技致富向?qū)?2013年09期
7 朱君;曲超;湯庸;;利用單詞超團(tuán)的二分圖文本聚類算法[J];電子科技大學(xué)學(xué)報(bào);2008年03期
8 石曉敬;韓燮;;文本聚類算法的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年09期
9 殷風(fēng)景;肖衛(wèi)東;葛斌;李芳芳;;一種面向網(wǎng)絡(luò)話題發(fā)現(xiàn)的增量文本聚類算法[J];計(jì)算機(jī)應(yīng)用研究;2011年01期
10 李巖;婁云;;文本聚類算法在輿情監(jiān)控中的應(yīng)用分析[J];電子設(shè)計(jì)工程;2013年01期
相關(guān)會(huì)議論文 前1條
1 蔡嘉榮;印鑒;劉玉葆;黃志蘭;;一種有效的文本聚類算法[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
相關(guān)碩士學(xué)位論文 前10條
1 范新梅;基于微博的輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];河北科技大學(xué);2015年
2 程楊;中文短文本聚類算法的研究[D];吉林大學(xué);2016年
3 汪丹丹;中文文本聚類算法研究[D];蘇州大學(xué);2016年
4 李解;面向個(gè)性化主題的半監(jiān)督文本聚類算法研究[D];貴州大學(xué);2016年
5 林紅靜;基于K-means的微博短文本聚類算法研究[D];海南大學(xué);2016年
6 趙彬;基于語義的短文本聚類算法研究[D];遼寧工程技術(shù)大學(xué);2015年
7 陳可;文本聚類算法及其在話題發(fā)現(xiàn)中的應(yīng)用研究[D];北方工業(yè)大學(xué);2017年
8 馬文超;基于2度頻繁詞序列的文本聚類算法研究[D];河南大學(xué);2009年
9 劉龍海;基于成對(duì)約束的半監(jiān)督文本聚類算法研究[D];重慶大學(xué);2011年
10 黃文江;中文文本聚類算法分析與研究[D];上海交通大學(xué);2010年
,本文編號(hào):1713313
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1713313.html