一種結(jié)合上下文語(yǔ)義的短文本聚類算法
本文關(guān)鍵詞:一種結(jié)合上下文語(yǔ)義的短文本聚類算法,,由筆耕文化傳播整理發(fā)布。
【摘要】:短文本因具有特征信息不足且高維稀疏等特點(diǎn),使得傳統(tǒng)文本聚類算法應(yīng)用于短文本聚類任務(wù)時(shí)性能有限。針對(duì)上述情況,提出一種結(jié)合上下文語(yǔ)義的短文本聚類算法。首先借鑒社會(huì)網(wǎng)絡(luò)分析領(lǐng)域的中心性和權(quán)威性思想設(shè)計(jì)了一種結(jié)合上下文語(yǔ)義的特征詞權(quán)重計(jì)算方法,在此基礎(chǔ)上構(gòu)建詞條-文本矩陣;然后對(duì)該矩陣進(jìn)行奇異值分解,進(jìn)一步將原始特征詞空間映射到低維的潛在語(yǔ)義空間;最后通過(guò)改進(jìn)的K-means聚類算法在低維潛在語(yǔ)義空間完成短文本聚類。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的基于詞頻及逆向文檔頻權(quán)重的文本聚類算法相比,該算法能有效改善短文本特征不足及高維稀疏性,提高了短文的本聚類效果。
【作者單位】: 電子工程學(xué)院;
【關(guān)鍵詞】: 短文本聚類 上下文語(yǔ)義 奇異值分解 K均值算法
【基金】:國(guó)家自然科學(xué)基金(61273302)資助
【分類號(hào)】:TP391.1
【正文快照】: 本文受國(guó)家自然科學(xué)基金(61273302)資助。1引言智能移動(dòng)終端的普及使得移動(dòng)互聯(lián)網(wǎng)成為內(nèi)容發(fā)布與共享的主要平臺(tái)。由于移動(dòng)終端屏幕相對(duì)較小,移動(dòng)互聯(lián)網(wǎng)中的內(nèi)容更多以短文本形式呈現(xiàn)。如何從海量短文本數(shù)據(jù)中自動(dòng)分析提取有價(jià)值的信息成為亟待解決的問(wèn)題。文本聚類技術(shù)通過(guò)將
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 龔靜;李英杰;;文本聚類算法的分析與比較[J];湖南環(huán)境生物職業(yè)技術(shù)學(xué)院學(xué)報(bào);2006年03期
2 李眾;梁志劍;;一種改進(jìn)的文本聚類算法[J];陜西科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年06期
3 甘克勤;叢超;張寶林;孫旭凱;;基于劃分的文本聚類算法在標(biāo)準(zhǔn)文獻(xiàn)中的試驗(yàn)與對(duì)比研究[J];標(biāo)準(zhǔn)科學(xué);2013年10期
4 莫紫娟;;試論短文本聚類算法在微博的應(yīng)用[J];科技致富向?qū)?2014年09期
5 史夢(mèng)潔;;文本聚類算法綜述[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2014年03期
6 張書敏;;短文本聚類算法研究[J];科技致富向?qū)?2013年09期
7 朱君;曲超;湯庸;;利用單詞超團(tuán)的二分圖文本聚類算法[J];電子科技大學(xué)學(xué)報(bào);2008年03期
8 石曉敬;韓燮;;文本聚類算法的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年09期
9 殷風(fēng)景;肖衛(wèi)東;葛斌;李芳芳;;一種面向網(wǎng)絡(luò)話題發(fā)現(xiàn)的增量文本聚類算法[J];計(jì)算機(jī)應(yīng)用研究;2011年01期
10 李巖;婁云;;文本聚類算法在輿情監(jiān)控中的應(yīng)用分析[J];電子設(shè)計(jì)工程;2013年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 蔡嘉榮;印鑒;劉玉葆;黃志蘭;;一種有效的文本聚類算法[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 程楊;中文短文本聚類算法的研究[D];吉林大學(xué);2016年
2 馬文超;基于2度頻繁詞序列的文本聚類算法研究[D];河南大學(xué);2009年
3 劉龍海;基于成對(duì)約束的半監(jiān)督文本聚類算法研究[D];重慶大學(xué);2011年
4 黃文江;中文文本聚類算法分析與研究[D];上海交通大學(xué);2010年
5 潘啟蒙;文本聚類算法的研究與實(shí)現(xiàn)[D];吉林大學(xué);2008年
6 郭增新;基于語(yǔ)義的文本聚類算法研究[D];西安電子科技大學(xué);2012年
7 高利波;文本聚類算法的研究及應(yīng)用[D];電子科技大學(xué);2013年
8 馬素琴;基于相似度的文本聚類算法研究及應(yīng)用[D];江蘇大學(xué);2010年
9 翟獻(xiàn)民;維吾爾語(yǔ)文本聚類算法研究[D];新疆大學(xué);2013年
10 馮曉云;基于云計(jì)算的文本聚類算法研究[D];南京理工大學(xué);2014年
本文關(guān)鍵詞:一種結(jié)合上下文語(yǔ)義的短文本聚類算法,由筆耕文化傳播整理發(fā)布。
本文編號(hào):443147
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/443147.html