基于詞條與語意差異度量的文檔聚類算法
本文關(guān)鍵詞:基于詞條與語意差異度量的文檔聚類算法
更多相關(guān)文章: 文檔聚類 語意分析 貪婪算法 收斂性 可解釋性
【摘要】:已有的文本聚類算法大多基于一般的相似性度量而忽略了語義內(nèi)容,對此提出一種基于最大化文本判別信息的文本聚類算法。首先,分別分析詞條對其類簇與其他類簇的判別信息,并且將數(shù)據(jù)集從輸入空間轉(zhuǎn)換至差異分?jǐn)?shù)矩陣空間;然后,設(shè)計(jì)了一個貪婪算法來篩選矩陣每行的低分?jǐn)?shù)詞條;最終,采用最大似然估計(jì)對文本差別信息進(jìn)行平滑處理。仿真實(shí)驗(yàn)結(jié)果表明,所提方法的文檔聚類質(zhì)量優(yōu)于其他分層與單層聚類算法,并且具有較好的可解釋性與收斂性。
【作者單位】: 甘肅農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院;南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院;南京大學(xué)信息管理學(xué)院;
【基金】:國家自然科學(xué)基金項(xiàng)目(034031122,61063028) 江蘇省自然科學(xué)基金青年基金(BK20150784) 中國博士后面上資助(2015M581800) 甘肅省科技支撐計(jì)劃項(xiàng)目(1604WKCA011) 隴原青年創(chuàng)新創(chuàng)業(yè)人才項(xiàng)目(2016-47)資助
【分類號】:TP391.1
【正文快照】: 到稿日期:2016-03-03返修日期:2016-03-23本文受國家自然科學(xué)基金項(xiàng)目(034031122,61063028),江蘇省自然科學(xué)基金青年基金(BK20150784),中國博士后面上資助(2015M581800),甘肅省科技支撐計(jì)劃項(xiàng)目(1604WKCA011),隴原青年創(chuàng)新創(chuàng)業(yè)人才項(xiàng)目(2016-47)資助。1引言隨著互聯(lián)網(wǎng)的蓬勃發(fā)
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉遠(yuǎn)超;王曉龍;徐志明;關(guān)毅;;文檔聚類綜述[J];中文信息學(xué)報;2006年03期
2 王李冬;魏寶剛;袁杰;;基于概率主題模型的文檔聚類[J];電子學(xué)報;2012年11期
3 王升明,李淼;一種基于改進(jìn)的自組織特征映射網(wǎng)絡(luò)的文檔聚類方法[J];計(jì)算機(jī)工程與應(yīng)用;2005年03期
4 孫永林;劉仲;;基于動態(tài)區(qū)間映射的文檔聚類算法[J];計(jì)算機(jī)科學(xué);2010年06期
5 孫霞;張玉生;;基于模式元素的文檔聚類方法研究[J];常熟理工學(xué)院學(xué)報;2012年08期
6 宋江春,沈鈞毅,宋擒豹;一個基于關(guān)聯(lián)規(guī)則的多層文檔聚類算法[J];計(jì)算機(jī)應(yīng)用;2005年07期
7 趙衛(wèi)中;馬慧芳;李志清;史忠植;;一種結(jié)合主動學(xué)習(xí)的半監(jiān)督文檔聚類算法[J];軟件學(xué)報;2012年06期
8 吳景嵐,劉燕,朱文興;一個K-均值文檔聚類的改進(jìn)算法[J];閩江學(xué)院學(xué)報;2004年02期
9 徐建民;成岳鵬;辛麗軍;;一種基于術(shù)語簇和關(guān)聯(lián)規(guī)則的文檔聚類方法[J];計(jì)算機(jī)工程與應(yīng)用;2007年05期
10 陶惠;張妍;郝光權(quán);;基于向量空間的文檔聚類算法分析[J];電腦知識與技術(shù);2011年20期
中國重要會議論文全文數(shù)據(jù)庫 前9條
1 唐國瑜;夏云慶;張民;鄭方;;基于跨語言廣義向量空間模型的跨語言文檔聚類方法[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
2 周水庚;孫敬宇;胡運(yùn)發(fā);;一種文檔聚類新方法[A];第十六屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集[C];1999年
3 劉眾奇;袁曉潔;張海威;楊娜;王敏輝;;閾值區(qū)間:一種基于XCLS和XCLSE的改進(jìn)方案[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年
4 原福永;楊治秋;王海霞;;一種基于向量空間模型的文檔聚類算法研究[A];第十二屆全國信號處理學(xué)術(shù)年會(CCSP-2005)論文集[C];2005年
5 王曉宇;錢衛(wèi)寧;張龍;周傲英;;XML DTD文檔聚類研究[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2001年
6 伍賽;楊冬青;韓近強(qiáng);張銘;王文清;馮英;;WCM:一種基于單詞相關(guān)度的文檔聚類新方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
7 李文波;孫樂;;在查詢反饋中改善文檔聚類效果的策略研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
8 劉振鹿;王大玲;馮時;張一飛;方東昊;;一種基于LDA的潛在語義區(qū)劃分及Web文檔聚類算法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
9 汪洋;張磊;章毅;;基于短語匹配的中文Web文檔聚類算法[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 楊劍鋒;適合并行的無干預(yù)文檔聚類算法研究[D];武漢大學(xué);2010年
2 劉銘;大規(guī)模文檔聚類中若干關(guān)鍵問題的研究[D];哈爾濱工業(yè)大學(xué);2010年
3 楊瑞龍;基于短語特征的Web文檔聚類方法研究[D];重慶大學(xué);2010年
4 丁鐵楠;XML文檔聚類及其評估問題研究[D];吉林大學(xué);2015年
5 周,
本文編號:1141728
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1141728.html