抑制背景噪聲的LDA子話題挖掘算法
本文選題:子話題挖掘 + 線性判別分析。 參考:《華南理工大學(xué)學(xué)報(自然科學(xué)版)》2017年03期
【摘要】:專題文章集合是一些擁有相似背景知識的文章集合.為了更好地從專題文章集合內(nèi)部的復(fù)雜信息關(guān)聯(lián)中高效挖掘子話題信息,文中提出了抑制背景噪聲的線性判別分析(LDA)子話題挖掘算法BLDA,通過預(yù)先抽取專題文檔集合的共同背景知識、在迭代過程中重設(shè)關(guān)鍵詞的產(chǎn)生等方式提高子話題抽取的準(zhǔn)確程度.在微信公眾賬號文章上的系列實驗證明,BLDA算法針對有共同背景的專題文章集合的聚類結(jié)果顯著優(yōu)于傳統(tǒng)的LDA算法,其中主題召回率提高了170%,Purity聚類指標(biāo)提高了143%,NMI聚類指標(biāo)提高了160%.
[Abstract]:A collection of feature articles is a collection of articles with similar background knowledge. In order to effectively mine sub-topic information from the complex information association within the collection of feature articles, In this paper, a linear discriminant analysis (LDA-LDA) subtopic mining algorithm for background noise suppression is proposed. By extracting the common background knowledge of the thematic document set in advance, the accuracy of subtopic extraction can be improved by re-setting the keywords in the iterative process. A series of experiments on WeChat's public accounts show that the clustering results of BDA algorithm for feature articles with common background are significantly better than that of traditional LDA algorithm, in which the recall rate of theme increases by 170% and Purity clustering index increases by 1 43% and 160%.
【作者單位】: 中國科學(xué)院計算技術(shù)研究所∥中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點實驗室;國家計算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心;
【基金】:國家自然科學(xué)基金資助項目(61303244,61572473,61572469,61402442,61402022,61370132) 國家242信息安全計劃項目(2015F114)~~
【分類號】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳曉紅;陳松燦;;類依賴的線性判別分析[J];小型微型計算機(jī)系統(tǒng);2008年05期
2 劉忠寶;王士同;;改進(jìn)的線性判別分析算法[J];計算機(jī)應(yīng)用;2011年01期
3 高建強(qiáng);范麗亞;;模糊線性判別分析中距離對面部識別的影響[J];井岡山大學(xué)學(xué)報(自然科學(xué)版);2012年03期
4 葛熠;王亭亭;韓月;李峰;;基于核雙子空間線性判別分析人臉識別方法[J];科技視界;2012年23期
5 任獲榮;李春曉;孫建維;秦紅波;何培培;高敏;;類依賴增強(qiáng)線性判別分析算法[J];西安電子科技大學(xué)學(xué)報;2012年05期
6 溫鳳文;王洪春;;改進(jìn)的張量線性判別分析[J];黑龍江科技信息;2013年24期
7 趙越;徐鑫;喬利強(qiáng);;張量線性判別分析算法研究[J];計算機(jī)技術(shù)與發(fā)展;2014年01期
8 趙芳;馬玉磊;;基于概率線性判別分析的可擴(kuò)展似然公式化人臉識別[J];科學(xué)技術(shù)與工程;2014年06期
9 周大可,楊新,彭寧嵩;改進(jìn)的線性判別分析算法及其在人臉識別中的應(yīng)用[J];上海交通大學(xué)學(xué)報;2005年04期
10 成忠;諸愛士;;一種適于高維小樣本數(shù)據(jù)的線性判別分析方法[J];浙江科技學(xué)院學(xué)報;2008年02期
相關(guān)博士學(xué)位論文 前2條
1 任忠國;基于γ特征譜的對象相似性識別技術(shù)研究[D];蘭州大學(xué);2015年
2 劉忠寶;基于核的降維和分類方法及其應(yīng)用研究[D];江南大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 王金貝;基于奇異值分解的不相關(guān)線性判別分析的通解與性質(zhì)[D];鄭州大學(xué);2015年
2 孔昭陽;基于GPU的并行線性判別分析算法研究[D];哈爾濱工業(yè)大學(xué);2014年
3 張晶;非歐框架下的線性判別分析[D];遼寧師范大學(xué);2015年
4 喬娜娜;基于生物光子學(xué)小麥隱蔽性害蟲檢測機(jī)理及分類研究[D];河南工業(yè)大學(xué);2016年
5 杜輝;基于二維圖像的人臉識別研究[D];江蘇大學(xué);2016年
6 劉超;非迭代三維線性判別分析及其在人臉識別中的應(yīng)用[D];云南財經(jīng)大學(xué);2016年
7 霍中花;非重疊監(jiān)控場景下行人再識別關(guān)鍵技術(shù)研究[D];江南大學(xué);2016年
8 苗碩;基于L2,,1范數(shù)和L1范數(shù)的魯棒判別特征提取算法研究[D];西安電子科技大學(xué);2015年
9 李衛(wèi)平;判別準(zhǔn)則優(yōu)化的LDA研究[D];浙江大學(xué);2017年
10 李道紅;線性判別分析新方法研究及其應(yīng)用[D];南京航空航天大學(xué);2005年
本文編號:1799012
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1799012.html