基于聚類假設的數(shù)據(jù)流分類算法
本文選題:概念漂移 切入點:數(shù)據(jù)流 出處:《模式識別與人工智能》2017年01期 論文類型:期刊論文
【摘要】:獲取數(shù)據(jù)流上樣本的真實類別的代價很高,因此標記所有樣本的方式缺乏實用性,而隨機標記部分樣本又會導致模型的不穩(wěn)定.針對上述問題,文中提出基于聚類假設的數(shù)據(jù)流分類算法.基于通過聚類算法分到同類中的樣本可能具有相同類別這一聚類假設,利用訓練數(shù)據(jù)集上的聚類結果擬合樣本的分布情況,在分類階段有目的性地選取很難分類或潛在概念漂移的樣本更新模型.為了訓練數(shù)據(jù)集上每個類別的樣本,建立各自對應的基礎分類器,當數(shù)據(jù)流中樣本的類別消失或重現(xiàn)時,只需要凍結或激活與之對應的基礎分類器,而無需再重新學習之前已經(jīng)掌握的知識.實驗表明,文中算法能夠在適應概念漂移的前提下,減少更新模型需要的樣本數(shù)量,并且取得和當前數(shù)據(jù)流上的分類算法相當或更好的分類效果.
[Abstract]:The cost of obtaining the true categories of samples on a data stream is very high, so the way all samples are labeled is not practical, and random marking of parts of samples can lead to instability of the model. In this paper, a data stream classification algorithm based on clustering hypothesis is proposed. Based on the clustering assumption that the samples in the same class may have the same class, the clustering results on the training data set are used to fit the distribution of the samples. In order to train the samples of each category in the data set, a corresponding basic classifier is established, when the class of the sample in the data stream disappears or reappears. It is only necessary to freeze or activate the corresponding basic classifier without relearning the previous knowledge. Experiments show that the proposed algorithm can reduce the number of samples needed to update the model on the premise of adapting to the drift of the concept. And the classification algorithm is comparable to or better than the current classification algorithm on the data stream.
【作者單位】: 福建農(nóng)林大學計算機與信息學院;
【基金】:福建省自然科學基金項目(No.2016J01280)資助~~
【分類號】:TP311.13
【參考文獻】
相關期刊論文 前6條
1 Omid ABBASZADEH;Ali AMIRI;Ali Reza KHANTEYMOORI;;An ensemble method for data stream classification in the presence of concept drift[J];Frontiers of Information Technology & Electronic Engineering;2015年12期
2 郭躬德;李南;陳黎飛;;一種基于混合模型的數(shù)據(jù)流概念漂移檢測算法[J];計算機研究與發(fā)展;2014年04期
3 李南;郭躬德;陳黎飛;;基于少量類標簽的概念漂移檢測算法[J];計算機應用;2012年08期
4 徐文華;覃征;常揚;;基于半監(jiān)督學習的數(shù)據(jù)流集成分類算法[J];模式識別與人工智能;2012年02期
5 陳黎飛;郭躬德;;最近鄰分類的多代表點學習算法[J];模式識別與人工智能;2011年06期
6 辛軼;郭躬德;陳黎飛;畢亞新;;IKnnM-DHecoc:一種解決概念漂移問題的方法[J];計算機研究與發(fā)展;2011年04期
【共引文獻】
相關期刊論文 前10條
1 劉三民;劉濤;王忠群;修宇;劉余霞;孟超;;融合分類器可信度的數(shù)據(jù)流集成分類[J];應用科學學報;2017年02期
2 李南;;基于聚類假設的數(shù)據(jù)流分類算法[J];模式識別與人工智能;2017年01期
3 李南;;低代價的數(shù)據(jù)流分類算法[J];計算機系統(tǒng)應用;2016年12期
4 鄧大勇;苗奪謙;黃厚寬;;信息表中概念漂移與不確定性分析[J];計算機研究與發(fā)展;2016年11期
5 王中心;孫剛;王浩;;面向不完全標記數(shù)據(jù)流的集成分類算法[J];阜陽師范學院學報(自然科學版);2016年03期
6 王倫文;馮彥卿;張鈴;;動態(tài)數(shù)據(jù)挖掘的構造性學習方法綜述[J];小型微型計算機系統(tǒng);2016年09期
7 文益民;唐詩淇;馮超;高凱;;基于在線遷移學習的重現(xiàn)概念漂移數(shù)據(jù)流分類[J];計算機研究與發(fā)展;2016年08期
8 張任;;基于模糊并行約簡的模糊概念漂移探測[J];微型機與應用;2016年12期
9 劉志鵬;張國毅;;一種新的雷達信號實時分選方法[J];航天電子對抗;2016年02期
10 馮超;文益民;湯凌冰;;基于主要特征抽取的重現(xiàn)概念漂移處理算法[J];數(shù)據(jù)采集與處理;2016年02期
【二級參考文獻】
相關期刊論文 前10條
1 李南;郭躬德;;面向高速數(shù)據(jù)流的集成分類器算法[J];計算機應用;2012年03期
2 桂林;張玉紅;胡學鋼;;一種基于混合集成方法的數(shù)據(jù)流概念漂移檢測方法[J];計算機科學;2012年01期
3 李南;郭躬德;;基于子空間集成的概念漂移數(shù)據(jù)流分類算法[J];計算機系統(tǒng)應用;2011年12期
4 陳黎飛;郭躬德;;最近鄰分類的多代表點學習算法[J];模式識別與人工智能;2011年06期
5 張健飛;陳黎飛;郭躬德;李南;;多代表點的子空間分類算法[J];計算機科學與探索;2011年11期
6 ;Clustering feature decision trees for semi-supervised classification from high-speed data streams[J];Journal of Zhejiang University-Science C(Computers & Electronics);2011年08期
7 辛軼;郭躬德;陳黎飛;畢亞新;;IKnnM-DHecoc:一種解決概念漂移問題的方法[J];計算機研究與發(fā)展;2011年04期
8 李燕;張玉紅;胡學鋼;;基于C4.5和NB混合模型的數(shù)據(jù)流分類算法[J];計算機科學;2010年12期
9 郭躬德;黃杰;陳黎飛;;基于KNN模型的增量學習算法[J];模式識別與人工智能;2010年05期
10 歐陽震諍;羅建書;胡東敏;吳泉源;;一種不平衡數(shù)據(jù)流集成分類模型[J];電子學報;2010年01期
【相似文獻】
相關期刊論文 前10條
1 趙月愛;陳俊杰;;重抽樣方法FHNN及其在入侵檢測中的應用[J];計算機工程與應用;2011年22期
2 裴楊;王勇;陶曉玲;李平紅;;基于SVM的并行網(wǎng)絡流量分類方法[J];計算機工程與設計;2013年08期
3 譚三;劉寧;;基于閾值聚類和KNN分類的入侵檢測[J];鄭州大學學報(理學版);2010年01期
4 王令劍;滕少華;;聚類和時間序列分析在入侵檢測中的應用[J];計算機應用;2010年03期
5 丁俊松;楊和梅;陳敏雅;;入侵檢測中的OCSVM方法綜述[J];計算機與現(xiàn)代化;2007年03期
6 奚斌;周國棟;錢龍華;潘s,
本文編號:1587878
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1587878.html