針對(duì)含有概念漂移問(wèn)題的增量學(xué)習(xí)算法研究
本文關(guān)鍵詞:針對(duì)含有概念漂移問(wèn)題的增量學(xué)習(xí)算法研究 出處:《中國(guó)科學(xué)技術(shù)大學(xué)》2017年博士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 增量學(xué)習(xí) 概念漂移 集成學(xué)習(xí) 在線學(xué)習(xí) 數(shù)據(jù)流挖掘 監(jiān)督學(xué)習(xí)
【摘要】:隨著大數(shù)據(jù)時(shí)代的到來(lái),大規(guī)模數(shù)據(jù)處理和學(xué)習(xí)成為了學(xué)術(shù)界研究的焦點(diǎn),也為工業(yè)界設(shè)計(jì)更優(yōu)質(zhì)的應(yīng)用和服務(wù)帶來(lái)可能。增量學(xué)習(xí)通過(guò)增量式地學(xué)習(xí)新數(shù)據(jù)、更新已有模型的方法實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的處理,也受到了研究領(lǐng)域的廣泛關(guān)注。然而,概念漂移,即數(shù)據(jù)聯(lián)合概率分布發(fā)生變化的現(xiàn)象,往往會(huì)嚴(yán)重影響增量學(xué)習(xí)的性能,給增量學(xué)習(xí)在真實(shí)學(xué)習(xí)任務(wù)中的應(yīng)用帶來(lái)了巨大的挑戰(zhàn)。為了處理增量學(xué)習(xí)中的概念漂移問(wèn)題,本文提出了兩個(gè)針對(duì)概念漂移問(wèn)題的增量學(xué)習(xí)算法,并設(shè)計(jì)一個(gè)并行化學(xué)習(xí)框架。主要工作包括:首先,為了使用增量學(xué)習(xí)中的歷史知識(shí)輔助概念漂移的處理,本文提出了一種基于差異性模型選擇和知識(shí)遷移的概念漂移處理方法(DTEL)。本工作假設(shè)在概念漂移的情況下,歷史數(shù)據(jù)中的知識(shí)和當(dāng)前知識(shí)間存在相關(guān)性。因此,可以通過(guò)知識(shí)遷移的方式,一方面提取出歷史數(shù)據(jù)訓(xùn)練所得模型(即歷史模型)中的有用知識(shí),另一方面去除其中和當(dāng)前數(shù)據(jù)分布不一致的知識(shí)。通過(guò)這種方式利用歷史知識(shí)輔助增量學(xué)習(xí)對(duì)概念漂移的處理。此外,由于存儲(chǔ)空間的限制,僅有限數(shù)量的歷史模型可以被算法所保存。對(duì)此,本工作提出一個(gè)基于差異性的模型選擇方法。通過(guò)維護(hù)差異性較大的一組歷史模型,為接下來(lái)的學(xué)習(xí)步提供盡可能多的知識(shí),以更大的可能性為知識(shí)遷移提供較好的起始解。為了驗(yàn)證本算法的有效性,本工作使用了多組人造數(shù)據(jù)和真實(shí)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),其中人造數(shù)據(jù)涵蓋了五種不同的概念漂移類型、真實(shí)數(shù)據(jù)涉及了四個(gè)不同的應(yīng)用領(lǐng)域。實(shí)驗(yàn)結(jié)果表明基于差異性模型選擇和知識(shí)遷移的方法能夠有效提升增量學(xué)習(xí)對(duì)于概念漂移的處理能力,且本算法在不同類型的概念漂移上均有較好的表現(xiàn)。其次,為了處理類演化類型概念漂移,本文提出了一種基于類的集成學(xué)習(xí)方法。類演化是一個(gè)特殊類型的概念漂移問(wèn)題,指在學(xué)習(xí)過(guò)程中類出現(xiàn)或消失的現(xiàn)象。不同于已有工作中突變式類演化的情況,為了處理真實(shí)應(yīng)用中的類演化問(wèn)題,本工作將類演化建模為一種逐漸變化的過(guò)程,并提出了一個(gè)基于類的集成學(xué)習(xí)算法(CBCE)。通過(guò)新建基模型和抑制基模型的使用來(lái)達(dá)到處理類演化類型概念漂移的目的?紤]到漸變式類演化導(dǎo)致的動(dòng)態(tài)類不平衡問(wèn)題,本工作提出一個(gè)動(dòng)態(tài)數(shù)據(jù)下采樣的方法,并應(yīng)用在各個(gè)基模型中。類演化類型概念漂移主要包括三種不同的基本元素,即類出現(xiàn)、類消失、以及消失類再次出現(xiàn)。本工作選用了人造數(shù)據(jù)和真實(shí)數(shù)據(jù)來(lái)表示各種的類演化場(chǎng)景,用以對(duì)基于類的集成學(xué)習(xí)算法進(jìn)行綜合的驗(yàn)證。實(shí)驗(yàn)使用兩個(gè)真實(shí)數(shù)據(jù)集對(duì)類演化問(wèn)題進(jìn)行模擬,使用社交網(wǎng)絡(luò)數(shù)據(jù)作為真實(shí)數(shù)據(jù)進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明本算法能夠有效的對(duì)類演化類型概念漂移進(jìn)行處理,且能有效處理漸變類演化帶來(lái)的數(shù)據(jù)中動(dòng)態(tài)類不平衡問(wèn)題。最后,為了將增量學(xué)習(xí)算法在大規(guī)模數(shù)據(jù)中進(jìn)行應(yīng)用,本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)針對(duì)概念漂移問(wèn)題的并行化增量集成學(xué)習(xí)實(shí)現(xiàn)方法,用于提高增量學(xué)習(xí)中集成學(xué)習(xí)模型的學(xué)習(xí)和使用效率。在工業(yè)界真實(shí)應(yīng)用中,大數(shù)據(jù)的學(xué)習(xí)中不僅要求算法具有較高的準(zhǔn)確率,而且應(yīng)該滿足高效執(zhí)行的要求,以適應(yīng)數(shù)據(jù)的快速增長(zhǎng)?刹⑿行允窃O(shè)計(jì)并行系統(tǒng)的基礎(chǔ)。在增量學(xué)習(xí)中,集成學(xué)習(xí)模型具有很明顯的可并行性。為了提升算法執(zhí)行的時(shí)間效率,本工作對(duì)概念漂移處理中的集成算法進(jìn)行分析歸納,總結(jié)出一個(gè)并行執(zhí)行實(shí)現(xiàn)方法,以輔助集成學(xué)習(xí)模型的并行化實(shí)現(xiàn)。此外,本工作對(duì)DTEL和CBCE算法在此集成學(xué)習(xí)并行實(shí)現(xiàn)方法中進(jìn)行實(shí)現(xiàn)并測(cè)試。測(cè)試結(jié)果表面并行實(shí)現(xiàn)后的DTEL算法和CBCE算法增量學(xué)習(xí)中具有較高的加速比,驗(yàn)證了此并行實(shí)現(xiàn)方法的有效性。
[Abstract]:This paper presents two incremental learning algorithms based on differential model selection and knowledge transfer . In order to deal with the concept drift problem in incremental learning , this paper proposes two incremental learning algorithms based on differential model selection and knowledge transfer . In the study of large data , not only the algorithm is required to have higher accuracy , but also to meet the requirements of high - efficiency execution to adapt to the rapid growth of data . In incremental learning , the integrated learning model has obvious parallelism . In order to improve the time - efficiency of the algorithm , this work implements and tests the integration algorithm in the concept drift processing . In addition , this work implements and tests the DTEL and CBCE algorithms in this integrated learning parallel implementation method .
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP181
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 楊靜;張健沛;劉大昕;;基于多支持向量機(jī)分類器的增量學(xué)習(xí)算法研究[J];哈爾濱工程大學(xué)學(xué)報(bào);2006年01期
2 秦玉平;王秀坤;王春立;;實(shí)現(xiàn)兼類樣本類增量學(xué)習(xí)的一種算法[J];控制與決策;2009年01期
3 秦玉平;王秀坤;王春立;;實(shí)現(xiàn)兼類樣本增量學(xué)習(xí)的一種算法[J];計(jì)算機(jī)應(yīng)用與軟件;2009年08期
4 秦玉平;陳一荻;王春立;王秀坤;;一種新的類增量學(xué)習(xí)方法[J];計(jì)算機(jī)工程與應(yīng)用;2011年34期
5 時(shí)建中;程龍生;;基于增量學(xué)習(xí)系統(tǒng)的財(cái)務(wù)危機(jī)動(dòng)態(tài)預(yù)警[J];技術(shù)經(jīng)濟(jì);2012年05期
6 王洪波;趙光宙;齊冬蓮;盧達(dá);;一類支持向量機(jī)的快速增量學(xué)習(xí)方法[J];浙江大學(xué)學(xué)報(bào)(工學(xué)版);2012年07期
7 秦玉平;倫淑嫻;王秀坤;;一種新的兼類樣本類增量學(xué)習(xí)算法[J];計(jì)算機(jī)科學(xué);2012年09期
8 姜卯生,王浩,姚宏亮;樸素貝葉斯分類器增量學(xué)習(xí)序列算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2004年14期
9 劉梅,權(quán)太范,姚天賓;基于增量學(xué)習(xí)神經(jīng)模糊網(wǎng)絡(luò)的機(jī)動(dòng)目標(biāo)跟蹤[J];電子學(xué)報(bào);2005年11期
10 李祥納;艾青;秦玉平;劉衛(wèi)江;;支持向量機(jī)增量學(xué)習(xí)算法綜述[J];渤海大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期
相關(guān)會(huì)議論文 前8條
1 秦亮;唐靜;史賢俊;肖支才;;一種改進(jìn)的支持向量機(jī)增量學(xué)習(xí)算法[A];2011年中國(guó)智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(第一分冊(cè))[C];2011年
2 羅長(zhǎng)升;段建國(guó);許洪波;郭莉;;基于拉推策略的文本分類增量學(xué)習(xí)研究[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
3 張慶彬;吳惕華;劉波;;一種改進(jìn)的基于群體的增量學(xué)習(xí)算法[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年
4 張健沛;李忠偉;楊靜;;一種基于多支持向量機(jī)的并行增量學(xué)習(xí)方法(英文)[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
5 王悅凱;吳曉峰;翁巨揚(yáng);;Where-What網(wǎng)絡(luò)增量學(xué)習(xí)特性探究[A];第一屆全國(guó)神經(jīng)動(dòng)力學(xué)學(xué)術(shù)會(huì)議程序手冊(cè) & 論文摘要集[C];2012年
6 趙瑩;萬(wàn)福永;;支持向量機(jī)的增量學(xué)習(xí)算法及其在多類分類問(wèn)題中的應(yīng)用[A];第25屆中國(guó)控制會(huì)議論文集(下冊(cè))[C];2006年
7 劉欣;章勇;王娟;;增量學(xué)習(xí)的TFIDF_NB協(xié)同訓(xùn)練分類算法[A];中國(guó)電子學(xué)會(huì)第十六屆信息論學(xué)術(shù)年會(huì)論文集[C];2009年
8 宮義山;錢娜;;貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)在線學(xué)習(xí)算法及應(yīng)用[A];科學(xué)發(fā)展與社會(huì)責(zé)任(A卷)——第五屆沈陽(yáng)科學(xué)學(xué)術(shù)年會(huì)文集[C];2008年
相關(guān)博士學(xué)位論文 前4條
1 孫宇;針對(duì)含有概念漂移問(wèn)題的增量學(xué)習(xí)算法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2017年
2 李敬;增量學(xué)習(xí)及其在圖像識(shí)別中的應(yīng)用[D];上海交通大學(xué);2008年
3 段華;支持向量機(jī)的增量學(xué)習(xí)算法研究[D];上海交通大學(xué);2008年
4 趙強(qiáng)利;基于選擇性集成的在線機(jī)器學(xué)習(xí)關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 郝運(yùn)河;基于增量學(xué)習(xí)的復(fù)雜環(huán)境下道路識(shí)別算法研究[D];南京理工大學(xué);2015年
2 李丹;基于馬氏超橢球?qū)W習(xí)機(jī)的增量學(xué)習(xí)算法研究[D];渤海大學(xué);2015年
3 趙翠翠;基于RBF神經(jīng)網(wǎng)絡(luò)的集成增量學(xué)習(xí)方法研究[D];河北工業(yè)大學(xué);2015年
4 王會(huì)波;基于支持向量機(jī)的混合增量學(xué)習(xí)算法與應(yīng)用[D];華中師范大學(xué);2016年
5 張健;增量學(xué)習(xí)在電子鼻智能烘烤系統(tǒng)中的應(yīng)用研究[D];重慶大學(xué);2016年
6 曾舒如;基于多模態(tài)增量學(xué)習(xí)模型的目標(biāo)物體檢測(cè)方法研究[D];南昌大學(xué);2016年
7 潘振春;基于實(shí)例的領(lǐng)域適應(yīng)增量學(xué)習(xí)方法研究[D];南京理工大學(xué);2017年
8 劉國(guó)欣;基于增量學(xué)習(xí)SVM分類算法的研究與應(yīng)用[D];中北大學(xué);2017年
9 杜玲;覆蓋算法的增量學(xué)習(xí)研究[D];安徽大學(xué);2010年
10 張智敏;基于增量學(xué)習(xí)的分類算法研究[D];華南理工大學(xué);2010年
,本文編號(hào):1377302
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1377302.html