有監(jiān)督智能聚類與分類技術(shù)及其應(yīng)用研究
發(fā)布時(shí)間:2018-04-03 18:16
本文選題:非充分?jǐn)?shù)據(jù) 切入點(diǎn):中心引力優(yōu)化 出處:《江南大學(xué)》2017年博士論文
【摘要】:近幾十年來(lái),機(jī)器學(xué)習(xí)技術(shù)在聚類、分類、回歸等多個(gè)知識(shí)工程領(lǐng)域取得了重大進(jìn)展。其中,聚類技術(shù)以及分類技術(shù)是目前機(jī)器學(xué)習(xí)中的兩個(gè)重要的研究課題,且被廣泛應(yīng)用于文本分類、語(yǔ)義分析、圖像識(shí)別等實(shí)際應(yīng)用場(chǎng)景中。然而,隨著多媒體技術(shù)的迅猛發(fā)展,越來(lái)越多的新興應(yīng)用場(chǎng)景近年來(lái)被相繼發(fā)掘出來(lái)。相對(duì)于傳統(tǒng)的應(yīng)用場(chǎng)景,對(duì)新興應(yīng)用場(chǎng)景分析的過(guò)程中往往存在著如下問(wèn)題:在生產(chǎn)過(guò)程中,數(shù)據(jù)的保密性較高或者高代價(jià)產(chǎn)業(yè)致使低產(chǎn)量等,導(dǎo)致收集到的數(shù)據(jù)樣本或已標(biāo)注數(shù)據(jù)樣本十分有限,這造成了可以使用的數(shù)據(jù)不足的場(chǎng)景經(jīng)常出現(xiàn)。經(jīng)典的聚類技術(shù)和分類技術(shù)在處理此類問(wèn)題時(shí),通常面臨如下挑戰(zhàn):由于可以使用的數(shù)據(jù)不足,這使得經(jīng)典的聚類技術(shù)以及分類技術(shù)在對(duì)此類數(shù)據(jù)進(jìn)行處理或?qū)W習(xí)建模時(shí)得到的模型往往泛化性能較差。因此,本文主要針對(duì)新興應(yīng)用場(chǎng)景中存在的非充分?jǐn)?shù)據(jù)或已標(biāo)注數(shù)據(jù)不足的問(wèn)題,對(duì)經(jīng)典的聚類技術(shù)以及分類技術(shù)進(jìn)行研究并改進(jìn),以期得到能夠解決上述問(wèn)題的智能有監(jiān)督聚類和智能分類方法。為了解決經(jīng)典的分類技術(shù)以及聚類技術(shù)在處理上述新興應(yīng)用場(chǎng)景中所面臨的問(wèn)題,本文主要從聚類和分類兩個(gè)方面對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行改進(jìn),以期得到更加智能的聚類方法和分類方法。具體如下:(1)第一部分為第2至第3章節(jié),主演探討了有監(jiān)督智能聚類技術(shù)及其應(yīng)用。首先,針對(duì)目前絕大多數(shù)聚類算法不僅需要事先設(shè)置一些需要用戶指定的參數(shù)(如聚類個(gè)數(shù))而且不能有效處理大規(guī)模數(shù)據(jù)的問(wèn)題,提出一種基于中心引力優(yōu)化(Central Force Optimization,CFO)的聚類算法。該算法通過(guò)基于CFO的引力運(yùn)動(dòng)學(xué)的角度來(lái)研究聚類問(wèn)題。區(qū)別于CFO全局同步的局限性,提出一種新的模擬局部同步想象的重力同步聚類算法(Gravitational Kinematics based Synchronizd Clustering,G-Sync)。并引入戴維森堡丁指數(shù)(Davies-Bouldin Index,DBI)實(shí)現(xiàn)G-Sync算法的完全自動(dòng)聚類。其后進(jìn)一步將快速核密度估計(jì)方法(Fast Kernel Density Estimation,FastKDE)引入到G-Sync算法中,進(jìn)而提出了一種具備處理大規(guī)模數(shù)據(jù)能力的大規(guī)模重力同步聚類算法(Scalable G-Sync,S-G-Sync)。其次,在第3章節(jié),針對(duì)應(yīng)用場(chǎng)景中數(shù)據(jù)匱乏導(dǎo)致的近鄰傳播(Affinity Propagation,AP)算法聚類性能下降的問(wèn)題,引入遷移學(xué)習(xí)機(jī)制來(lái)改善其在該場(chǎng)景下的聚類性能。在源域和目標(biāo)域分布相似的場(chǎng)景中,提出了遷移近鄰傳播聚類(Transfer Affinity Propagation,TAP)算法。TAP算法在改進(jìn)AP算法中的消息傳遞機(jī)制的基礎(chǔ)上綜合考慮了源域和目標(biāo)域數(shù)據(jù)的統(tǒng)計(jì)特性以及幾何特征,達(dá)到利用源域輔助目標(biāo)域?qū)W習(xí)的目的,并保證了遷移的有效性。通過(guò)TAP的因子圖可以發(fā)現(xiàn)TAP同樣以類似AP的消息傳遞機(jī)制完成聚類,并在聚類過(guò)程中利用源域數(shù)據(jù)進(jìn)行高效的知識(shí)遷移,從而在目標(biāo)域數(shù)據(jù)匱乏的場(chǎng)景下達(dá)到了較好的聚類結(jié)果。(2)第二部分為第4至第5章節(jié),主要探討了有監(jiān)督智能分類技術(shù)及其應(yīng)用。在第4章節(jié),首先回顧了傳統(tǒng)的半監(jiān)督學(xué)習(xí)方法通過(guò)利用大量的未標(biāo)注樣本和少量已標(biāo)注樣本來(lái)進(jìn)行模型構(gòu)建的策略。在利用未標(biāo)注數(shù)據(jù)樣本時(shí),傳統(tǒng)的半監(jiān)督學(xué)習(xí)方法通常是基于各種假設(shè)(如聚類假設(shè)、流型假設(shè))等。然而,在假設(shè)不成立時(shí),往往會(huì)導(dǎo)致傳統(tǒng)半監(jiān)督學(xué)習(xí)方法的分類性能下降。為了提高已標(biāo)注數(shù)據(jù)樣本不足情況下半監(jiān)督學(xué)習(xí)性能,避免傳統(tǒng)的半監(jiān)督學(xué)習(xí)基于各種假設(shè)導(dǎo)致的分類性能下降的問(wèn)題,提出了一種利用已標(biāo)注數(shù)據(jù)樣本和未標(biāo)注數(shù)據(jù)樣本之間的可靠隱特征信息來(lái)提高模型泛化能力的方法。所提方法通過(guò)引入正交投影矩陣將已標(biāo)注數(shù)據(jù)樣本和未標(biāo)注數(shù)據(jù)樣本同時(shí)投影到一個(gè)共享隱空間,并利用原始特征,隱特征和0向量組成新的增維特征。所提方法考慮了已標(biāo)注數(shù)據(jù)樣本和未標(biāo)注數(shù)據(jù)樣本之間的關(guān)聯(lián)性,使得分類器的泛化性能得到顯著提升。其次,在第5章節(jié),針對(duì)數(shù)據(jù)樣本不足(數(shù)據(jù)匱乏)情況下得到的分類模型泛化性能不高的問(wèn)題,提出一種基于分類誤差一致性準(zhǔn)則(Classification-error-based Consensus Regularization,CCR)的選擇性遷移分類學(xué)習(xí)方法(CSTL)。傳統(tǒng)的遷移學(xué)習(xí)方法通過(guò)利用事先準(zhǔn)備好的源域數(shù)據(jù)來(lái)輔助目標(biāo)域的學(xué)習(xí)。然而,在真實(shí)場(chǎng)景中,并非所有收集到的源域數(shù)據(jù)都和目標(biāo)域相關(guān),如若利用這些不相關(guān)的源域數(shù)據(jù)來(lái)輔助目標(biāo)域的學(xué)習(xí)則會(huì)導(dǎo)致負(fù)遷移學(xué)習(xí)。針對(duì)此問(wèn)題,通過(guò)保持源域分類誤差與目標(biāo)域分類誤差一致,提出了一種CCR準(zhǔn)則。在CCR準(zhǔn)則的基礎(chǔ)上,提出了一種選擇性遷移分類學(xué)習(xí)方法。CSTL可以通過(guò)快速留一法迅速有效地篩選出與目標(biāo)域相關(guān)的源域數(shù)據(jù)及其權(quán)重,有效避免了負(fù)遷移學(xué)習(xí)的發(fā)生。大量的實(shí)驗(yàn)表明,CSTL是一種有效的選擇性遷移學(xué)習(xí)方法。
[Abstract]:......
【學(xué)位授予單位】:江南大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP311.13;TP181
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 蔣亦樟;鄧趙紅;王駿;錢鵬江;王士同;;熵加權(quán)多視角協(xié)同劃分模糊聚類算法[J];軟件學(xué)報(bào);2014年10期
2 莊福振;羅平;何清;史忠植;;遷移學(xué)習(xí)研究進(jìn)展[J];軟件學(xué)報(bào);2015年01期
3 孟超;孫知信;;改進(jìn)型中心引力優(yōu)化CFO算法研究[J];電子學(xué)報(bào);2014年01期
,本文編號(hào):1706353
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1706353.html
最近更新
教材專著