余弦度量下的高維數(shù)據(jù)降維及分類方法研究
發(fā)布時間:2018-01-21 01:27
本文關(guān)鍵詞: 余弦度量 維數(shù)約簡 分類 數(shù)據(jù)流 人體運動 時間序列 出處:《大連理工大學(xué)》2015年博士論文 論文類型:學(xué)位論文
【摘要】:近些年,隨著數(shù)字化、多媒體等技術(shù)的迅速發(fā)展,促使機器學(xué)習(xí)領(lǐng)域飛速發(fā)展,其中,維數(shù)約簡、數(shù)據(jù)分類是兩個非常重要的課題。目前,在維數(shù)約簡、數(shù)據(jù)分類方法中,大多采用歐氏距離度量樣本間的相似性,少有其他度量方法的研究。隨著度量學(xué)習(xí)研究的深入,使得樣本間的相似性度量得到重視。本文主要研究余弦度量下的維數(shù)約簡和分類問題,并將其應(yīng)用到人體運動時間序列分析和數(shù)據(jù)流學(xué)習(xí)中。在對維數(shù)約簡算法及分類算法深入分析的基礎(chǔ)上,取得了如下創(chuàng)新性成果:(1)針對局部切空間排列算法無法學(xué)習(xí)局部高曲率數(shù)據(jù)集的問題,給出了描述數(shù)據(jù)集局部曲率的參數(shù)及局部的魯棒子空間。在非線性降維方面,提出一種局部最小偏差空間排列算法,該算法考慮到局部切空間低魯棒性的缺陷,在計算局部最小偏差空間的同時,能夠發(fā)現(xiàn)數(shù)據(jù)的局部高曲率現(xiàn)象,通過參數(shù)控制及鄰域間的連接信息,減少計算局部高曲率空間的可能,進而利用空間排列技術(shù)進行降維。進一步地,為了實現(xiàn)人體運動時間序列的分割,將最小偏差空間排列算法及局部曲率拓展為序列彎曲的流形學(xué)習(xí)方法,該方法根據(jù)序列數(shù)據(jù)的局部彎曲指標描述人體運動的連貫性,利用過渡片段數(shù)據(jù)局部彎曲較大的特點,尋找分割點。通過濾波技術(shù)及分段線性近似算法對局部彎曲指標數(shù)據(jù)進行處理,結(jié)合降維后的特征曲線,實現(xiàn)人體運動時間序列的分割。然而,非線性降維的應(yīng)用并不廣泛,相比之下,線性降維應(yīng)用前景較好。在線性降維方面,以往的許多提取局部樣本信息的全局線性算法的學(xué)習(xí)效果優(yōu)于主成分分析(Principal component analysis, PCA)等全局算法,但這些算法都沒有提取數(shù)據(jù)集局部的特征,導(dǎo)致局部樣本沒有得到徹底學(xué)習(xí)。在分析局部空間的基礎(chǔ)上,提出一種保留局部特征的全局線性流形學(xué)習(xí)算法——最大相似嵌入(Maximal similarity embedding, MSE),該算法通過余弦度量來反映數(shù)據(jù)的局部幾何特征,并通過整體的相似性的最大化達到降維的目的。最大相似嵌入能夠?qū)W習(xí)稀疏分布的流形,廣泛應(yīng)用于人臉識別等領(lǐng)域,并成功避免了小樣本問題。(2)通過線性判別分析及最大邊界準則算法深入分析了離散度對子空間選擇的影響,并給出了線性判別分析(Linear discriminant analysis, LDA)及最大邊際準則(Maximum margin criterion, MMC)離散度的界,以此說明不同情況下LDA與MMC在子空間選擇上的異同。同時分析了離群類對子空間選擇的影響。進一步地,根據(jù)上述分析,提出一種基于余弦度量的子空間選擇方法——角度線性判別嵌入(Angle linear discriminantembeded, ALDE),該方法利用角度余弦得到新的類內(nèi)及類間離散度矩陣,同時避免了小樣本問題。為了處理高維數(shù)據(jù),將ALDE拓展為兩步的ALDE算法。進一步地,在數(shù)據(jù)流學(xué)習(xí)中,由于數(shù)據(jù)流存在概念漂移現(xiàn)象,使得傳統(tǒng)的機器學(xué)習(xí)方法不再適用。同時,數(shù)據(jù)流要求實時學(xué)習(xí),很多概念漂移檢測方法難以滿足實時性。為了解決該問題,提出一種基于魯棒子空間學(xué)習(xí)的數(shù)據(jù)流學(xué)習(xí)框架,該方法改進了經(jīng)典的線性判別分析算法,不僅可以快速檢測數(shù)據(jù)流的概念漂移,而且能夠?qū)崟r的對數(shù)據(jù)流進行分類。(3)分析了一種基于模型的分類算法一一極端學(xué)習(xí)機(Extreme learning machine, ELM)。ELM訓(xùn)練速度快,分類率高,已經(jīng)廣泛應(yīng)用于模式識別、數(shù)據(jù)挖掘等實際問題中,并取得了較好的效果。但實際問題中數(shù)據(jù)分布往往不規(guī)則,并含有離群點,降低了ELM算法(核ELM)的分類率。這主要是由于:①激活函數(shù)及核函數(shù)選取不當以及離群點造成的過擬合現(xiàn)象;②帶標記的樣本太少,沒有充分利用無標記的數(shù)據(jù)。針對第一個問題,深入分析不同激活函數(shù)的性質(zhì),提出一種魯棒激活函數(shù)(Robust activation function, RAF),該激活函數(shù)可盡量避免激活函數(shù)的輸出值趨于零,同時避免離群點對算法的影響,提升ELM算法(核ELM)的性能;同時,RAF還可用于其它的核方法及神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中。針對第二個問題,本文提出一種拓展的半監(jiān)督ELM算法。進一步地,在半監(jiān)督ELM基礎(chǔ)上,提出了半監(jiān)督的核ELM (SK-ELM)算法,使其能夠處理非線性數(shù)據(jù)。
[Abstract]:In recent years , with the rapid development of digital , multimedia and other technologies , it has made rapid progress in the field of machine learning . In order to deal with the problem , this paper proposes a new method of subspace selection based on cosine measure , which improves the classical linear discriminant analysis algorithm , which improves the classical linear discriminant analysis algorithm , and can classify the data stream in real time . The ELM training speed is fast and the classification rate is high . It has been widely used in pattern recognition , data mining and so on .
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TP181
,
本文編號:1450037
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1450037.html
最近更新
教材專著