樣本均值非零假定下基于Oja算法的在線PCA研究
發(fā)布時間:2020-06-25 02:16
【摘要】:主成分分析(Principal Component Analysis,簡稱PCA)是一種常見的數(shù)據(jù)降維工具,在工業(yè)、生物、金融以及社會發(fā)展等各個領域都有廣泛的應用.其旨在將多個變量轉化為保留大部分信息的少數(shù)幾個不相關的綜合變量,從而以最小的信息損失達到降維的目的.這些綜合變量被稱為主成分,它們是原始變量的線性組合.隨著大數(shù)據(jù)時代的到來,規(guī)模龐大的動態(tài)數(shù)據(jù)使得基于經(jīng)驗協(xié)方差矩陣的傳統(tǒng)PCA失效.在這一信息化大背景下,考慮PCA的在線形式具有重要的理論意義與應用價值.該在線形式指的是(i)數(shù)據(jù)作為序列逐個被接收,且只有一小部分數(shù)據(jù)能夠被存儲;(ii)當有新數(shù)據(jù)流入時,必須對當前輸出結果進行實時更新修正.解決這一在線問題的方法種類多樣,其中,最為簡單和經(jīng)典的是Oja于1982年提出的隨機梯度算法.近年來,國內(nèi)外學者圍繞著對Oja算法進行改進,或者對其進行理論分析這兩方面做了大量工作.在Oja算法中,樣本被假定為取自某個均值為零、協(xié)方差未知的分布.然而,在實際應用中,樣本均值為零這一假定過于嚴格.并且,在樣本均值未知情形下的相關研究非常匱乏.本碩士學位論文基于Oja算法,在樣本取自某個均值非零的分布這一自然假定下,從以下三個方面對在線主成分分析問題進行了研究:(1)在算法方面,通過在原Oja算法中加入遞歸中心化處理,本文采用了適用于樣本均值未知情形的修改版Oja算法.考慮可利用的樣本先驗知識有限,本文選取了最基本的自然平均值用于每步迭代所需的中心化處理.(2)在理論方面,基于學者Jain對原Oja算法的分析框架,先將主迭代表為作用于初始點的一個算子.由于中心化項的存在,本文算法的每步迭代之間不再相互獨立,這使得對其進行收斂性分析變得十分困難.對此,本文提出了一種“拆分”策略,根據(jù)是否包含中心化項,將主迭代步分為兩部分獨立分析,成功克服了迭代步間的相關性障礙.進一步地,借助于多維中心極限定理和集中不等式,本文用嚴格并且完整的證明推導出了非零樣本均值版Oja算法的收斂速度.另外,對于Oja算法的表現(xiàn)依賴于對步長調(diào)參這一問題,本文提供了一種步長選取方式可作為理論參考依據(jù).(3)在實驗方面,本文通過Matlab分別對仿真數(shù)據(jù)和真實數(shù)據(jù)進行了數(shù)值實驗,實驗結果既表明了算法的有效性,又證實了理論部分的正確性.另外,仿真實驗中還加入了另一種樣本中心作為對比.其結果說明了本文所選擇的中心化方式的合理性.
【學位授予單位】:上海大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:C81
【圖文】:
圖2.1:投影計算示例.逡逑
圖邋2.2:含噪數(shù)據(jù)(Noisy邋Data)[49].逡逑?去冗余逡逑數(shù)據(jù)冗余(Redundancy)即指數(shù)據(jù)重復,圖2.3為從三個不同角度觀測_一組三維逡逑數(shù)據(jù)得到的二維數(shù)據(jù)圖.可以發(fā)現(xiàn),圖2.3(a)中數(shù)據(jù)的冗余度非常低,因為我們無逡逑法根據(jù)某個維度推測出另一個維度的信息;相反,圖2.3(c)中數(shù)據(jù)的冗余度很高,逡逑從而表明變f埓視瀉芮康南喙匭裕校茫了齙木褪墻哂邢喙匭緣畝喔霰淞垮義獻晃偈父霾幌喙氐淖酆媳淞,因唇z紗锏健叭ト哂唷鋇哪康模義希玻吃諳咧鞒煞址治鰣義顯凇靶畔⒈ā鋇拇蟊塵跋攏孀趴蒲Ъ際醯牟歡轄劍綰未碓諳呶侍饣蛘咤義纖等綰畏⒄乖諳咚惴ㄕ找娉晌甘芄刈⒌慕溝悖義希玻常被靖拍鑠義?.灾O咚悖ǎǎ希睿歟椋睿邋澹粒歟紓錚潁椋簦瑁恚╁義顯詡撲慊蒲е校蕖鱸諳咚惴ǎ郟常眩藎脖懷莆魘綎鴟ǎǎ櫻簦潁澹幔恚椋睿玨澹粒歟紓錚潁椋簦瑁恚,指辶x系氖且允萘韉男問醬硎蕕囊煥嗨惴ǎ嚀宓廝擔詿死嗨惴ㄖ,数辶x暇菀孕蛄械男問攪魅
本文編號:2728712
【學位授予單位】:上海大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:C81
【圖文】:
圖2.1:投影計算示例.逡逑
圖邋2.2:含噪數(shù)據(jù)(Noisy邋Data)[49].逡逑?去冗余逡逑數(shù)據(jù)冗余(Redundancy)即指數(shù)據(jù)重復,圖2.3為從三個不同角度觀測_一組三維逡逑數(shù)據(jù)得到的二維數(shù)據(jù)圖.可以發(fā)現(xiàn),圖2.3(a)中數(shù)據(jù)的冗余度非常低,因為我們無逡逑法根據(jù)某個維度推測出另一個維度的信息;相反,圖2.3(c)中數(shù)據(jù)的冗余度很高,逡逑從而表明變f埓視瀉芮康南喙匭裕校茫了齙木褪墻哂邢喙匭緣畝喔霰淞垮義獻晃偈父霾幌喙氐淖酆媳淞,因唇z紗锏健叭ト哂唷鋇哪康模義希玻吃諳咧鞒煞址治鰣義顯凇靶畔⒈ā鋇拇蟊塵跋攏孀趴蒲Ъ際醯牟歡轄劍綰未碓諳呶侍饣蛘咤義纖等綰畏⒄乖諳咚惴ㄕ找娉晌甘芄刈⒌慕溝悖義希玻常被靖拍鑠義?.灾O咚悖ǎǎ希睿歟椋睿邋澹粒歟紓錚潁椋簦瑁恚╁義顯詡撲慊蒲е校蕖鱸諳咚惴ǎ郟常眩藎脖懷莆魘綎鴟ǎǎ櫻簦潁澹幔恚椋睿玨澹粒歟紓錚潁椋簦瑁恚,指辶x系氖且允萘韉男問醬硎蕕囊煥嗨惴ǎ嚀宓廝擔詿死嗨惴ㄖ,数辶x暇菀孕蛄械男問攪魅
本文編號:2728712
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/2728712.html
最近更新
教材專著