非凸的魯棒主成分分析模型及其應(yīng)用
發(fā)布時(shí)間:2021-06-11 01:42
如何從含有異常值點(diǎn)或噪聲污染的部分觀測(cè)數(shù)據(jù)中有效地恢復(fù)出低秩部分,這一問(wèn)題的實(shí)現(xiàn)可以廣泛地應(yīng)用于現(xiàn)代社會(huì)生活中,包括機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘和圖像處理等各個(gè)領(lǐng)域。例如購(gòu)物網(wǎng)站的推薦系統(tǒng):需要針對(duì)不同用戶,為他們從海量的商品中正確推薦其感興趣的商品。在實(shí)際需求的推動(dòng)下,主成分分析(Principle Component Analysis,PCA)模型理論逐漸發(fā)展,是數(shù)據(jù)分析的主流方法之一,但該模型缺乏魯棒性,對(duì)非高斯噪聲或異常點(diǎn)尤為敏感,使得其無(wú)法滿足實(shí)際需求。為了克服這一缺陷,提出了魯棒性主成分分析(Robust Principle Component Analysis,RPCA)作為主成分分析的進(jìn)化模型成為研究的熱點(diǎn)問(wèn)題。相比經(jīng)典的PCA模型,RPCA模型不僅可以有效恢復(fù)出數(shù)據(jù)的低秩成分,也可以分解得到稀疏部分。Candes等人[14]提出利用l0范數(shù)和秩函數(shù)的凸包(即l1范數(shù)和核范數(shù))對(duì)RPCA模型進(jìn)行凸松弛,本文提出了一種新的非凸RPCA模型具有更好的性能,并給出了相應(yīng)的算法。論文的主要工作如下:首先提出了基于lp范數(shù)的魯棒主成分分析非凸模型(lp-RPCA)。針對(duì)RPCA模型進(jìn)行凸松...
【文章來(lái)源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1他(/7紅問(wèn)題[24】??A^(/7/jc問(wèn)題如圖2.丨所示,共有48萬(wàn)用戶對(duì)電影評(píng)分,電影共有1.8萬(wàn)部,每??
Q范數(shù)都是非凸非線性的函數(shù),非凸優(yōu)化模型(3.3)是NP難問(wèn)題,目??前還沒(méi)有有效的求解辦法,因此直接求解上述問(wèn)題是非常困難的。??為了有效求解上述問(wèn)題,Candh等人給出理論證明114],在一定條件下:當(dāng)心??的奇異值對(duì)應(yīng)向量滿足一些不相關(guān)條件,并且&足夠稀疏時(shí),可以對(duì)原始問(wèn)題進(jìn)??行凸松弛,有很大的概率可以求解下述凸優(yōu)化問(wèn)題而恢復(fù):??mm?||L||*?+?AH^IIi??s.t.?X?=?L?+?S.?(3.4)??灞??被污染觀測(cè)矩陣X?低秩矩陣L?稀疏誤差S??圖3.1?RPCA示意圖??即對(duì)矩陣的秩和范數(shù)分別用核范數(shù)和匕范數(shù)進(jìn)行凸松她,這里進(jìn)行這種凸優(yōu)??化是因?yàn)楹朔稊?shù)和丨1范數(shù)分別是秩和丨。范數(shù)的最優(yōu)凸近似,由下面參考文獻(xiàn)中兩個(gè)??定理得到:??定理矩陣的Zl范數(shù)是矩陣范數(shù)在單位球上的凸包絡(luò)。??定理3.2%在集合5?=?{xe/^xn|丨mi?d}上,矩陣的核范數(shù)II川U是矩陣秩函數(shù)??ran/c〇4)的凸包。??根據(jù)上述兩個(gè)引理,可以將問(wèn)題(3.3)進(jìn)行凸松弛為問(wèn)題(3.4),此時(shí)(3.4)是凸問(wèn)??題,即存在唯一的最小解(最優(yōu)解),在參考文獻(xiàn)[14]中,Candh等人將凸優(yōu)化問(wèn)題??(3.4)稱為主成分追蹤,這里的加權(quán)系數(shù)A,通過(guò)實(shí)驗(yàn)驗(yàn)證,當(dāng)取;1?=?lA/max(m,n)??時(shí)往往可以得到最優(yōu)結(jié)果。??12??
PCA模型??4.1。范數(shù)最小化問(wèn)題??4.1.1,口范數(shù)特點(diǎn)??由表1.1說(shuō)明了k范數(shù)的定義,矩陣的G范數(shù)和核范數(shù)分別是矩陣的/p范數(shù)和矩??陣奇異值向量的&范數(shù)當(dāng)p?=?1時(shí)的特殊情況。???■???———}?1|?????p=^.5f/?P=°-5???p=1?f?/?/?P=1??3?\??p=2?0?5?/?^?-----?p=2??\?y?/?/??:[\Z]???2-1012?-1?**0-5?0?0.5?1??X?x,??圖4.1?一維情況下丨p范數(shù)?圖4.2二維情況下Zp范數(shù)??從圖4.1、圖4.2上可以明顯看到,范數(shù)可以更好地連接M范數(shù)和卜范數(shù)之間??的間隔,因此矩陣的/p范數(shù)(〇<p<l)比卜范數(shù)更接近于&范數(shù),特別地,當(dāng)p?—?0??時(shí),/p范數(shù)就退化成了丨Q范數(shù)。進(jìn)而可以得到相關(guān)問(wèn)題更優(yōu)化的結(jié)果。同理得,當(dāng)對(duì)??矩陣的奇異值向量取/p范數(shù)時(shí),會(huì)比核范數(shù)更接近于秩函數(shù)。??原有魯棒主成分分析模型理論上是使用核范數(shù)來(lái)逼近矩陣的秩,使用^范數(shù)逼??近矩陣的 ̄范數(shù),分別約束矩陣的低秩性和稀疏性,矩陣的核范數(shù)和〗i范數(shù)分別是矩??陣的秩函數(shù)和/〇范數(shù)的凸包,因此這樣得到的模型為凸優(yōu)化問(wèn)題,雖然可以計(jì)算得??到該凸優(yōu)化問(wèn)題的最優(yōu)解,但并不是真實(shí)問(wèn)題的最優(yōu)解;另一方面,在RPCA凸近??似模型中采用的^范數(shù)不能表示噪聲的結(jié)構(gòu)化信息,也就沒(méi)有考慮到噪聲矩陣本身??的結(jié)構(gòu)信息,這些就導(dǎo)致傳統(tǒng)RPCA模型的效果不好。這也是為什么本文選擇?范??數(shù)對(duì)模型進(jìn)行改進(jìn)的原因。??16??
本文編號(hào):3223545
【文章來(lái)源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1他(/7紅問(wèn)題[24】??A^(/7/jc問(wèn)題如圖2.丨所示,共有48萬(wàn)用戶對(duì)電影評(píng)分,電影共有1.8萬(wàn)部,每??
Q范數(shù)都是非凸非線性的函數(shù),非凸優(yōu)化模型(3.3)是NP難問(wèn)題,目??前還沒(méi)有有效的求解辦法,因此直接求解上述問(wèn)題是非常困難的。??為了有效求解上述問(wèn)題,Candh等人給出理論證明114],在一定條件下:當(dāng)心??的奇異值對(duì)應(yīng)向量滿足一些不相關(guān)條件,并且&足夠稀疏時(shí),可以對(duì)原始問(wèn)題進(jìn)??行凸松弛,有很大的概率可以求解下述凸優(yōu)化問(wèn)題而恢復(fù):??mm?||L||*?+?AH^IIi??s.t.?X?=?L?+?S.?(3.4)??灞??被污染觀測(cè)矩陣X?低秩矩陣L?稀疏誤差S??圖3.1?RPCA示意圖??即對(duì)矩陣的秩和范數(shù)分別用核范數(shù)和匕范數(shù)進(jìn)行凸松她,這里進(jìn)行這種凸優(yōu)??化是因?yàn)楹朔稊?shù)和丨1范數(shù)分別是秩和丨。范數(shù)的最優(yōu)凸近似,由下面參考文獻(xiàn)中兩個(gè)??定理得到:??定理矩陣的Zl范數(shù)是矩陣范數(shù)在單位球上的凸包絡(luò)。??定理3.2%在集合5?=?{xe/^xn|丨mi?d}上,矩陣的核范數(shù)II川U是矩陣秩函數(shù)??ran/c〇4)的凸包。??根據(jù)上述兩個(gè)引理,可以將問(wèn)題(3.3)進(jìn)行凸松弛為問(wèn)題(3.4),此時(shí)(3.4)是凸問(wèn)??題,即存在唯一的最小解(最優(yōu)解),在參考文獻(xiàn)[14]中,Candh等人將凸優(yōu)化問(wèn)題??(3.4)稱為主成分追蹤,這里的加權(quán)系數(shù)A,通過(guò)實(shí)驗(yàn)驗(yàn)證,當(dāng)取;1?=?lA/max(m,n)??時(shí)往往可以得到最優(yōu)結(jié)果。??12??
PCA模型??4.1。范數(shù)最小化問(wèn)題??4.1.1,口范數(shù)特點(diǎn)??由表1.1說(shuō)明了k范數(shù)的定義,矩陣的G范數(shù)和核范數(shù)分別是矩陣的/p范數(shù)和矩??陣奇異值向量的&范數(shù)當(dāng)p?=?1時(shí)的特殊情況。???■???———}?1|?????p=^.5f/?P=°-5???p=1?f?/?/?P=1??3?\??p=2?0?5?/?^?-----?p=2??\?y?/?/??:[\Z]???2-1012?-1?**0-5?0?0.5?1??X?x,??圖4.1?一維情況下丨p范數(shù)?圖4.2二維情況下Zp范數(shù)??從圖4.1、圖4.2上可以明顯看到,范數(shù)可以更好地連接M范數(shù)和卜范數(shù)之間??的間隔,因此矩陣的/p范數(shù)(〇<p<l)比卜范數(shù)更接近于&范數(shù),特別地,當(dāng)p?—?0??時(shí),/p范數(shù)就退化成了丨Q范數(shù)。進(jìn)而可以得到相關(guān)問(wèn)題更優(yōu)化的結(jié)果。同理得,當(dāng)對(duì)??矩陣的奇異值向量取/p范數(shù)時(shí),會(huì)比核范數(shù)更接近于秩函數(shù)。??原有魯棒主成分分析模型理論上是使用核范數(shù)來(lái)逼近矩陣的秩,使用^范數(shù)逼??近矩陣的 ̄范數(shù),分別約束矩陣的低秩性和稀疏性,矩陣的核范數(shù)和〗i范數(shù)分別是矩??陣的秩函數(shù)和/〇范數(shù)的凸包,因此這樣得到的模型為凸優(yōu)化問(wèn)題,雖然可以計(jì)算得??到該凸優(yōu)化問(wèn)題的最優(yōu)解,但并不是真實(shí)問(wèn)題的最優(yōu)解;另一方面,在RPCA凸近??似模型中采用的^范數(shù)不能表示噪聲的結(jié)構(gòu)化信息,也就沒(méi)有考慮到噪聲矩陣本身??的結(jié)構(gòu)信息,這些就導(dǎo)致傳統(tǒng)RPCA模型的效果不好。這也是為什么本文選擇?范??數(shù)對(duì)模型進(jìn)行改進(jìn)的原因。??16??
本文編號(hào):3223545
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3223545.html
最近更新
教材專著