面向大規(guī)模數(shù)據(jù)分析與分類的正則化回歸算法
本文選題:數(shù)據(jù)降維 切入點(diǎn):稀疏表示 出處:《安徽大學(xué)》2017年博士論文
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展及數(shù)據(jù)收集成本的不斷降低,大數(shù)據(jù)時代已經(jīng)來臨。大規(guī)模數(shù)據(jù)分析是指對規(guī)模巨大的數(shù)據(jù)進(jìn)行分析,從中獲得有利于對個體或者群組進(jìn)行辨識的對象,大規(guī)模數(shù)據(jù)分析技術(shù)的社會及市場需求也變得十分緊迫。降維是對數(shù)據(jù)預(yù)處理及進(jìn)一步分析的有效方式,通常采用變量選擇或者函數(shù)變換等途徑來描述關(guān)鍵的數(shù)據(jù)結(jié)構(gòu)(如局部性,判別性等等),因而在回歸分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和模式識別等領(lǐng)域占據(jù)著十分重要的地位。數(shù)據(jù)降維往往能夠提供對數(shù)據(jù)更加本質(zhì)和深刻的理解,因而廣泛用于特征匹配、模型解釋、數(shù)據(jù)表示等。在過去二十年中,回歸方法因模型直觀和理論豐富等特點(diǎn)受到了廣泛的關(guān)注,分片逆回歸(SIR)由于它在降維方面的有效性也吸引了很多研究者。然而,SIR的兩個缺點(diǎn)限制了它進(jìn)一步的應(yīng)用。第一,在高維數(shù)情況下SIR的計算復(fù)雜度較高。第二,在改進(jìn)特征選擇和模型解釋能力方面,投影子空間的稀疏性沒有很好的挖掘出來。另一方面,怎樣從足夠的輔助數(shù)據(jù)集中挖掘判別信息,去改進(jìn)機(jī)器智能系統(tǒng)的理解和分析能力,在大數(shù)據(jù)時代是一個更加值得深入研究的課題。并且它有非常廣泛的應(yīng)用空間,包括圖像分類、視頻檢索、金融數(shù)據(jù)聚類或預(yù)測。在圖像識別方面,比如,圖像分辨率的差異容易導(dǎo)致訓(xùn)練集與測試集的數(shù)據(jù)特征有較大的差異,為直接數(shù)據(jù)降維(如主成分分析)帶來了性能上的困難;同一個對象在不同尺度或者不同視角下的觀測結(jié)果,往往能夠提供優(yōu)勢互補(bǔ)的數(shù)據(jù)描述。領(lǐng)域自適應(yīng)的任務(wù)是提取每個領(lǐng)域的判別特征并且同時提高目標(biāo)域的分類性質(zhì)。遷移學(xué)習(xí)的方法提供了一些可能的方法來解決上面提到的問題。用目標(biāo)域中非常少的有標(biāo)簽的數(shù)據(jù)并同時借助于源域中大量的有標(biāo)簽的數(shù)據(jù)去學(xué)習(xí)領(lǐng)域自適應(yīng),期望用遷移源域中的判別信息去提高目標(biāo)域的分類特性。本文主要針對上述兩個分面,從算法角度推出新的模型及數(shù)值解。本文第二章提出在譜空間里計算SIR的投影向量,從而以更快的速度得到一個近似的回歸解。此外,自適應(yīng)的lasso獲得一個稀疏的全局最優(yōu)解,這在變量選擇問題上有著十分重要的意義。為了完成帶遮擋的魯棒模式分類問題,第二章提出了一個基于相關(guān)熵和分類回歸的模型。在回歸系數(shù)中使用一個光滑的懲罰項替代了稀疏的限制,使得基于回歸模型的分類算法在應(yīng)用中更加靈活。更加具體的學(xué)術(shù)貢獻(xiàn)如下:(1)在特征譜空間中求解判別式回歸系數(shù),減小數(shù)據(jù)分析的計算復(fù)雜度。(2)引入回歸系數(shù)的稀疏約束,增強(qiáng)高維數(shù)據(jù)分析模型解的解釋性。(3)針對例外點(diǎn)和噪音數(shù)據(jù),設(shè)計快速,穩(wěn)健的分類算法。用高維面部圖像和基因微陣列數(shù)據(jù)去評估新的算法,并且和其他一些先進(jìn)的方法做了對比新方法獲得了有競爭力的結(jié)果。本文第三章提出基于低秩表示和依條件轉(zhuǎn)換的遷移學(xué)習(xí)方法(LRCT),為了減少實際中可能的限制,包括計算的復(fù)雜性,和進(jìn)一步提升分類的性能。受低秩表示方法及其成功應(yīng)用的啟發(fā),LRCT希望找到一組特征表示,以合適的方式表達(dá)出數(shù)據(jù)局部和光滑特性的變換投影矩陣,用最小重構(gòu)誤差把非均勻的數(shù)據(jù)投影到一個共享子空間上。新方法的創(chuàng)新點(diǎn)主要體現(xiàn)在通過一些概率假設(shè)建立了一個中間域(I),然后在中間域I和目標(biāo)域T之間求得有效的低秩表示。具體的學(xué)術(shù)貢獻(xiàn)總結(jié)如下:(1)在因果關(guān)系框架下研究條件分布不匹配問題,建立從中間域I到目標(biāo)域T之間的低秩表示關(guān)系,并由此學(xué)習(xí)領(lǐng)域自適應(yīng)特征。因此新的方法從依條件不變的特征中去利用低秩結(jié)構(gòu)。(2)在數(shù)值優(yōu)化問題上,本文重新參數(shù)化密度比(densityratio)函數(shù),把這個參數(shù)化的方程轉(zhuǎn)化成經(jīng)典的二次規(guī)劃問題,然后用選擇優(yōu)化策略的方法求解新的目標(biāo)函數(shù)。與已有方法做比較,新的方法明顯的減少了計算的時間。(3)特別前,第三章基于多步不動點(diǎn)近似迭代原理,針對新模型建立了一個新的數(shù)值優(yōu)化方案。實驗結(jié)果表明,新算法在迭代優(yōu)化過程中能夠減少了一個內(nèi)循環(huán),這對大規(guī)模的數(shù)據(jù)低秩表示來說是非常重要的。本文第四章對進(jìn)一步的工作做出展望。
[Abstract]:With the rapid development of Internet technology and the decreasing cost of data collection , the data age has come . Large - scale data analysis is a very important issue in the fields of regression analysis , machine learning , data mining and pattern recognition . In this paper , we propose a new method based on low rank representation and conditional transformation . In order to reduce the practical limitations , we propose a new numerical optimization scheme based on low rank representation and conditional transformation .
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2017
【分類號】:C81
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 曹建玲;;從數(shù)據(jù)分析談統(tǒng)計特色[J];價值工程;2012年15期
2 張文霖;;數(shù)據(jù)分析初體驗[J];數(shù)據(jù);2013年05期
3 劉江娜;;大數(shù)據(jù)時代:為什么數(shù)據(jù)分析能讓你的企業(yè)脫穎而出[J];現(xiàn)代企業(yè)教育;2013年03期
4 尹青春;談試題中的數(shù)據(jù)分析[J];生物學(xué)教學(xué);1993年11期
5 劉悅紅;;數(shù)據(jù)分析觀念的內(nèi)涵及其教育價值[J];大連教育學(xué)院學(xué)報;2012年02期
6 張文霖;;數(shù)據(jù)分析六步曲[J];數(shù)據(jù);2013年06期
7 張文霖;;數(shù)據(jù)分析師那些事兒[J];數(shù)據(jù);2013年07期
8 立山;探索數(shù)據(jù)分析簡介(Ⅰ)[J];數(shù)理統(tǒng)計與管理;1988年02期
9 立山;探索數(shù)據(jù)分析(Ⅱ)[J];數(shù)理統(tǒng)計與管理;1988年03期
10 立山;探索數(shù)據(jù)分析(Ⅴ)[J];數(shù)理統(tǒng)計與管理;1988年06期
相關(guān)會議論文 前10條
1 申敏;;數(shù)據(jù)分析的原則和一般方法[A];2010年云南電力技術(shù)論壇論文集(文摘部分)[C];2010年
2 劉剛;;小學(xué)生數(shù)據(jù)分析觀念的培養(yǎng)[A];中華教育理論與實踐科研論文成果選編(第五卷)[C];2013年
3 石勇;;在銀行和金融數(shù)據(jù)分析中的評分方法[A];Data Analysis, Econo-physics and Risk Management--Proceedings of CCAST (World Laboratory) Workshop[C];2001年
4 吳一平;;基于數(shù)據(jù)分析的離校工作改進(jìn)[A];中國高等教育學(xué)會教育信息化分會第十二次學(xué)術(shù)年會論文集[C];2014年
5 呂大青;;送變電施工企業(yè)中數(shù)據(jù)分析的運(yùn)用[A];第二屆浙江中西部科技論壇論文集(第一卷)[C];2005年
6 李小花;李姝;;大數(shù)據(jù)分析在指揮信息系統(tǒng)中的應(yīng)用[A];2014第二屆中國指揮控制大會論文集(下)[C];2014年
7 范麗偉;唐煥文;唐一源;;空間獨(dú)立成分分析在fMRⅠ數(shù)據(jù)分析中的應(yīng)用[A];第九次全國生物物理大會學(xué)術(shù)會議論文摘要集[C];2002年
8 張軍;李婕;;中國國民休閑狀態(tài)變化研究——基于網(wǎng)上數(shù)據(jù)分析[A];第十五屆全國區(qū)域旅游學(xué)術(shù)開發(fā)研討會暨度假旅游論壇論文冊[C];2010年
9 徐小龍;王汝傳;姜波;;一種新的基于P2P的電信海量數(shù)據(jù)分析業(yè)務(wù)模式[A];普適計算及其軟件新技術(shù)——第三屆長三角計算機(jī)科技論壇文集[C];2006年
10 邵東華;;高速公路的平面控制復(fù)測與數(shù)據(jù)分析[A];第四屆“測繪科學(xué)前沿技術(shù)論壇”論文精選[C];2012年
相關(guān)重要報紙文章 前10條
1 匿銘;數(shù)據(jù)分析的“磨刀階段”[N];中華讀書報;2013年
2 胡英;澳發(fā)布政府可信數(shù)據(jù)分析指導(dǎo)草案[N];人民郵電;2014年
3 鄭愛民;陜西加強(qiáng)消費(fèi)維權(quán)數(shù)據(jù)分析利用[N];中國工商報;2014年
4 本報駐美國記者 吳成良;“數(shù)據(jù)分析”成了“金飯碗”[N];人民日報;2014年
5 本報記者 楊群;大數(shù)據(jù)分析亮出專家的“自貿(mào)研判”[N];解放日報;2014年
6 周桂生 湯建國;數(shù)據(jù)分析行業(yè)登陸湖南,帶來巨大商機(jī)[N];中國企業(yè)報;2008年
7 朱文明 甫瀚公司咨詢專家;數(shù)據(jù)分析提升決策智慧[N];中國審計報;2009年
8 ;國采中心空調(diào)協(xié)議供貨數(shù)據(jù)分析[N];政府采購信息報;2010年
9 武虹 審計署駐沈陽特派辦;以數(shù)據(jù)分析為統(tǒng)領(lǐng)開展數(shù)字化審計工作[N];中國審計報;2012年
10 杰弗尼;行走在大數(shù)據(jù)分析誤區(qū)旁的零售商[N];中國商報;2013年
相關(guān)博士學(xué)位論文 前7條
1 劉岳;區(qū)域地球化學(xué)數(shù)據(jù)分析及成礦信息融合模型研究[D];中國地質(zhì)大學(xué);2015年
2 徐曉琳;面向大規(guī)模數(shù)據(jù)分析與分類的正則化回歸算法[D];安徽大學(xué);2017年
3 董媛香;基于軟集合的不完備不一致數(shù)據(jù)分析及決策方法研究[D];重慶大學(xué);2014年
4 張睿;數(shù)據(jù)分析在污染控制領(lǐng)域的節(jié)能優(yōu)化應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2014年
5 陳宜治;函數(shù)型數(shù)據(jù)分析若干方法及應(yīng)用[D];浙江工商大學(xué);2011年
6 郭廣報;基于并行統(tǒng)計計算的金融數(shù)據(jù)分析[D];山東大學(xué);2012年
7 孫建強(qiáng);生物磁共振數(shù)據(jù)分析中的幾個問題[D];中國科學(xué)院研究生院(武漢物理與數(shù)學(xué)研究所);2014年
相關(guān)碩士學(xué)位論文 前10條
1 周儒軍;基于Hadoop的分布式監(jiān)控平臺的研究與實現(xiàn)[D];華南理工大學(xué);2015年
2 施建輝;中職生職業(yè)道德認(rèn)識現(xiàn)狀調(diào)查研究[D];上海師范大學(xué);2015年
3 丁國輝;核磁共振數(shù)據(jù)分析中的兩個問題[D];中國科學(xué)院研究生院(武漢物理與數(shù)學(xué)研究所);2015年
4 張清;面向精準(zhǔn)廣告投放的數(shù)據(jù)分析與可視化系統(tǒng)設(shè)計與實現(xiàn)[D];山東大學(xué);2015年
5 周徐;基于分層采樣的DeepWeb數(shù)據(jù)分析方法研究[D];蘇州大學(xué);2015年
6 王佳琦;糾正性反饋對高中生英語冠詞習(xí)得的影響[D];內(nèi)蒙古師范大學(xué);2015年
7 顧星竹;基于Hadoop的PCF系統(tǒng)的設(shè)計與實現(xiàn)[D];南京大學(xué);2014年
8 張海洋;大數(shù)據(jù)的統(tǒng)計分析技術(shù)比較研究[D];南京大學(xué);2014年
9 扎娟娟;銀保通管理系統(tǒng)的構(gòu)建與實施[D];電子科技大學(xué);2014年
10 關(guān)晨靜;高中生英語跨文化交際能力的調(diào)查研究[D];江西師范大學(xué);2015年
,本文編號:1705613
本文鏈接:http://sikaile.net/shoufeilunwen/sklbs/1705613.html