面向大規(guī)模數(shù)據(jù)分析與分類的正則化回歸算法
本文選題:數(shù)據(jù)降維 切入點(diǎn):稀疏表示 出處:《安徽大學(xué)》2017年博士論文
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展及數(shù)據(jù)收集成本的不斷降低,大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨。大規(guī)模數(shù)據(jù)分析是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行分析,從中獲得有利于對(duì)個(gè)體或者群組進(jìn)行辨識(shí)的對(duì)象,大規(guī)模數(shù)據(jù)分析技術(shù)的社會(huì)及市場(chǎng)需求也變得十分緊迫。降維是對(duì)數(shù)據(jù)預(yù)處理及進(jìn)一步分析的有效方式,通常采用變量選擇或者函數(shù)變換等途徑來(lái)描述關(guān)鍵的數(shù)據(jù)結(jié)構(gòu)(如局部性,判別性等等),因而在回歸分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和模式識(shí)別等領(lǐng)域占據(jù)著十分重要的地位。數(shù)據(jù)降維往往能夠提供對(duì)數(shù)據(jù)更加本質(zhì)和深刻的理解,因而廣泛用于特征匹配、模型解釋、數(shù)據(jù)表示等。在過(guò)去二十年中,回歸方法因模型直觀和理論豐富等特點(diǎn)受到了廣泛的關(guān)注,分片逆回歸(SIR)由于它在降維方面的有效性也吸引了很多研究者。然而,SIR的兩個(gè)缺點(diǎn)限制了它進(jìn)一步的應(yīng)用。第一,在高維數(shù)情況下SIR的計(jì)算復(fù)雜度較高。第二,在改進(jìn)特征選擇和模型解釋能力方面,投影子空間的稀疏性沒(méi)有很好的挖掘出來(lái)。另一方面,怎樣從足夠的輔助數(shù)據(jù)集中挖掘判別信息,去改進(jìn)機(jī)器智能系統(tǒng)的理解和分析能力,在大數(shù)據(jù)時(shí)代是一個(gè)更加值得深入研究的課題。并且它有非常廣泛的應(yīng)用空間,包括圖像分類、視頻檢索、金融數(shù)據(jù)聚類或預(yù)測(cè)。在圖像識(shí)別方面,比如,圖像分辨率的差異容易導(dǎo)致訓(xùn)練集與測(cè)試集的數(shù)據(jù)特征有較大的差異,為直接數(shù)據(jù)降維(如主成分分析)帶來(lái)了性能上的困難;同一個(gè)對(duì)象在不同尺度或者不同視角下的觀測(cè)結(jié)果,往往能夠提供優(yōu)勢(shì)互補(bǔ)的數(shù)據(jù)描述。領(lǐng)域自適應(yīng)的任務(wù)是提取每個(gè)領(lǐng)域的判別特征并且同時(shí)提高目標(biāo)域的分類性質(zhì)。遷移學(xué)習(xí)的方法提供了一些可能的方法來(lái)解決上面提到的問(wèn)題。用目標(biāo)域中非常少的有標(biāo)簽的數(shù)據(jù)并同時(shí)借助于源域中大量的有標(biāo)簽的數(shù)據(jù)去學(xué)習(xí)領(lǐng)域自適應(yīng),期望用遷移源域中的判別信息去提高目標(biāo)域的分類特性。本文主要針對(duì)上述兩個(gè)分面,從算法角度推出新的模型及數(shù)值解。本文第二章提出在譜空間里計(jì)算SIR的投影向量,從而以更快的速度得到一個(gè)近似的回歸解。此外,自適應(yīng)的lasso獲得一個(gè)稀疏的全局最優(yōu)解,這在變量選擇問(wèn)題上有著十分重要的意義。為了完成帶遮擋的魯棒模式分類問(wèn)題,第二章提出了一個(gè)基于相關(guān)熵和分類回歸的模型。在回歸系數(shù)中使用一個(gè)光滑的懲罰項(xiàng)替代了稀疏的限制,使得基于回歸模型的分類算法在應(yīng)用中更加靈活。更加具體的學(xué)術(shù)貢獻(xiàn)如下:(1)在特征譜空間中求解判別式回歸系數(shù),減小數(shù)據(jù)分析的計(jì)算復(fù)雜度。(2)引入回歸系數(shù)的稀疏約束,增強(qiáng)高維數(shù)據(jù)分析模型解的解釋性。(3)針對(duì)例外點(diǎn)和噪音數(shù)據(jù),設(shè)計(jì)快速,穩(wěn)健的分類算法。用高維面部圖像和基因微陣列數(shù)據(jù)去評(píng)估新的算法,并且和其他一些先進(jìn)的方法做了對(duì)比新方法獲得了有競(jìng)爭(zhēng)力的結(jié)果。本文第三章提出基于低秩表示和依條件轉(zhuǎn)換的遷移學(xué)習(xí)方法(LRCT),為了減少實(shí)際中可能的限制,包括計(jì)算的復(fù)雜性,和進(jìn)一步提升分類的性能。受低秩表示方法及其成功應(yīng)用的啟發(fā),LRCT希望找到一組特征表示,以合適的方式表達(dá)出數(shù)據(jù)局部和光滑特性的變換投影矩陣,用最小重構(gòu)誤差把非均勻的數(shù)據(jù)投影到一個(gè)共享子空間上。新方法的創(chuàng)新點(diǎn)主要體現(xiàn)在通過(guò)一些概率假設(shè)建立了一個(gè)中間域(I),然后在中間域I和目標(biāo)域T之間求得有效的低秩表示。具體的學(xué)術(shù)貢獻(xiàn)總結(jié)如下:(1)在因果關(guān)系框架下研究條件分布不匹配問(wèn)題,建立從中間域I到目標(biāo)域T之間的低秩表示關(guān)系,并由此學(xué)習(xí)領(lǐng)域自適應(yīng)特征。因此新的方法從依條件不變的特征中去利用低秩結(jié)構(gòu)。(2)在數(shù)值優(yōu)化問(wèn)題上,本文重新參數(shù)化密度比(densityratio)函數(shù),把這個(gè)參數(shù)化的方程轉(zhuǎn)化成經(jīng)典的二次規(guī)劃問(wèn)題,然后用選擇優(yōu)化策略的方法求解新的目標(biāo)函數(shù)。與已有方法做比較,新的方法明顯的減少了計(jì)算的時(shí)間。(3)特別前,第三章基于多步不動(dòng)點(diǎn)近似迭代原理,針對(duì)新模型建立了一個(gè)新的數(shù)值優(yōu)化方案。實(shí)驗(yàn)結(jié)果表明,新算法在迭代優(yōu)化過(guò)程中能夠減少了一個(gè)內(nèi)循環(huán),這對(duì)大規(guī)模的數(shù)據(jù)低秩表示來(lái)說(shuō)是非常重要的。本文第四章對(duì)進(jìn)一步的工作做出展望。
[Abstract]:With the rapid development of Internet technology and the decreasing cost of data collection , the data age has come . Large - scale data analysis is a very important issue in the fields of regression analysis , machine learning , data mining and pattern recognition . In this paper , we propose a new method based on low rank representation and conditional transformation . In order to reduce the practical limitations , we propose a new numerical optimization scheme based on low rank representation and conditional transformation .
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2017
【分類號(hào)】:C81
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 曹建玲;;從數(shù)據(jù)分析談統(tǒng)計(jì)特色[J];價(jià)值工程;2012年15期
2 張文霖;;數(shù)據(jù)分析初體驗(yàn)[J];數(shù)據(jù);2013年05期
3 劉江娜;;大數(shù)據(jù)時(shí)代:為什么數(shù)據(jù)分析能讓你的企業(yè)脫穎而出[J];現(xiàn)代企業(yè)教育;2013年03期
4 尹青春;談試題中的數(shù)據(jù)分析[J];生物學(xué)教學(xué);1993年11期
5 劉悅紅;;數(shù)據(jù)分析觀念的內(nèi)涵及其教育價(jià)值[J];大連教育學(xué)院學(xué)報(bào);2012年02期
6 張文霖;;數(shù)據(jù)分析六步曲[J];數(shù)據(jù);2013年06期
7 張文霖;;數(shù)據(jù)分析師那些事兒[J];數(shù)據(jù);2013年07期
8 立山;探索數(shù)據(jù)分析簡(jiǎn)介(Ⅰ)[J];數(shù)理統(tǒng)計(jì)與管理;1988年02期
9 立山;探索數(shù)據(jù)分析(Ⅱ)[J];數(shù)理統(tǒng)計(jì)與管理;1988年03期
10 立山;探索數(shù)據(jù)分析(Ⅴ)[J];數(shù)理統(tǒng)計(jì)與管理;1988年06期
相關(guān)會(huì)議論文 前10條
1 申敏;;數(shù)據(jù)分析的原則和一般方法[A];2010年云南電力技術(shù)論壇論文集(文摘部分)[C];2010年
2 劉剛;;小學(xué)生數(shù)據(jù)分析觀念的培養(yǎng)[A];中華教育理論與實(shí)踐科研論文成果選編(第五卷)[C];2013年
3 石勇;;在銀行和金融數(shù)據(jù)分析中的評(píng)分方法[A];Data Analysis, Econo-physics and Risk Management--Proceedings of CCAST (World Laboratory) Workshop[C];2001年
4 吳一平;;基于數(shù)據(jù)分析的離校工作改進(jìn)[A];中國(guó)高等教育學(xué)會(huì)教育信息化分會(huì)第十二次學(xué)術(shù)年會(huì)論文集[C];2014年
5 呂大青;;送變電施工企業(yè)中數(shù)據(jù)分析的運(yùn)用[A];第二屆浙江中西部科技論壇論文集(第一卷)[C];2005年
6 李小花;李姝;;大數(shù)據(jù)分析在指揮信息系統(tǒng)中的應(yīng)用[A];2014第二屆中國(guó)指揮控制大會(huì)論文集(下)[C];2014年
7 范麗偉;唐煥文;唐一源;;空間獨(dú)立成分分析在fMRⅠ數(shù)據(jù)分析中的應(yīng)用[A];第九次全國(guó)生物物理大會(huì)學(xué)術(shù)會(huì)議論文摘要集[C];2002年
8 張軍;李婕;;中國(guó)國(guó)民休閑狀態(tài)變化研究——基于網(wǎng)上數(shù)據(jù)分析[A];第十五屆全國(guó)區(qū)域旅游學(xué)術(shù)開(kāi)發(fā)研討會(huì)暨度假旅游論壇論文冊(cè)[C];2010年
9 徐小龍;王汝傳;姜波;;一種新的基于P2P的電信海量數(shù)據(jù)分析業(yè)務(wù)模式[A];普適計(jì)算及其軟件新技術(shù)——第三屆長(zhǎng)三角計(jì)算機(jī)科技論壇文集[C];2006年
10 邵東華;;高速公路的平面控制復(fù)測(cè)與數(shù)據(jù)分析[A];第四屆“測(cè)繪科學(xué)前沿技術(shù)論壇”論文精選[C];2012年
相關(guān)重要報(bào)紙文章 前10條
1 匿銘;數(shù)據(jù)分析的“磨刀階段”[N];中華讀書(shū)報(bào);2013年
2 胡英;澳發(fā)布政府可信數(shù)據(jù)分析指導(dǎo)草案[N];人民郵電;2014年
3 鄭愛(ài)民;陜西加強(qiáng)消費(fèi)維權(quán)數(shù)據(jù)分析利用[N];中國(guó)工商報(bào);2014年
4 本報(bào)駐美國(guó)記者 吳成良;“數(shù)據(jù)分析”成了“金飯碗”[N];人民日?qǐng)?bào);2014年
5 本報(bào)記者 楊群;大數(shù)據(jù)分析亮出專家的“自貿(mào)研判”[N];解放日?qǐng)?bào);2014年
6 周桂生 湯建國(guó);數(shù)據(jù)分析行業(yè)登陸湖南,帶來(lái)巨大商機(jī)[N];中國(guó)企業(yè)報(bào);2008年
7 朱文明 甫瀚公司咨詢專家;數(shù)據(jù)分析提升決策智慧[N];中國(guó)審計(jì)報(bào);2009年
8 ;國(guó)采中心空調(diào)協(xié)議供貨數(shù)據(jù)分析[N];政府采購(gòu)信息報(bào);2010年
9 武虹 審計(jì)署駐沈陽(yáng)特派辦;以數(shù)據(jù)分析為統(tǒng)領(lǐng)開(kāi)展數(shù)字化審計(jì)工作[N];中國(guó)審計(jì)報(bào);2012年
10 杰弗尼;行走在大數(shù)據(jù)分析誤區(qū)旁的零售商[N];中國(guó)商報(bào);2013年
相關(guān)博士學(xué)位論文 前7條
1 劉岳;區(qū)域地球化學(xué)數(shù)據(jù)分析及成礦信息融合模型研究[D];中國(guó)地質(zhì)大學(xué);2015年
2 徐曉琳;面向大規(guī)模數(shù)據(jù)分析與分類的正則化回歸算法[D];安徽大學(xué);2017年
3 董媛香;基于軟集合的不完備不一致數(shù)據(jù)分析及決策方法研究[D];重慶大學(xué);2014年
4 張睿;數(shù)據(jù)分析在污染控制領(lǐng)域的節(jié)能優(yōu)化應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2014年
5 陳宜治;函數(shù)型數(shù)據(jù)分析若干方法及應(yīng)用[D];浙江工商大學(xué);2011年
6 郭廣報(bào);基于并行統(tǒng)計(jì)計(jì)算的金融數(shù)據(jù)分析[D];山東大學(xué);2012年
7 孫建強(qiáng);生物磁共振數(shù)據(jù)分析中的幾個(gè)問(wèn)題[D];中國(guó)科學(xué)院研究生院(武漢物理與數(shù)學(xué)研究所);2014年
相關(guān)碩士學(xué)位論文 前10條
1 周儒軍;基于Hadoop的分布式監(jiān)控平臺(tái)的研究與實(shí)現(xiàn)[D];華南理工大學(xué);2015年
2 施建輝;中職生職業(yè)道德認(rèn)識(shí)現(xiàn)狀調(diào)查研究[D];上海師范大學(xué);2015年
3 丁國(guó)輝;核磁共振數(shù)據(jù)分析中的兩個(gè)問(wèn)題[D];中國(guó)科學(xué)院研究生院(武漢物理與數(shù)學(xué)研究所);2015年
4 張清;面向精準(zhǔn)廣告投放的數(shù)據(jù)分析與可視化系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2015年
5 周徐;基于分層采樣的DeepWeb數(shù)據(jù)分析方法研究[D];蘇州大學(xué);2015年
6 王佳琦;糾正性反饋對(duì)高中生英語(yǔ)冠詞習(xí)得的影響[D];內(nèi)蒙古師范大學(xué);2015年
7 顧星竹;基于Hadoop的PCF系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京大學(xué);2014年
8 張海洋;大數(shù)據(jù)的統(tǒng)計(jì)分析技術(shù)比較研究[D];南京大學(xué);2014年
9 扎娟娟;銀保通管理系統(tǒng)的構(gòu)建與實(shí)施[D];電子科技大學(xué);2014年
10 關(guān)晨靜;高中生英語(yǔ)跨文化交際能力的調(diào)查研究[D];江西師范大學(xué);2015年
,本文編號(hào):1705613
本文鏈接:http://sikaile.net/shoufeilunwen/sklbs/1705613.html