面向大數(shù)據(jù)的高效特征選擇與學(xué)習(xí)算法研究
發(fā)布時間:2017-05-25 04:01
本文關(guān)鍵詞:面向大數(shù)據(jù)的高效特征選擇與學(xué)習(xí)算法研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:近年來,隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算、三網(wǎng)融合等IT與通訊技術(shù)的迅猛發(fā)展,數(shù)據(jù)的快速增長成了許多行業(yè)共同面對的嚴(yán)峻挑戰(zhàn)和寶貴機(jī)遇,信息社會已經(jīng)進(jìn)入了“大數(shù)據(jù)”時代。在當(dāng)前大數(shù)據(jù)環(huán)境下,挖掘其中蘊(yùn)含的知識以指導(dǎo)實(shí)際生產(chǎn)和具體應(yīng)用,特征選擇和學(xué)習(xí)的重要性更加凸顯,不僅可以有效解決“維數(shù)災(zāi)難”,緩解“信息豐富、知識貧乏”現(xiàn)狀,降低復(fù)雜度;而且可以更好地認(rèn)識和理解數(shù)據(jù)。本文面向大數(shù)據(jù),開展了并行大規(guī)模特征選擇、復(fù)雜數(shù)據(jù)融合與高效學(xué)習(xí)、基于深度學(xué)習(xí)的特征表示模型、算法及應(yīng)用研究。主要研究工作和創(chuàng)新概述分為以下四個部分。第一部分:并行大規(guī)模特征選擇(第3章)構(gòu)建了一個統(tǒng)一的并行大規(guī)模特征選擇框架,進(jìn)而提出了相應(yīng)的模型并行方法、數(shù)據(jù)并行方法和模型-數(shù)據(jù)并行方法。以啟發(fā)式特征選擇為研究對象,分析其核心是特征重要度的計算,進(jìn)而給出了統(tǒng)一的特征評價函數(shù)表示方法;谠摽蚣,給出了四種典型特征評價函數(shù)的分治方法,并分別設(shè)計了基于MapReduce和Spark的并行大規(guī)模特征選擇算法。進(jìn)一步引入粒計算理論對特征選擇過程進(jìn)行優(yōu)化加速,并結(jié)合模型-數(shù)據(jù)并行方法,提出了PLAR-MDP算法。最后用UCI公共數(shù)據(jù)集、天文大數(shù)據(jù)集等在大數(shù)據(jù)計算平臺Hadoop和Spark對算法的有效性進(jìn)行了評測、分析和比較,驗(yàn)證了算法的有效性,同時說明了模型并行、數(shù)據(jù)并行和粒計算方法的有機(jī)結(jié)合可以最大限度提高數(shù)據(jù)處理性能。第二部分:復(fù)雜數(shù)據(jù)融合及高效學(xué)習(xí)算法(第4章)給出了復(fù)合信息系統(tǒng)的定義,進(jìn)而擴(kuò)展了粗糙集模型,提出了復(fù)合粗糙集模型。該模型可以同時處理多種數(shù)據(jù)類型,為復(fù)雜數(shù)據(jù)融合提供了一個新的方法。概念近似是基于粗糙集模型的特征選擇算法的核心步驟,為有效計算概念近似,通過引入基本向量的概念,提出了復(fù)合粗糙集模型中近似集的矩陣表示方法,并設(shè)計了基于矩陣的近似集計算的批處理算法以及基于單GPU和GPU集群的并行算法。最后,利用人工數(shù)據(jù)集和UCI公共數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)評測,驗(yàn)證了算法的有效性,而且實(shí)驗(yàn)結(jié)果表明在GPU集群上算法的加速比高,性能得到了大幅度提升。第三部分:基于深度學(xué)習(xí)的特征表示模型(第5章)提出了基于深度學(xué)習(xí)的特征表示模型:SUGAR。該模型包括主網(wǎng)絡(luò)、輔助網(wǎng)絡(luò)和橋三部分,可以同時從標(biāo)記數(shù)據(jù)和無標(biāo)記數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)表征。其中主網(wǎng)絡(luò)和輔助網(wǎng)絡(luò)分別采用自編碼器和哈希學(xué)習(xí)方法來構(gòu)建,并應(yīng)用L1正則懲罰對參數(shù)進(jìn)行約束以獲得魯棒性強(qiáng)的特征,橋的作用是使得主網(wǎng)絡(luò)和輔助網(wǎng)絡(luò)參數(shù)盡可能接近。設(shè)計了基于小批次隨機(jī)梯度下降的SUGAR模型訓(xùn)練算法。分別結(jié)合DAE和CAE模型,給出了"SUGAR with DAE"和"SUGAR with CAE'擴(kuò)展模型。進(jìn)而采用堆棧方式將多個SUGAR模型累加,建立了基于SUGAR的深度學(xué)習(xí)模型:DeepSUGAR。最后在經(jīng)典的數(shù)字分類問題和8個深度學(xué)習(xí)基準(zhǔn)數(shù)據(jù)集對算法進(jìn)行評測、分析和比較,驗(yàn)證了算法的有效性,說明了所提出的深度學(xué)習(xí)模型可以產(chǎn)生更好的、魯棒性更強(qiáng)的特征表示,有效提高分類精度。第四部分:特征學(xué)習(xí)模型在天文光譜識別中的應(yīng)用(第6章)回顧了天文恒星光譜的特點(diǎn)及傳統(tǒng)處理方法,進(jìn)而根據(jù)恒星光譜的特點(diǎn),提出了基于深度學(xué)習(xí)的特征表示方法LLDL。 LLDL模型包括多個局部線性Maxout網(wǎng)絡(luò)作為其隱含層,并應(yīng)用Dropout技術(shù)來正則化Maxout網(wǎng)絡(luò)。進(jìn)而設(shè)計了基于隨機(jī)梯度下降和Momentum的LLDL模型訓(xùn)練算法,并在多核CPU和GPU上進(jìn)行算法實(shí)現(xiàn)。最后用公共的天文大數(shù)據(jù)集SDSS和LAMOST對算法進(jìn)行評測、分析和比較,驗(yàn)證了算法的有效性,相比于其他機(jī)器學(xué)習(xí)模型,包括SVM、邏輯斯特回歸、深度ReLU模型等,LLDL的分類性能更優(yōu)且具有較強(qiáng)的抗噪聲能力。
【關(guān)鍵詞】:特征選擇 特征學(xué)習(xí) 大數(shù)據(jù) 并行算法 粗糙集 深度學(xué)習(xí) 自編碼器
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TP181;TP311.13
【目錄】:
- 摘要7-9
- Abstract9-19
- 第1章 緒論19-29
- 1.1 背景介紹和研究意義19-21
- 1.2 國內(nèi)外研究現(xiàn)狀21-27
- 1.2.1 大數(shù)據(jù)國內(nèi)外研究現(xiàn)狀21-23
- 1.2.2 面向大數(shù)據(jù)的特征選擇國內(nèi)外研究現(xiàn)狀23-25
- 1.2.3 面向大數(shù)據(jù)的特征學(xué)習(xí)國內(nèi)外研究現(xiàn)狀25-27
- 1.3 本文的研究內(nèi)容和組織結(jié)構(gòu)27-29
- 第2章 預(yù)備知識29-39
- 2.1 粗糙集模型29-32
- 2.1.1 決策信息系統(tǒng)29
- 2.1.2 二元關(guān)系29-30
- 2.1.3 經(jīng)典粗糙集模型30-31
- 2.1.4 擴(kuò)展的粗糙集模型31-32
- 2.2 自編碼器32-38
- 2.2.1 經(jīng)典自編碼器32-34
- 2.2.2 正則自編碼器34-35
- 2.2.3 降噪自編碼器35-36
- 2.2.4 收縮自編碼器36-38
- 2.3 本章小節(jié)38-39
- 第3章 并行大規(guī)模特征選擇39-65
- 3.1 引言39
- 3.2 特征選擇方法39-41
- 3.2.1 特征選擇的基本框架39
- 3.2.2 產(chǎn)生過程39-40
- 3.2.3 評價函數(shù)40-41
- 3.3 并行特征提取方法41-42
- 3.3.1 模型并行方法41
- 3.3.2 數(shù)據(jù)并行方法41-42
- 3.3.3 模型-數(shù)據(jù)并行方法42
- 3.4 并行特征提取算法42-56
- 3.4.1 啟發(fā)式特征選擇算法43-44
- 3.4.2 代表性的評價函數(shù)44-50
- 3.4.3 基于MapReduce的并行算法50-54
- 3.4.4 基于Spark的大規(guī)模并行屬性約簡算法54
- 3.4.5 基于粒計算的大規(guī)模并行屬性約簡加速算法54-56
- 3.5 實(shí)驗(yàn)分析56-64
- 3.5.1 數(shù)據(jù)集和實(shí)驗(yàn)平臺57
- 3.5.2 與串行算法比較57-58
- 3.5.3 不同并行算法之間的比較58-62
- 3.5.4 高維數(shù)據(jù)上的表現(xiàn)62-63
- 3.5.5 實(shí)際大數(shù)據(jù)中的應(yīng)用63-64
- 3.6 本章小節(jié)64-65
- 第4章 復(fù)雜數(shù)據(jù)融合與高效學(xué)習(xí)算法65-85
- 4.1 引言65
- 4.2 復(fù)合粗糙集模型65-68
- 4.3 近似集的矩陣表示方法68-71
- 4.3.1 近似集的矩陣表示方法68-70
- 4.3.2 近似集的布爾矩陣表示方法70-71
- 4.3.3 復(fù)合決策信息系統(tǒng)中的布爾矩陣方法71
- 4.4 算法設(shè)計與復(fù)雜度分析71-74
- 4.4.1 基于布爾矩陣的近似集計算算法71-72
- 4.4.2 基于矩陣的近似集計算的批處理算法72-74
- 4.5 并行近似集計算方法及基于GPU的并行算法74-79
- 4.5.1 并行近似集計算方法74-75
- 4.5.2 GPU架構(gòu)與CUDA75-76
- 4.5.3 基于Single-GPU的近似集計算算法76-77
- 4.5.4 基于Multi-GPU的近似集計算算法77-79
- 4.6 實(shí)驗(yàn)分析79-82
- 4.6.1 實(shí)驗(yàn)設(shè)置79
- 4.6.2 批處理算法的性能79-80
- 4.6.3 GPU算法的性能80-81
- 4.6.4 Multi-GPU的性能81-82
- 4.7 本章小節(jié)82-85
- 第5章 基于深度學(xué)習(xí)的特征表示模型85-103
- 5.1 引言85-86
- 5.2 特征學(xué)習(xí)模型介紹86-93
- 5.2.1 問題陳述86-87
- 5.2.2 主網(wǎng)絡(luò)87-88
- 5.2.3 輔助網(wǎng)絡(luò)88-90
- 5.2.4 橋90-91
- 5.2.5 優(yōu)化算法91
- 5.2.6 模型擴(kuò)展91-93
- 5.3 基于SUGAR的深度學(xué)習(xí)模型93-94
- 5.4 實(shí)驗(yàn)分析94-101
- 5.4.1 數(shù)據(jù)集95-96
- 5.4.2 超參數(shù)選擇96-97
- 5.4.3 性能評估97-101
- 5.5 本章小節(jié)101-103
- 第6章 特征學(xué)習(xí)模型在天文光譜識別中的應(yīng)用103-121
- 6.1 引言103-105
- 6.2 局部線性深度學(xué)習(xí)模型105-110
- 6.2.1 深度學(xué)習(xí)模型106
- 6.2.2 局部線性的隱含層106-108
- 6.2.3 深度學(xué)習(xí)中的Dropout技術(shù)108
- 6.2.4 LLDL的代價函數(shù)108-110
- 6.2.5 隨機(jī)梯度下降算法110
- 6.3 實(shí)驗(yàn)分析110-119
- 6.3.1 實(shí)驗(yàn)設(shè)置110-111
- 6.3.2 評估度量111
- 6.3.3 數(shù)據(jù)集111-113
- 6.3.4 不同關(guān)鍵部分的作用113-115
- 6.3.5 處理性能115-116
- 6.3.6 分類結(jié)果比較116-119
- 6.4 本章小節(jié)119-121
- 第7章 總結(jié)與展望121-123
- 7.1 本文總結(jié)121-122
- 7.2 研究展望122-123
- 致謝123-125
- 參考文獻(xiàn)125-141
- 攻讀博士學(xué)位期間發(fā)表、錄用和完成的學(xué)術(shù)論文141-143
- 攻讀博士學(xué)位期間主持或參與的科研項(xiàng)目143
本文關(guān)鍵詞:面向大數(shù)據(jù)的高效特征選擇與學(xué)習(xí)算法研究,由筆耕文化傳播整理發(fā)布。
本文編號:392639
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/392639.html
最近更新
教材專著