面向高維數(shù)據(jù)的分層特征選擇算法研究
發(fā)布時間:2022-02-20 00:43
隨著大數(shù)據(jù)時代的到來,我們可獲得的數(shù)據(jù)的數(shù)量與維度正在以幾何速度的方式增長。這給我們對數(shù)據(jù)進行分析帶來了極大的挑戰(zhàn)。與此同時,樣本的特征不可避免的會出現(xiàn)很多不相關(guān)的特征和冗余的特征,因此帶來“維度災(zāi)難”。這樣不僅會使學習模型的容易出現(xiàn)過擬合的情況,而且會讓學習模型的時間復雜度和空間復雜度增大。特征選擇作為一個數(shù)據(jù)降維的有效手段,在數(shù)據(jù)處理中扮演著重要的作用。本文主要關(guān)注的是高維數(shù)據(jù)中特征冗余的問題。為此,本文從如何識別特征組的角度出發(fā),來研究如何高效的識別出特征組,并研究如何利用特征組的結(jié)構(gòu)來進行特征選擇。本文首先提出了一種分層特征選擇的方法,該方法在帶權(quán)重的協(xié)同聚類的算法中引入類標信息,提出了一種子空間聚類算法。通過聚類結(jié)果,本文提出了一種分層特征加權(quán)算法來給特征進行排序。然后在分層特征選擇方法的基礎(chǔ)上,本文提出了一種基于特征權(quán)重的方法來學習特征的重要性,以此簡化模型。最后在分層特征選擇方法的基礎(chǔ)上,本文進一步分析了同一特征組中排名靠前的特征仍然可能是高度相關(guān),于是本文又提出了一種差異性約束的方法來進一步減少特征之間的相關(guān)性。通過大量的實驗我們可以知道上述三種分層特征選擇方法可以有效...
【文章來源】:華南理工大學廣東省211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景和研究意義
1.2 主要貢獻
1.3 組織結(jié)構(gòu)
第二章 相關(guān)工作
2.1 特征選擇
2.2 有監(jiān)督特征選擇
2.3 協(xié)同聚類
2.4 本章小結(jié)
第三章 基于子空間權(quán)重矩陣的分層特征選擇算法
3.1 概述
3.2 分層特征排序方法
3.2.1 特征聚類算法
3.2.2 分層加權(quán)特征排序
3.2.3 特征排序算法
3.3 特征聚類的實驗結(jié)果與分析
3.3.1 實驗設(shè)置
3.3.2 參數(shù)η對 C的影響
3.3.3 參數(shù)η對特征聚類結(jié)果的影響
3.3.4 拓展性分析
3.4 特征選擇的實驗結(jié)果與分析
3.4.1 標準數(shù)據(jù)集的實驗設(shè)置
3.4.2 標準數(shù)據(jù)集的結(jié)果和分析
3.4.3 標準數(shù)據(jù)集的參數(shù)敏感度分析
3.4.4 標準數(shù)據(jù)集的特征排序
3.4.5 深度模型數(shù)據(jù)集的實驗設(shè)置
3.4.6 深度模型數(shù)據(jù)集的的結(jié)果與分析
3.4.7 深度模型數(shù)據(jù)集的參數(shù)敏感度分析
3.5 本章小結(jié)
第四章 基于特征權(quán)重的分層特征選擇算法
4.1 概述
4.2 特征聚類算法
4.2.1 目標函數(shù)
4.2.2 固定Z和 c來更新V
4.2.3 固定V和 c來更新Z
4.2.4 固定Z和 V來更新c
4.2.5 優(yōu)化算法
4.3 分層特征選擇方法
4.3.1 特征聚類
4.3.2 分層特征選擇
4.4 實驗設(shè)置與結(jié)果分析
4.4.1 標準數(shù)據(jù)集
4.4.2 結(jié)果與分析
4.4.3 參數(shù)敏感分析
4.4.4 特征排序
4.5 本章小結(jié)
第五章 基于差異性約束的分層特征選擇算法
5.1 概述
5.2 標記和定義
5.3 增廣拉格朗日乘子法(ALM)
5.4 帶差異性約束的特征選擇算法
5.4.1 提出的模型
5.4.2 固定W和 H,更新V
5.4.3 固定V和 H,更新W
5.4.4 固定W和 V,更新H
5.4.5 優(yōu)化算法
5.5 實驗設(shè)置與結(jié)果分析
5.5.1 基準數(shù)據(jù)集的實驗設(shè)置
5.5.2 基準數(shù)據(jù)集的結(jié)果與分析
5.5.3 基準數(shù)據(jù)集的參數(shù)敏感分析
5.5.4 基準數(shù)據(jù)集的收斂性研究
5.5.5 基準數(shù)據(jù)集的特征排序
5.5.6 深度模型數(shù)據(jù)集的實驗設(shè)置
5.5.7 深度模型數(shù)據(jù)集的結(jié)果與分析
5.5.8 深度模型數(shù)據(jù)集的參數(shù)敏感度分析
5.6 本章小結(jié)
結(jié)論和展望
參考文獻
攻讀碩士學位期間取得的研究成果
致謝
附件
【參考文獻】:
期刊論文
[1]腫瘤信息基因啟發(fā)式寬度優(yōu)先搜索算法研究[J]. 王樹林,王戟,陳火旺,李樹濤,張波云. 計算機學報. 2008(04)
博士論文
[1]文本分類中文本表示模型和特征選擇算法研究[D]. 楊杰明.吉林大學 2013
碩士論文
[1]面向高維數(shù)據(jù)的雙聚類算法研究[D]. 賈延昆.北京交通大學 2018
本文編號:3633948
【文章來源】:華南理工大學廣東省211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景和研究意義
1.2 主要貢獻
1.3 組織結(jié)構(gòu)
第二章 相關(guān)工作
2.1 特征選擇
2.2 有監(jiān)督特征選擇
2.3 協(xié)同聚類
2.4 本章小結(jié)
第三章 基于子空間權(quán)重矩陣的分層特征選擇算法
3.1 概述
3.2 分層特征排序方法
3.2.1 特征聚類算法
3.2.2 分層加權(quán)特征排序
3.2.3 特征排序算法
3.3 特征聚類的實驗結(jié)果與分析
3.3.1 實驗設(shè)置
3.3.2 參數(shù)η對 C的影響
3.3.3 參數(shù)η對特征聚類結(jié)果的影響
3.3.4 拓展性分析
3.4 特征選擇的實驗結(jié)果與分析
3.4.1 標準數(shù)據(jù)集的實驗設(shè)置
3.4.2 標準數(shù)據(jù)集的結(jié)果和分析
3.4.3 標準數(shù)據(jù)集的參數(shù)敏感度分析
3.4.4 標準數(shù)據(jù)集的特征排序
3.4.5 深度模型數(shù)據(jù)集的實驗設(shè)置
3.4.6 深度模型數(shù)據(jù)集的的結(jié)果與分析
3.4.7 深度模型數(shù)據(jù)集的參數(shù)敏感度分析
3.5 本章小結(jié)
第四章 基于特征權(quán)重的分層特征選擇算法
4.1 概述
4.2 特征聚類算法
4.2.1 目標函數(shù)
4.2.2 固定Z和 c來更新V
4.2.3 固定V和 c來更新Z
4.2.4 固定Z和 V來更新c
4.2.5 優(yōu)化算法
4.3 分層特征選擇方法
4.3.1 特征聚類
4.3.2 分層特征選擇
4.4 實驗設(shè)置與結(jié)果分析
4.4.1 標準數(shù)據(jù)集
4.4.2 結(jié)果與分析
4.4.3 參數(shù)敏感分析
4.4.4 特征排序
4.5 本章小結(jié)
第五章 基于差異性約束的分層特征選擇算法
5.1 概述
5.2 標記和定義
5.3 增廣拉格朗日乘子法(ALM)
5.4 帶差異性約束的特征選擇算法
5.4.1 提出的模型
5.4.2 固定W和 H,更新V
5.4.3 固定V和 H,更新W
5.4.4 固定W和 V,更新H
5.4.5 優(yōu)化算法
5.5 實驗設(shè)置與結(jié)果分析
5.5.1 基準數(shù)據(jù)集的實驗設(shè)置
5.5.2 基準數(shù)據(jù)集的結(jié)果與分析
5.5.3 基準數(shù)據(jù)集的參數(shù)敏感分析
5.5.4 基準數(shù)據(jù)集的收斂性研究
5.5.5 基準數(shù)據(jù)集的特征排序
5.5.6 深度模型數(shù)據(jù)集的實驗設(shè)置
5.5.7 深度模型數(shù)據(jù)集的結(jié)果與分析
5.5.8 深度模型數(shù)據(jù)集的參數(shù)敏感度分析
5.6 本章小結(jié)
結(jié)論和展望
參考文獻
攻讀碩士學位期間取得的研究成果
致謝
附件
【參考文獻】:
期刊論文
[1]腫瘤信息基因啟發(fā)式寬度優(yōu)先搜索算法研究[J]. 王樹林,王戟,陳火旺,李樹濤,張波云. 計算機學報. 2008(04)
博士論文
[1]文本分類中文本表示模型和特征選擇算法研究[D]. 楊杰明.吉林大學 2013
碩士論文
[1]面向高維數(shù)據(jù)的雙聚類算法研究[D]. 賈延昆.北京交通大學 2018
本文編號:3633948
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3633948.html
最近更新
教材專著