稀疏學習及其在數(shù)據(jù)挖掘的應用
發(fā)布時間:2017-12-29 18:16
本文關(guān)鍵詞:稀疏學習及其在數(shù)據(jù)挖掘的應用 出處:《廣西師范大學》2016年碩士論文 論文類型:學位論文
更多相關(guān)文章: 數(shù)據(jù)挖掘 稀疏學習 kNN算法 樣本自表達 決策樹 子空間學習 屬性選擇
【摘要】:數(shù)據(jù)挖掘處理的數(shù)據(jù)經(jīng)常含有噪音樣本和高維屬性,稀疏學習已經(jīng)顯示能非常有效地反映數(shù)據(jù)之間的相關(guān)關(guān)系,即在學習的過程中對相關(guān)的樣本或者屬性學習出大的權(quán)重系數(shù),不相關(guān)的樣本或?qū)傩詫W習出小權(quán)重或者零權(quán)重系數(shù)。本文研究和擴展現(xiàn)有稀疏學習框架,提出新的稀疏學習模型對k最近鄰分類算法關(guān)于k值難以確定的公開性問題和高維數(shù)據(jù)的屬性選擇算法存在的一些問題進行研究。具體地說,(1)提出了一種基于稀疏學習和決策樹的k最近鄰分類算法(Decision Tree k Nearest Neighbor Classification algorithm based on sparse learning, DTkNNC)。 k最近鄰分類算法(kNearest Neighbor Classification, kNNC)由于簡單易實現(xiàn)而且效果顯著被廣泛的應用于數(shù)據(jù)分類問題,但是kNNC算法存在三個缺陷:(i)、kNNC算法的k值難以取定;(ii)、固定k值的kNNC算法對數(shù)據(jù)分類時效果不能保證;(iii)、改進的kNNC算法沒有充分考慮數(shù)據(jù)的全局信息。因此,本文第三章提出的DTkNNC算法融合稀疏學習和樣本自表達且與決策樹技術(shù)結(jié)合來解決kNNC算法存在的不足。詳細地說,DTkNNC算法利用稀疏學習來研究kNN算法存在k值難以取定的公開性難題,使用樣本自表達技術(shù)考慮數(shù)據(jù)的全局信息來提高算法的效果,而且利用決策樹的低時間復雜度來加速算法和提高分類效果。在真實數(shù)據(jù)的模擬實驗中,DTkNNC算法比常見的ADkNN、LMNN、kNNC算法效果要好。提出的基于稀疏學習框架的目標函數(shù)不但在一定程度上豐富了現(xiàn)有稀疏模型框架同時也擴充了其應用范圍,即將稀疏學習應用于數(shù)據(jù)分類方面。(2)提出了一種基于子空間學習和圖稀疏學習的屬性選擇算法(Graph sparse learning for Feature Selection algorithm based on Subspace learning,縮寫為SG_FS)。屬性選擇是一類常見的用來處理高維數(shù)據(jù)的方法,然而現(xiàn)有的屬性選擇方法存在以下缺陷:簡單地對所有屬性按某一規(guī)則排序或者簡單的通過稀疏學習獲得屬性之間的重要關(guān)系,沒有很好的考慮到屬性間的相關(guān)關(guān)系。本文第四章利用子空間學習的兩種算法(線性判別分析(LDA)和局部保持投影(LPP))考慮數(shù)據(jù)的全局特性和局部特性,同時將子空間學習算法嵌入現(xiàn)有基于稀疏學習的屬性選擇框架中。該方法不僅具有子空間學習方法的優(yōu)越性(即顯著的分類效果)還具有屬性選擇的優(yōu)點(即可解釋性)。在真實數(shù)據(jù)的模擬實驗中,SG FS算法比NFS、PCA、LDA、LPP、LE、L21方法效果要好。提出的基于稀疏學習框架的目標函數(shù)在一定程度上豐富了現(xiàn)有稀疏模型框架,同時也將稀疏學習推廣應用于高維數(shù)據(jù)屬性選擇方面。本文對數(shù)據(jù)挖掘領(lǐng)域中的kNNC算法關(guān)于k值的難以取定和高維數(shù)據(jù)的屬性選擇兩個方面進行了研究,即首先使用稀疏學習的理論和方法來解決這兩個方面現(xiàn)有算法存在的缺陷,然后提出了兩種新的數(shù)據(jù)挖掘算法。論文中提出的每種算法都使用了真實的公開數(shù)據(jù)集進行實驗驗證和分析,在各個評價指標下,本文提出的兩種算法均優(yōu)于現(xiàn)有的常見算法。
[Abstract]:......
【學位授予單位】:廣西師范大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP181;TP311.13
,
本文編號:1351307
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1351307.html
最近更新
教材專著