基于改進(jìn)支持向量機(jī)的數(shù)據(jù)挖掘分類算法研究
本文關(guān)鍵詞:基于改進(jìn)支持向量機(jī)的數(shù)據(jù)挖掘分類算法研究
更多相關(guān)文章: 數(shù)據(jù)挖掘 分類 支持向量機(jī) 隸屬度函數(shù) 不平衡數(shù)據(jù)集 旋轉(zhuǎn)森林算法 核SMOTE方法
【摘要】:隨著信息技術(shù)與計(jì)算機(jī)技術(shù)的飛速發(fā)展,數(shù)據(jù)出現(xiàn)爆炸式增長。而這些海量的數(shù)據(jù)中隱藏著豐富的深具價(jià)值的信息和知識,如何對這些信息和知識進(jìn)行有效的提取并加以利用,成為研究的重點(diǎn)。近年來不斷發(fā)展的數(shù)據(jù)挖掘技術(shù)就是一種能夠幫助人們發(fā)掘潛在有用信息的重要手段。支持向量機(jī)(SVM)作為一種有效的數(shù)據(jù)挖掘分類算法,它以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ)引入結(jié)構(gòu)風(fēng)險(xiǎn)最小化,通過在屬性空間中構(gòu)建最優(yōu)分類超平面獲得分類器實(shí)現(xiàn)對未知樣本的分類,具有泛化能力強(qiáng),較好的非線性數(shù)據(jù)處理等優(yōu)點(diǎn),但也存在一些不足。本文主要圍繞SVM算法展開分析與研究,主要研究成果如下:1.針對FSVM應(yīng)用于數(shù)據(jù)挖掘分類中存在對大樣本集訓(xùn)練速度慢及對噪聲點(diǎn)敏感影響分類正確率的問題,提出了一種基于改進(jìn)FSVM的數(shù)據(jù)挖掘分類算法,該算法首先利用預(yù)選候選支持向量的方法減少訓(xùn)練樣本數(shù)目;其次定義一種新的隸屬度函數(shù)增強(qiáng)支持向量作用,并將近鄰樣本密度運(yùn)用于隸屬度函數(shù)設(shè)計(jì)中,降低噪聲點(diǎn)對分類的影響。試驗(yàn)通過與FSVM和基于類向心度的模糊支持向量機(jī)(CCD-FSVM)算法的結(jié)果對比,驗(yàn)證提出算法的有效性。此外針對FSVM算法進(jìn)行數(shù)據(jù)挖掘分類時(shí)分類速度慢的問題,在保證分類正確率的前提下,提出了一種改進(jìn)的數(shù)據(jù)挖掘FSVM分類算法。該算法使用預(yù)選候選支持向量的方法減少訓(xùn)練樣本數(shù)目,并訓(xùn)練FSVM得到支持向量集;其次將粒子群優(yōu)化運(yùn)用到選擇最優(yōu)支持向量子集中,減少支持向量數(shù)目從而提高分類速度。仿真結(jié)果表明該算法在保證分類正確率的前提下,相比SVM和FSVM訓(xùn)練速度和分類速度更快。2.針對球向量機(jī)(BVM)雖然相較SVM具有較快的訓(xùn)練速度,但是當(dāng)樣本數(shù)目不均衡時(shí)存在分類性能較差的問題,提出了一種基于改進(jìn)BVM的不平衡數(shù)據(jù)集分類算法。該算法先利用訓(xùn)練集分解思想對負(fù)類樣本進(jìn)行分解,并分別與正類樣本組成平衡訓(xùn)練樣本集,然后用旋轉(zhuǎn)森林算法對得到的平衡訓(xùn)練樣本集進(jìn)行預(yù)處理并訓(xùn)練基分類器,最后利用集成技術(shù)對基分類器的分類結(jié)果進(jìn)行集成,提高BVM的分類性能。試驗(yàn)通過對UCI數(shù)據(jù)集進(jìn)行測試,與BVM、ESt SVM、Ada Boost-SVM-OBMS和En SVM算法進(jìn)行對比,表明該算法對于不同的不平衡數(shù)據(jù)集分類結(jié)果相對穩(wěn)定分類性能較高,驗(yàn)證了其有效性。3.針對現(xiàn)實(shí)生活中存在大量高維不平衡數(shù)據(jù),但傳統(tǒng)數(shù)據(jù)挖掘分類算法處理該分類問題時(shí)由于受到樣本分布和維數(shù)的影響導(dǎo)致分類性能不高的問題,提出了一種基于SVM的高維不平衡數(shù)據(jù)集分類算法。該算法利用改進(jìn)的核SMOTE算法合成正類樣本解決樣本分布不均衡的問題,然后在特征空間中運(yùn)用稀疏表示的特征選擇算法對高維數(shù)據(jù)集進(jìn)行降維,最后尋找合成樣本在輸入空間的原像,運(yùn)用SVM進(jìn)行分類。對UCI數(shù)據(jù)集的測試結(jié)果表明,該算法能有效提高對高維不平衡數(shù)據(jù)集的分類性能。
【關(guān)鍵詞】:數(shù)據(jù)挖掘 分類 支持向量機(jī) 隸屬度函數(shù) 不平衡數(shù)據(jù)集 旋轉(zhuǎn)森林算法 核SMOTE方法
【學(xué)位授予單位】:蘭州理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP18;TP311.13
【目錄】:
- 摘要7-9
- Abstract9-13
- 第1章 緒論13-18
- 1.1 研究背景和意義13-14
- 1.2 數(shù)據(jù)挖掘的研究概況14
- 1.3 數(shù)據(jù)挖掘中分類算法的發(fā)展14-16
- 1.3.1 數(shù)據(jù)挖掘分類算法14-15
- 1.3.2 新型支持向量機(jī)15-16
- 1.4 本文研究主要內(nèi)容16-17
- 1.5 本文組織結(jié)構(gòu)17-18
- 第2章 支持向量機(jī)及模糊支持向量機(jī)18-23
- 2.1 支持向量機(jī)18-21
- 2.1.1 統(tǒng)計(jì)學(xué)習(xí)理論18-19
- 2.1.2 SVM理論19-21
- 2.2 模糊支持向量機(jī)21-22
- 2.3 本章小結(jié)22-23
- 第3章 基于改進(jìn)FSVM的數(shù)據(jù)挖掘分類算法23-35
- 3.1 引言23-24
- 3.2 基于改進(jìn)FSVM的數(shù)據(jù)挖掘分類算法24-28
- 3.2.1 預(yù)選有效的候選支持向量24-25
- 3.2.2 一種新的模糊隸屬度函數(shù)25-26
- 3.2.3 基于近鄰樣本密度的模糊隸屬度函數(shù)設(shè)計(jì)26-27
- 3.2.4 算法步驟27-28
- 3.3 一種改進(jìn)的數(shù)據(jù)挖掘FSVM分類算法28-30
- 3.3.1 基本思想28
- 3.3.2 粒子群優(yōu)化算法28
- 3.3.3 編碼方式28-29
- 3.3.4 適應(yīng)度函數(shù)29
- 3.3.5 算法步驟29-30
- 3.4 仿真實(shí)驗(yàn)和結(jié)果分析30-34
- 3.4.1 基于改進(jìn)FSVM的數(shù)據(jù)挖掘分類算法的測試30-32
- 3.4.2 一種改進(jìn)的數(shù)據(jù)挖掘FSVM分類算法的測試32-34
- 3.5 本章小結(jié)34-35
- 第4章 基于改進(jìn)球向量機(jī)的不平衡數(shù)據(jù)集分類算法35-45
- 4.1 引言35-36
- 4.2 球向量機(jī)(BVM)36-38
- 4.2.1 相關(guān)概念36-37
- 4.2.2 球向量機(jī)實(shí)現(xiàn)原理37
- 4.2.3 BVM基本算法步驟37-38
- 4.3 旋轉(zhuǎn)森林算法38-39
- 4.4 基于改進(jìn)BVM的不平衡數(shù)據(jù)集分類算法39-41
- 4.4.1 基于改進(jìn)BVM的不平衡數(shù)據(jù)集分類算法基本思想39
- 4.4.2 基于改進(jìn)BVM的不平衡數(shù)據(jù)集分類算法基本步驟39-41
- 4.5 仿真實(shí)驗(yàn)及結(jié)果分析41-44
- 4.5.1 評價(jià)標(biāo)準(zhǔn)41-42
- 4.5.2 仿真實(shí)驗(yàn)結(jié)果及分析42-44
- 4.6 本章小結(jié)44-45
- 第5章 基于SVM的高維不平衡數(shù)據(jù)集分類算法45-55
- 5.1 引言45-46
- 5.2 改進(jìn)的核SMOTE算法46-47
- 5.3 核稀疏表示特征選擇算法47-48
- 5.4 尋找合成樣本原像48-50
- 5.5 基于SVM的高維不平衡數(shù)據(jù)集分類算法基本步驟50-52
- 5.6 仿真實(shí)驗(yàn)和結(jié)果分析52-54
- 5.7 本章小結(jié)54-55
- 第6章 結(jié)論與展望55-57
- 6.1 結(jié)論55-56
- 6.2 展望56-57
- 參考文獻(xiàn)57-63
- 致謝63-64
- 附錄 攻讀學(xué)位期間所發(fā)表的學(xué)術(shù)論文64
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李洪成;吳曉平;陳燕;;MapReduce框架下支持差分隱私保護(hù)的k-means聚類方法[J];通信學(xué)報(bào);2016年02期
2 王平;吳劍;;基于模糊加權(quán)近似支持向量機(jī)的Web文本分類[J];計(jì)算機(jī)應(yīng)用與軟件;2015年05期
3 高智勇;霍偉漢;高建民;姜洪權(quán);;化工系統(tǒng)海量數(shù)據(jù)的擴(kuò)散映射和異常辨識[J];計(jì)算機(jī)集成制造系統(tǒng);2014年12期
4 尹華;胡玉平;;基于隨機(jī)森林的不平衡特征選擇算法[J];中山大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年05期
5 古平;歐陽源怞;;基于混合采樣的非平衡數(shù)據(jù)集分類研究[J];計(jì)算機(jī)應(yīng)用研究;2015年02期
6 許翠云;業(yè)寧;;基于類向心度的模糊支持向量機(jī)[J];計(jì)算機(jī)工程與科學(xué);2014年08期
7 饒萍;王建力;王勇;;基于多特征決策樹的建設(shè)用地信息提取[J];農(nóng)業(yè)工程學(xué)報(bào);2014年12期
8 汪海燕;黎建輝;楊風(fēng)雷;;支持向量機(jī)理論及算法研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2014年05期
9 何清;李寧;羅文娟;史忠植;;大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J];模式識別與人工智能;2014年04期
10 強(qiáng)彥;裴博;趙涓涓;路景貴;;模糊支持向量機(jī)在肺結(jié)節(jié)良惡性分類中的應(yīng)用[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年03期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 朱林;基于特征加權(quán)與特征選擇的數(shù)據(jù)挖掘算法研究[D];上海交通大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 楊二偉;基于改進(jìn)非平衡策略的入侵檢測系統(tǒng)研究[D];鄭州大學(xué);2014年
2 王國才;樸素貝葉斯分類器的研究與應(yīng)用[D];重慶交通大學(xué);2010年
,本文編號:838063
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/838063.html