基于支持向量機(jī)的不平衡數(shù)據(jù)分類(lèi)算法研究
本文關(guān)鍵詞:基于支持向量機(jī)的不平衡數(shù)據(jù)分類(lèi)算法研究
更多相關(guān)文章: 支持向量機(jī) 類(lèi)不平衡學(xué)習(xí) 集成學(xué)習(xí) 分類(lèi) DNA微陣列數(shù)據(jù)
【摘要】:在這個(gè)信息爆炸的時(shí)代,數(shù)據(jù)量的龐大已經(jīng)引起人們的高度重視,因此需要尋找其規(guī)律并對(duì)其進(jìn)行充分利用。分類(lèi)問(wèn)題是處理大量數(shù)據(jù)時(shí)最常遇到的問(wèn)題,它已經(jīng)成為機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)重要研究?jī)?nèi)容。與傳統(tǒng)的分類(lèi)方法相比,,支持向量機(jī)具有泛化能力強(qiáng)、不易陷入局部極小值、高維和小樣本適應(yīng)性等優(yōu)點(diǎn),能更好地解決過(guò)學(xué)習(xí)、維數(shù)災(zāi)難、局部極小值等問(wèn)題,因此支持向量機(jī)是本文首要考慮的分類(lèi)方法。支持向量機(jī)(SVM)主要思想是通過(guò)核函數(shù)將訓(xùn)練集映射到高維空間。研究表明支持向量機(jī)對(duì)平衡數(shù)據(jù)有較好的分類(lèi)效果,而對(duì)非平衡數(shù)據(jù)分類(lèi)效果較差。其中主要原因是支持向量機(jī)的分類(lèi)超平面僅僅是由少量的支持向量所決定的。支持向量機(jī)在處理不平衡數(shù)據(jù)分類(lèi)問(wèn)題時(shí),其預(yù)測(cè)具有一定的傾向性,對(duì)于樣本數(shù)量多的類(lèi)別,其分類(lèi)誤差小,而對(duì)于樣本數(shù)量少的類(lèi)別,其分類(lèi)誤差大。 針對(duì)以上問(wèn)題,本文主要圍繞如何使用支持向量機(jī)對(duì)不平衡數(shù)據(jù)進(jìn)行分類(lèi)的問(wèn)題展開(kāi)研究,主要研究?jī)?nèi)容包括以下兩個(gè)方面: (1)用于處理二分類(lèi)問(wèn)題的SVM優(yōu)化決策閾值調(diào)整算法(SVM-OTHR)及其擴(kuò)展的集成分類(lèi)算法(EnSVM-OTHR)。在本文中,考慮提出一種基于支持向量機(jī)的最優(yōu)決策閾值調(diào)整策略(SVM-OTHR),并利用其來(lái)解決類(lèi)不平衡問(wèn)題,希望其能回答一個(gè)令人困惑的問(wèn)題:分類(lèi)超平面應(yīng)該移動(dòng)多大距離?具體來(lái)講,該策略是自適應(yīng)的,可以根據(jù)訓(xùn)練樣本的分布找到分類(lèi)超平面的最優(yōu)移動(dòng)距離。此外,本文也擴(kuò)展了該策略,提出一種集成分類(lèi)算法(EnSVM-OTHR),進(jìn)一步提高了分類(lèi)性能。通過(guò)10個(gè)UCI數(shù)據(jù)集驗(yàn)證了上述兩種算法的有效性。 (2)用于處理高維多類(lèi)不平衡數(shù)據(jù)分類(lèi)問(wèn)題的集成SVM方法。該方法的思想是利用一對(duì)多編碼策略將多分類(lèi)問(wèn)題轉(zhuǎn)化為多個(gè)二分類(lèi)問(wèn)題,接下來(lái),引入特征子空間策略生成大量的差異訓(xùn)練子集,然后,在每個(gè)訓(xùn)練子集上使用兩種不同的偏倚修正策略(決策閾值調(diào)整和隨機(jī)欠采樣),以減輕類(lèi)不平衡分布對(duì)分類(lèi)性能的危害。最后,使用支持向量機(jī)作為基分類(lèi)器,利用計(jì)數(shù)器投票方法做出最終的分類(lèi)決策。通過(guò)8個(gè)多類(lèi)癌癥微陣列數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:該方法明顯優(yōu)于一些傳統(tǒng)的分類(lèi)方法,可有效提升分類(lèi)性能。
【學(xué)位授予單位】:江蘇科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP18
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 劉斌,李卓,劉鐵男,喻勝陽(yáng),任珍珍;一種基于支持向量機(jī)建模的新型自適應(yīng)濾波器[J];大慶石油學(xué)院學(xué)報(bào);2005年04期
2 吳洪興;彭宇;彭喜元;;適用于不平衡樣本數(shù)據(jù)處理的支持向量機(jī)方法[J];電子學(xué)報(bào);2006年S1期
3 郭喬進(jìn);李立斌;李寧;;一種用于不平衡數(shù)據(jù)分類(lèi)的改進(jìn)AdaBoost算法[J];計(jì)算機(jī)工程與應(yīng)用;2008年21期
4 翟云;楊炳儒;曲武;;不平衡類(lèi)數(shù)據(jù)挖掘研究綜述[J];計(jì)算機(jī)科學(xué);2010年10期
5 李秋潔;茅耀斌;王執(zhí)銓;;基于Boosting的不平衡數(shù)據(jù)分類(lèi)算法研究[J];計(jì)算機(jī)科學(xué);2011年12期
6 于化龍;高尚;趙靖;秦斌;;基于過(guò)采樣技術(shù)和隨機(jī)森林的不平衡微陣列數(shù)據(jù)分類(lèi)方法研究[J];計(jì)算機(jī)科學(xué);2012年05期
7 賈慧星;章毓晉;;基于動(dòng)態(tài)權(quán)重裁剪的快速Adaboost訓(xùn)練算法[J];計(jì)算機(jī)學(xué)報(bào);2009年02期
8 林智勇;郝志峰;楊曉偉;;不平衡數(shù)據(jù)分類(lèi)的研究現(xiàn)狀[J];計(jì)算機(jī)應(yīng)用研究;2008年02期
9 陳思;郭躬德;陳黎飛;;基于聚類(lèi)融合的不平衡數(shù)據(jù)分類(lèi)方法[J];模式識(shí)別與人工智能;2010年06期
10 葉云龍;楊明;;基于隨機(jī)子空間的多分類(lèi)器集成[J];南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版);2008年04期
本文編號(hào):1291236
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1291236.html