支持向量機關(guān)鍵技術(shù)及其在人體活動識別中的應用研究
本文關(guān)鍵詞:支持向量機關(guān)鍵技術(shù)及其在人體活動識別中的應用研究,由筆耕文化傳播整理發(fā)布。
【摘要】:支持向量機本質(zhì)上是一個線性不等式約束下的凸二次優(yōu)化問題,它通過計算最佳分割超平面實現(xiàn)對兩類數(shù)據(jù)的分類,所得的分類超平面到其兩邊離它最近的數(shù)據(jù)點的距離相等。對于非線性可分數(shù)據(jù),支持向量機往往通過核函數(shù)的映射,在新的Hilbert特征空間中搜索最優(yōu)超平面。支持向量機完全由支持向量決定,支持向量是處于不同類數(shù)據(jù)邊緣區(qū)域的包含信息量最大的數(shù)據(jù)點。支持向量機存在的主要問題在于:涉及到核矩陣內(nèi)積運算、核函數(shù)及支持向量機相關(guān)參數(shù)的尋優(yōu)運算等,經(jīng)典支持向量機訓練和預測的速度比較慢;傳統(tǒng)的支持向量機在對類不均衡數(shù)據(jù)分類時,由于少數(shù)類數(shù)據(jù)的缺失,尤其是少數(shù)類數(shù)據(jù)邊緣區(qū)域數(shù)據(jù)點的缺乏,將導致決策超平面向少數(shù)類一側(cè)偏移,嚴重影響了其對少數(shù)類數(shù)據(jù)的泛化能力;支持向量機是兩類數(shù)據(jù)的分類算法,不適宜直接處理多類數(shù)據(jù)的分類問題。支持向量機在面對規(guī)模較大的多類類不均衡數(shù)據(jù)(Multi-Class Class Imbalanced Data)時,前面述及的問題尤為突出。針對以上問題,本文對支持向量機基于網(wǎng)格搜索的參數(shù)尋優(yōu)機制進行了研究;通過融合數(shù)據(jù)預處理、數(shù)據(jù)特征抽取等方法對基于系綜學習的支持向量機進行了研究;在支持向量機不均衡數(shù)據(jù)分類等方面做了一些工作;研究了基于多線程并行化的不均衡數(shù)據(jù)多分類支持向量機系綜學習方法,并在人體活動識別領(lǐng)域進行了應用研究。本文的主要研究成果如下:(1)提出了一種基于多級網(wǎng)格搜索的支持向量機算法——PMSVM。該算法首先用較粗粒度的步長在一個較大的空間內(nèi)進行參數(shù)搜索,然后根據(jù)得到的中間結(jié)果,自適應調(diào)整網(wǎng)格搜索的邊界及步長值,在縮減了的搜索空間內(nèi)用較細粒度的步長進行新的迭代,重復這一過程,直到得到最佳的參數(shù)值。網(wǎng)格搜索屬于典型的貪婪算法,通過逐步縮減搜索空間及調(diào)整步長,能夠極大地提高網(wǎng)格搜索的效率。本文在利用系統(tǒng)歸一化及主成分分析進行數(shù)據(jù)預處理的基礎上,融合了所提出的多級網(wǎng)格搜索技術(shù),實現(xiàn)了支持向量機分類算法,并通過實驗,在多個分層抽樣數(shù)據(jù)集及隨機抽樣數(shù)據(jù)集上驗證了PMSVM這一支持向量機分類算法的準確性與高效性。(2)提出了一種基于系綜學習的支持向量機分類算法——PEnSVM。首先對原始數(shù)據(jù)集按列進行歸一化,接著在歸一化數(shù)據(jù)集上進行holdout抽樣,在得到的訓練集上以一個給定的主成分閾值選擇相應比例的主成分作為真正的訓練集,并在該訓練集上構(gòu)建基支持向量機分類器。自動調(diào)整主成分閾值,重復holdout抽樣及其后的PCA及基支持向量機分類器的建模過程,直到得到所需數(shù)量的基分類器(Base Classifier)為止。傳統(tǒng)的系綜學習方法都是將多個同質(zhì)的基分類器集成以得到總的系綜學習模型,本文通過將構(gòu)建在不同閡值主成分基礎上的差異化的基支持向量機分類器用Bagging方法進行集成,并運用多數(shù)投票策略實現(xiàn)了最終的系綜學習支持向量機算法。通過實驗,在5個Benchmark數(shù)據(jù)集上測試了PEnSVM算法的性能,證明了算法的有效性與魯棒性。(3)提出了一種在KNN圖與最小生成樹基礎上進行SMOTE過抽樣的支持向量機不均衡數(shù)據(jù)分類算法——KMSSVM。該方法首先在不均衡數(shù)據(jù)集的作為少數(shù)類的正類數(shù)據(jù)上構(gòu)建KNN圖,然后生成該KNN圖的最小生成樹(MST)。進一步,在所得的最小生成樹的葉節(jié)點上,通過SMOTE算法插入滿足要求的新的合成樣本。利用KNN圖能夠清除數(shù)據(jù)集中的部分離群點。傳統(tǒng)的SMOTE算法通過隨機選擇正類樣本以插入新數(shù)據(jù)點。本文通過在KNN圖上構(gòu)建MST,所選擇出的MST的葉節(jié)點應該是該類數(shù)據(jù)邊緣區(qū)域的數(shù)據(jù)點,在這些點與其同類的K近鄰間插值,得到的均衡化數(shù)據(jù)集更有利于訓練得到對少數(shù)類數(shù)據(jù)泛化能力更高的支持向量機。通過在不均衡程度不一的3個UCI Benchmark數(shù)據(jù)集上的實驗,證明了KMSSVM是個有效的不均衡數(shù)據(jù)分類算法。(4)提出了一種基于多分類的系綜學習支持向量機不均衡數(shù)據(jù)分類算法——BEnSVM。該方法通過分層自助抽樣,將原始數(shù)據(jù)集劃分成很多微子集,然后在每個微子集上用One-Versus-One方法構(gòu)建基多分類支持向量機,BEnSVM就是為數(shù)眾多的基多分類支持向量機分類器按多數(shù)投票原則集成后實現(xiàn)的,該算法適合于大規(guī)模多類不均衡數(shù)據(jù)的分類。初始的多分類基支持向量機建立在備個微子集上,使得支持向量機對偶形式的計算復雜度以幾個數(shù)量級的方式降低,而且用于構(gòu)建多分類支持向量機的弱二分類支持向量機分類器是以多線程并行的方式編程實現(xiàn)的,進一步降低了計算復雜度。通過在一個真實的包含有165,633條數(shù)據(jù)樣本的,擁有5個不同類標簽的不均衡人體活動識別數(shù)據(jù)集上的實驗,證明了BEnSVM是一個計算復雜度較低、分類精度較高的多分類不均衡數(shù)據(jù)支持向量機分類算法。
【關(guān)鍵詞】:統(tǒng)計學習理論 支持向量機 分類 核函數(shù) 網(wǎng)格搜索 系綜學習 不均衡學習 人體活動識別
【學位授予單位】:蘭州大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP18
【目錄】:
- 中文摘要3-5
- ABSTRACT5-14
- 第1章 緒論14-27
- 1.1 研究背景與意義14-17
- 1.2 國內(nèi)外研究現(xiàn)狀17-22
- 1.2.1 支持向量機研究現(xiàn)狀17-21
- 1.2.2 人體活動識別研究現(xiàn)狀21-22
- 1.3 論文的研究內(nèi)容與組織22-27
- 1.3.1 本文主要工作及貢獻22-24
- 1.3.2 論文的組織結(jié)構(gòu)24-27
- 第2章 統(tǒng)計學習理論與支持向量機27-46
- 2.1 統(tǒng)計學習理論基礎27-36
- 2.1.1 機器學習及其發(fā)展歷程27-30
- 2.1.2 統(tǒng)計學習理論的發(fā)展歷程30-31
- 2.1.3 學習過程的一致性31-32
- 2.1.4 VC維32-34
- 2.1.5 推廣性的界34-35
- 2.1.6 結(jié)構(gòu)風險最小化準則35-36
- 2.2 最優(yōu)分類超平面與支持向量機36-45
- 2.2.1 最優(yōu)分類超平面36-38
- 2.2.2 最優(yōu)分類超平面的構(gòu)造38-41
- 2.2.3 支持向量機41-45
- 2.3 小結(jié)45-46
- 第3章 基于PCA及多級網(wǎng)格搜索的支持向量機算法46-69
- 3.1 簡介46
- 3.2 支持向量機的數(shù)學本質(zhì)46-52
- 3.2.1 分類的概念46-47
- 3.2.2 支持向量機的數(shù)學過程47-52
- 3.3 主成分分析52-53
- 3.4 PMSVM分類模型53-56
- 3.4.1 系統(tǒng)歸一化53-54
- 3.4.2 分層K折交叉驗證54
- 3.4.3 多級網(wǎng)格搜索54-56
- 3.5 實驗分析56-68
- 3.5.1 實驗數(shù)據(jù)集及數(shù)據(jù)預處理56-57
- 3.5.2 實驗結(jié)果及討論57-68
- 3.6 小結(jié)68-69
- 第4章 基于PCA及系綜學習的支持向量機算法69-81
- 4.1 簡介69
- 4.2 C-SVC支持向量機與核函數(shù)69-76
- 4.2.1 原始問題的提出69-70
- 4.2.2 原始問題與對偶問題的關(guān)系70-72
- 4.2.3 構(gòu)建C-SVC支持向量機分類器72
- 4.2.4 Hilbert空間與核函數(shù)72-76
- 4.3 PENSVM系綜學習模型76-77
- 4.3.1 PEnSVM的基本思想76
- 4.3.2 PEnSVM模型框圖及偽碼表示76-77
- 4.4 實驗分析77-80
- 4.4.1 實驗數(shù)據(jù)集及數(shù)據(jù)預處理78
- 4.4.2 實驗結(jié)果及討論78-80
- 4.5 小結(jié)80-81
- 第5章 基于少數(shù)類過抽樣的支持向量機不均衡數(shù)據(jù)分類81-96
- 5.1 簡介81-82
- 5.2 不均衡學習82-87
- 5.2.1 問題的本質(zhì)82-84
- 5.2.2 不均衡學習算法性能評估指標84-87
- 5.3 算法基本思想87-89
- 5.3.1 KNN圖及最小生成樹的構(gòu)建87-88
- 5.3.2 合成樣本產(chǎn)生方式的優(yōu)化88
- 5.3.3 所提出的過抽樣方法88-89
- 5.4 實驗分析89-95
- 5.4.1 實驗采用的數(shù)據(jù)集89-91
- 5.4.2 實驗結(jié)果及討論91-95
- 5.5 小結(jié)95-96
- 第6章 BENSVM及其在人體活動識別中的應用研究96-111
- 6.1 簡介96-97
- 6.2 BENSVM算法的基本思想97-98
- 6.3 實驗分析98-110
- 6.3.1 數(shù)據(jù)集及數(shù)據(jù)預處理98-104
- 6.3.2 實驗結(jié)果及討論104-110
- 6.4 小結(jié)110-111
- 第7章 總結(jié)與展望111-114
- 7.1 本文工作總結(jié)111-112
- 7.2 后續(xù)工作展望112-114
- 參考文獻114-120
- 在學期間的研究成果120-122
- 致謝122
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 吳娟;范玉妹;王麗;;關(guān)于改進的支持向量機的研究[J];攀枝花學院學報;2006年05期
2 劉碩明;劉佳;楊海濱;;一種新的多類支持向量機算法[J];計算機應用;2008年S2期
3 尹傳環(huán);牟少敏;田盛豐;黃厚寬;;單類支持向量機的研究進展[J];計算機工程與應用;2012年12期
4 王云英;閻滿富;;C-支持向量機及其改進[J];唐山師范學院學報;2012年05期
5 李逢煥;;試述不確定支持向量機應用分析及改進思路[J];中國證券期貨;2012年12期
6 邵惠鶴;支持向量機理論及其應用[J];自動化博覽;2003年S1期
7 曾嶸,蔣新華,劉建成;基于支持向量機的異常值檢測的兩種方法[J];信息技術(shù);2004年05期
8 張凡,賀蘇寧;模糊判決支持向量機在自動語種辨識中的研究[J];計算機工程與應用;2004年21期
9 魏玲,張文修;基于支持向量機集成的分類[J];計算機工程;2004年13期
10 沈翠華,鄧乃揚,肖瑞彥;基于支持向量機的個人信用評估[J];計算機工程與應用;2004年23期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 余樂安;姚瀟;;基于中心化支持向量機的信用風險評估模型[A];第六屆(2011)中國管理學年會——商務智能分會場論文集[C];2011年
2 劉希玉;徐志敏;段會川;;基于支持向量機的創(chuàng)新分類器[A];山東省計算機學會2005年信息技術(shù)與信息化研討會論文集(一)[C];2005年
3 史曉濤;劉建麗;駱玉榮;;一種抗噪音的支持向量機學習方法[A];全國第19屆計算機技術(shù)與應用(CACIS)學術(shù)會議論文集(下冊)[C];2008年
4 何琴淑;劉信恩;肖世富;;基于支持向量機的系統(tǒng)辨識方法研究及應用[A];中國力學大會——2013論文摘要集[C];2013年
5 劉駿;;基于支持向量機方法的衢州降雪模型[A];第五屆長三角氣象科技論壇論文集[C];2008年
6 王婷;胡秀珍;;基于組合向量的支持向量機方法預測膜蛋白類型[A];第十一次中國生物物理學術(shù)大會暨第九屆全國會員代表大會摘要集[C];2009年
7 趙晶;高雋;張旭東;謝昭;;支持向量機綜述[A];全國第十五屆計算機科學與技術(shù)應用學術(shù)會議論文集[C];2003年
8 周星宇;王思元;;智能數(shù)學與支持向量機[A];2005年中國智能自動化會議論文集[C];2005年
9 顏根廷;馬廣富;朱良寬;宋斌;;一種魯棒支持向量機算法[A];2006中國控制與決策學術(shù)年會論文集[C];2006年
10 侯澍e,
本文編號:430427
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/430427.html