基于結(jié)構(gòu)化SVM的直接優(yōu)化不平衡準(zhǔn)則算法研究
本文關(guān)鍵詞:基于結(jié)構(gòu)化SVM的直接優(yōu)化不平衡準(zhǔn)則算法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:近年來,隨著現(xiàn)代計算機(jī)技術(shù)的高速發(fā)展,在科學(xué)研究和社會生活等各個領(lǐng)域中積累了大量的數(shù)據(jù),為各種不同應(yīng)用提供了重要的支持。與此同時如何從這些數(shù)據(jù)中發(fā)現(xiàn)更多的有用信息也成為人們的一個迫切需求,數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的出現(xiàn)很好地滿足了這一需求。作為數(shù)據(jù)挖掘中的一個基本方法:分類學(xué)習(xí)已經(jīng)引起廣大科研工作者的關(guān)注,而二分類更是由于其廣泛的應(yīng)用基礎(chǔ)成為其中的研究重點(diǎn),但是在真實(shí)的應(yīng)用中,很多二分類場景都是不平衡的,已有的平衡二分類算法難以直接使用,對此,近些年人們提出研究面向不平衡數(shù)據(jù)集的二分類算法,其基本思路分為面向數(shù)據(jù)的改進(jìn)和面向算法的改進(jìn);而后者更是由于不需要對數(shù)據(jù)做預(yù)處理成為當(dāng)前研究的重點(diǎn)。本文就是在此基礎(chǔ)上,以SVM為工具,重點(diǎn)研究了基于結(jié)構(gòu)化SVM的不平衡二分類算法,文中首先介紹了基于SVM的二分類算法以及不平衡二分類的應(yīng)用背景,然后分析了不平衡二分類算法的研究現(xiàn)狀,并在此基礎(chǔ)上提出采用基于直接優(yōu)化不平衡準(zhǔn)則的方法來構(gòu)造面向不平衡數(shù)據(jù)的改進(jìn)SVM算法。不同于已有基于SVM的改進(jìn)算法,本文提出將不平衡二分類問題看成一個學(xué)習(xí)分類隊(duì)列的過程,并提出使用結(jié)構(gòu)化SVM進(jìn)行求解。本文的主要工作有:(1)針對AM,QM等不平衡評價準(zhǔn)則,提出使用基于n-slack的結(jié)構(gòu)化SVM作為算法框架,并定義了面向AM和QM的目標(biāo)函數(shù)。針對目標(biāo)函數(shù)的非光滑難以直接優(yōu)化,提出使用割平面算法進(jìn)行求解,使得算法的迭代次數(shù)為o(1/s2),其中ε為允許的錯誤。同時針對AM,QM算法內(nèi)部“尋找最大最違約”子過程,分別設(shè)計了兩個高效的算法,其時間復(fù)雜度均僅為o(mlogm)。不平衡數(shù)據(jù)集上的實(shí)驗(yàn)表明:所提算法不僅明顯優(yōu)于傳統(tǒng)SVM算法,且相比起面向數(shù)據(jù)的改進(jìn)算法也更加有效。(2)針對GTP/PR評估標(biāo)準(zhǔn),提出一個基于1-slack結(jié)構(gòu)化SVM的直接優(yōu)化算法。算法首先定義了面向GTP/PR的目標(biāo)函數(shù),該目標(biāo)比已有面向F1的目標(biāo)函數(shù)更緊湊,針對新目標(biāo)函數(shù)非光滑,提出使用基于1-slack的割平面算法進(jìn)行求解,使得算法的迭代次數(shù)僅為o(1/ε),也更適合大規(guī)模的應(yīng)用場景。面向大規(guī)模不平衡數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,所提算法不僅優(yōu)于已有其他的改進(jìn)算法,且算法的效率更加高效。
【關(guān)鍵詞】:結(jié)構(gòu)化支持向量機(jī) 不平衡二分類數(shù)據(jù)集 面向數(shù)據(jù) 面向算法 AM QM GTP/PR
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13;TP181
【目錄】:
- 摘要3-5
- Abstract5-12
- 第一章 緒論12-18
- 1.1 研究背景及意義12-13
- 1.2 國內(nèi)外研究現(xiàn)狀13-17
- 1.2.1 二分類算法的研究現(xiàn)狀13-14
- 1.2.2 面向SVM的二分類算法研究現(xiàn)狀14-16
- 1.2.3 面向不平衡二分類算法的研究現(xiàn)狀16-17
- 1.3 本文的工作與安排17-18
- 第二章 基于SVM的二分類算法18-26
- 2.1 二分類算法的概述18-19
- 2.2 SVM概述19-23
- 2.2.1 SVM的基本原理19
- 2.2.2 線性SVM19-22
- 2.2.3 非線性SVM22-23
- 2.3 二分類算法的評價準(zhǔn)則23-25
- 2.4 本章小結(jié)25-26
- 第三章 面向不平衡數(shù)據(jù)的二分類概述26-34
- 3.1 不平衡數(shù)據(jù)的來源及應(yīng)用背景26
- 3.2 不平衡二分類的評估標(biāo)準(zhǔn)26-28
- 3.3 不平衡二分類的改進(jìn)28-31
- 3.3.1 面向數(shù)據(jù)的改進(jìn)28-29
- 3.3.2 面向算法的改進(jìn)29-31
- 3.4 實(shí)驗(yàn)及結(jié)果分析31-33
- 3.5 本章小結(jié)33-34
- 第四章 基于結(jié)構(gòu)化SVM的直接優(yōu)化算法研究34-48
- 4.1 直接優(yōu)化算法的基本思想34-37
- 4.2 基于結(jié)構(gòu)化SVM的直接優(yōu)化AM算法37-40
- 4.2.1 面向AM目標(biāo)函數(shù)定義37-39
- 4.2.2 分解優(yōu)化最大最違約子目標(biāo)39-40
- 4.3 基于結(jié)構(gòu)化SVM的直接優(yōu)化QM算法40-42
- 4.3.1 面向的QM目標(biāo)函數(shù)定義40-41
- 4.3.2 求解面向QM最大最違約子問題41-42
- 4.4 不平衡數(shù)據(jù)集上的實(shí)驗(yàn)42-47
- 4.4.1 實(shí)驗(yàn)數(shù)據(jù)集及比較算法42-43
- 4.4.2 實(shí)驗(yàn)結(jié)果及分析43-47
- 4.5 本章小結(jié)47-48
- 第五章 基于1-slack SVM的直接優(yōu)化GTP/PR算法研究48-59
- 5.1 從n-slack SVM到1-slack SVM48-49
- 5.2 直接優(yōu)化GTP/PR的不平衡算法49-52
- 5.2.1 GTP/PR和F1評估標(biāo)準(zhǔn)簡介49-50
- 5.2.2 更緊湊的目標(biāo)上界50-52
- 5.3 基于1-slack SVM的直接優(yōu)化GTP/PR算法52-53
- 5.3.1 面向GTP/PR目標(biāo)函數(shù)的定義52
- 5.3.2 基于1-slack的割平面算法求解最大最違約子目標(biāo)52-53
- 5.4 不平衡數(shù)據(jù)集上的實(shí)驗(yàn)53-58
- 5.4.0 實(shí)驗(yàn)數(shù)據(jù)集及比較算法53-54
- 5.4.1 基于n-slack和1-slack的GTP/PR算法比較54-55
- 5.4.2 基于1-slack的GTP/PR算法和其它直接優(yōu)化算法比較55-58
- 5.5 本章小結(jié)58-59
- 第六章 總結(jié)與展望59-61
- 6.1 工作總結(jié)59-60
- 6.2 未來展望60-61
- 參考文獻(xiàn)61-67
- 致謝67-68
- 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文68-69
- 攻讀學(xué)術(shù)期間參加的科研項(xiàng)目69
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王勝祥;現(xiàn)實(shí)、實(shí)踐與理論——兼談圖書館高位理論[J];黑龍江圖書館;1990年02期
2 王健庭;火信號的采集與相關(guān)修正[J];數(shù)據(jù)采集與處理;1987年02期
3 陳國階;我國東西部發(fā)展不平衡與西部開發(fā)[J];科技導(dǎo)報;1995年07期
4 王萌;施艷艷;王海明;沈明輝;;不平衡電網(wǎng)電壓下雙饋風(fēng)力發(fā)電系統(tǒng)強(qiáng)勵控制[J];測控技術(shù);2014年07期
5 漫征;;克服地區(qū)落后論的錯誤思想[J];新聞戰(zhàn)線;1960年11期
6 ;來稿選題建議[J];青年研究;1999年01期
7 沈睿;;區(qū)域發(fā)展不平衡——不同地域中小企業(yè)信息化建設(shè)差距較大[J];每周電腦報;2004年08期
8 張昕竹;用電信普遍服務(wù)政策改善經(jīng)濟(jì)發(fā)展不平衡[J];通信世界;2001年16期
9 周耘;;試論我國年鑒發(fā)展的不平衡性[J];圖書館學(xué)研究;1987年04期
10 劉葉婷;;智慧城市應(yīng)依“標(biāo)”而建[J];信息化建設(shè);2013年09期
中國重要會議論文全文數(shù)據(jù)庫 前6條
1 張雨石;唐麗敏;王庸凱;陳文科;;關(guān)于中日航線集裝箱運(yùn)量不平衡原因的分析[A];中國航海學(xué)會——2004年度學(xué)術(shù)交流會優(yōu)秀論文集[C];2004年
2 廖芳宇;;基于LabVIEW的三相不平衡的測量[A];2011年云南電力技術(shù)論壇論文集(入選部分)[C];2011年
3 沙鵬程;;關(guān)于西部民營企業(yè)可持續(xù)發(fā)展的思考[A];第十四次全國回族學(xué)研討會論文匯編[C];2003年
4 張敦偉;丁博;;配電網(wǎng)三相不平衡補(bǔ)償?shù)奶接慬A];2007中國電機(jī)工程學(xué)會電力系統(tǒng)自動化專委會供用電管理自動化學(xué)科組(分專委會)二屆三次會議論文集[C];2007年
5 王仲生;王翔;;轉(zhuǎn)子不平衡自愈監(jiān)控系統(tǒng)設(shè)計[A];第七屆全國信息獲取與處理學(xué)術(shù)會議論文集[C];2009年
6 王中卿;李壽山;朱巧明;李培峰;周國棟;;基于不平衡數(shù)據(jù)的中文情感分類[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者 劉金松;教育最大的不公平是教育資源不平衡[N];經(jīng)濟(jì)觀察報;2014年
2 程凱;解決不平衡還要靠市場[N];中華工商時報;2005年
3 本報見習(xí)記者 周寧;示范小城鎮(zhèn)建設(shè)“四個不平衡”[N];經(jīng)濟(jì)信息時報;2013年
4 記者 張黎明;我市治堵工作進(jìn)展不平衡[N];金華日報;2014年
5 本報記者 任s,
本文編號:337556
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/337556.html