基于AUC的分類器性能評(píng)估問(wèn)題研究
發(fā)布時(shí)間:2017-07-03 23:19
本文關(guān)鍵詞:基于AUC的分類器性能評(píng)估問(wèn)題研究
更多相關(guān)文章: 機(jī)器學(xué)習(xí) AUC 分類模型 錯(cuò)誤代價(jià) 實(shí)例得分
【摘要】:近幾十年來(lái),隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,人工智能被人們廣泛關(guān)注和深入研究,其分支機(jī)器學(xué)習(xí)也快速崛起并已經(jīng)滲透到社會(huì)的各個(gè)領(lǐng)域。其中,分類模型是其重要研究方向,分類模型的性能一般用準(zhǔn)確率和召回率來(lái)衡量。然而,當(dāng)數(shù)據(jù)集的類別分布不平衡時(shí),準(zhǔn)確率和召回率并不能保證分類模型性能評(píng)估的準(zhǔn)確性。ROC(Receiver Operating Characteristic,接收者操作特征曲線)評(píng)估算法衡量了分類模型在任何數(shù)據(jù)集類別分布情況下的性能,并用AUC(area under the curve,曲線下方面積)量化ROC曲線性能。由于數(shù)據(jù)集類別分布比例的不確定性,ROC曲線在分類模型性能評(píng)估中變得越來(lái)越重要。ROC和AUC在分類模型性能評(píng)估中已經(jīng)得到廣泛應(yīng)用,但普通的AUC和ROC卻存在一些缺陷:首先是公認(rèn)的AUC的計(jì)算只利用得分排序而忽略了得分值;然后是AUC對(duì)分類錯(cuò)誤代價(jià)是弱敏感的,分類模型性能會(huì)因?yàn)殄e(cuò)誤代價(jià)而存在很大差別。所以,本文將分兩部分進(jìn)行討論。第一部分針對(duì)得分值提出了切割點(diǎn)和切割函數(shù)的概念,進(jìn)而提出sor ROC曲線和sor AUC:根據(jù)P-N對(duì)設(shè)置切割點(diǎn)和切割函數(shù),最終得到sor ROC曲線,sor AUC即為sor ROC曲線下方面積;第二部分基于假正例和假負(fù)例,從不同錯(cuò)誤代價(jià)的角度提出v AUC和v ROC的概念:將v AUC看做一塊厚度均勻且各個(gè)區(qū)域密度不同的1*1的板子,用ROC對(duì)其進(jìn)行切割,剩下板子質(zhì)量即為v AUC。在提出新算法之后,本文提出算法相關(guān)的幾條定義,然后從理論上推導(dǎo)證明了算法的若干性質(zhì)并用一個(gè)簡(jiǎn)單的實(shí)例說(shuō)明了新算法和普通AUC、ROC的優(yōu)劣。最后,本文使用UCI數(shù)據(jù)集對(duì)新算法和AUC進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)分為兩個(gè)部分:第一部分將sor AUC和AUC、s AUC、p AUC作對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)表明sor AUC比AUC更精確,并且與s AUC、p AUC具有相同的性能評(píng)估能力,而且sor ROC曲線的繪制比p ROC曲線更簡(jiǎn)單、可靠;第二部分將v AUC和AUC、s AUC、p AUC進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)表明:v AUC充分利用了樣本實(shí)例的錯(cuò)誤代價(jià),使其對(duì)分類模型的評(píng)估更精確,也更具針對(duì)性。在錯(cuò)分代價(jià)不同的情況下,v AUC具有更好的性能評(píng)估能力,也更接近于真實(shí)的結(jié)果。
【關(guān)鍵詞】:機(jī)器學(xué)習(xí) AUC 分類模型 錯(cuò)誤代價(jià) 實(shí)例得分
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP181
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 緒論10-17
- 1.1 研究背景及選題意義10-12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-15
- 1.2.1 關(guān)于分類器的研究12-14
- 1.2.2 關(guān)于分類模型評(píng)估算法的研究14-15
- 1.3 論文結(jié)構(gòu)15-17
- 第2章 ROC曲線及AUC17-27
- 2.1 混淆矩陣17-18
- 2.2 ROC曲線18-19
- 2.3 曲線下方面積19-22
- 2.4 ROC的生成及AUC的計(jì)算22-25
- 2.5 ROC曲線生成算法25-27
- 第3章 基于得分的ROC和AUC27-33
- 3.1 考慮得分的AUC27-28
- 3.2 sor AUC定義28-30
- 3.3 sor ROC的繪制和sor AUC的計(jì)算30-33
- 第4章 基于誤分代價(jià)的ROC和AUC33-41
- 4.1 誤分代價(jià)AUC33-34
- 4.2 v AUC定義34-38
- 4.3 vROC繪制及v AUC計(jì)算38-41
- 第5章 實(shí)驗(yàn)結(jié)果與分析41-50
- 5.1 sor AUC實(shí)驗(yàn)結(jié)果與分析41-45
- 5.1.1 數(shù)據(jù)集及參數(shù)設(shè)置41
- 5.1.2 評(píng)估算法比較41-45
- 5.2 vAUC實(shí)驗(yàn)結(jié)果與分析45-50
- 5.2.1 數(shù)據(jù)集及參數(shù)設(shè)置45-46
- 5.2.2 評(píng)估算法比較46-48
- 5.2.3 假正例代價(jià)和假負(fù)例代價(jià)48-50
- 第6章 結(jié)論與展望50-52
- 參考文獻(xiàn)52-55
- 作者簡(jiǎn)介及在學(xué)期間所取得的科研成果55-56
- 致謝56
【相似文獻(xiàn)】
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 蔣帥;基于AUC的分類器性能評(píng)估問(wèn)題研究[D];吉林大學(xué);2016年
,本文編號(hào):515571
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/515571.html
最近更新
教材專著