機(jī)器學(xué)習(xí)分類算法在居民收入預(yù)測(cè)中的應(yīng)用
發(fā)布時(shí)間:2021-10-09 08:40
隨著數(shù)據(jù)量指數(shù)級(jí)別的增長(zhǎng)和計(jì)算機(jī)硬件設(shè)備的不斷完善,機(jī)器學(xué)習(xí)算法迎來了發(fā)展的黃金時(shí)代。以熟知的互聯(lián)網(wǎng)公司為例,百度的語音搜索、科大訊飛的語音識(shí)別、字節(jié)跳動(dòng)的個(gè)性化推薦算法和滴滴出行的智能調(diào)度算法,都是機(jī)器學(xué)習(xí)算法在日常生活中的應(yīng)用。分類算法作為機(jī)器學(xué)習(xí)算法中最常見的算法,有著堅(jiān)實(shí)的數(shù)學(xué)理論基礎(chǔ),為大數(shù)據(jù)的處理和人工智能的發(fā)展提供了有效的方法。本文對(duì)機(jī)器學(xué)習(xí)中經(jīng)典分類算法的研究背景和意義進(jìn)行了闡述,并對(duì)機(jī)器學(xué)習(xí)中分類算法的國內(nèi)外研究現(xiàn)狀進(jìn)行了總結(jié)。其中,重點(diǎn)介紹了四種經(jīng)典的監(jiān)督學(xué)習(xí)分類算法(邏輯回歸、樸素貝葉斯、SVM和決策樹)和一種集成學(xué)習(xí)的分類算法(隨機(jī)森林),并詳細(xì)地研究和分析了它們背后的數(shù)學(xué)原理。本文利用20世紀(jì)90年代美國人口普查數(shù)據(jù),對(duì)居民年收入是否大于50k$進(jìn)行分類預(yù)測(cè)。首先,利用數(shù)據(jù)類型轉(zhuǎn)換、缺失值處理和數(shù)據(jù)標(biāo)準(zhǔn)化等方法,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;其次使用三種經(jīng)典的監(jiān)督學(xué)習(xí)分類算法(邏輯回歸、樸素貝葉斯和SVM)和一種集成學(xué)習(xí)的分類算法(隨機(jī)森林)對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行分類,并且使用混淆矩陣、準(zhǔn)確率、精確率、召回率、F1值和ROC曲線對(duì)分類結(jié)果進(jìn)行評(píng)價(jià);最后基于SVM算法在分類超...
【文章來源】:華北電力大學(xué)(北京)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:50 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
1零陰id函數(shù)胭
2.3.2支持向量機(jī)的求解方法??支持向量機(jī)分類器的最優(yōu)化問題,是目標(biāo)函數(shù)為二次函數(shù)、約束條件為線性的??典型二次規(guī)劃問題。目標(biāo)函數(shù)為:??1?T??max—?sJ^y^co?xf?+?b)>\,i?=?\,2,...,n?(2-16)??Ml??為了方便求f和引入核函數(shù),我們考慮目標(biāo)1數(shù)的對(duì)偶問題:??"7?min?丄|卜2|???./.,乂(《7'?+?/))之?V?=?l,2”“,n?(2-17)??x?2??接下來,導(dǎo)入拉格朗日變量求解對(duì)偶問題,定義拉格朗日函數(shù)為:??1??L{〇),?bM)?=?-?||r/r?j?-?2]?or,?x,?+?6)?-1)?(2-18)??^?/=1??分別對(duì)仏6求偏導(dǎo),并令1?=?0和&?=?〇,可得:??d(〇?db??
<45000?^?>=45000?<40?^?>=40??嫁?4?;;4?r^vt:??圖2-5決策樹例子??如圖2-5所示為一個(gè)使用決策樹來預(yù)測(cè)客戶是否會(huì)購買產(chǎn)品的例子。其中,性??別屬性是頂端的內(nèi)部節(jié)點(diǎn),被稱為根節(jié)點(diǎn)。收入和年齡是內(nèi)部節(jié)點(diǎn),分別對(duì)應(yīng)兩個(gè)??屬性。是和否則是葉子節(jié)點(diǎn),位于樹中最后分支的末端。一個(gè)節(jié)點(diǎn)的深度是從根節(jié)??點(diǎn)到葉子節(jié)點(diǎn)所需的最小步數(shù),節(jié)點(diǎn)收入和年齡的深度都是1,而葉子節(jié)點(diǎn)的深度??都是2。圖中的決策樹顯示收入低于45000的女性和年齡小于40的男性會(huì)被分類為??會(huì)購買產(chǎn)品的人群。在遍歷決策樹之后,發(fā)現(xiàn)女性的年齡與是否購買產(chǎn)品無關(guān),而??男性的收入也與是否購買產(chǎn)品無關(guān)。??(開)
【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)SVM-KNN的不平衡數(shù)據(jù)分類[J]. 王超學(xué),張濤,馬春森. 計(jì)算機(jī)工程與應(yīng)用. 2016(04)
[2]灰色建模中數(shù)據(jù)缺失值處理方法探討[J]. 魯純. 遼寧省交通高等?茖W(xué)校學(xué)報(bào). 2013(02)
[3]不同缺失值處理方法對(duì)隨機(jī)缺失數(shù)據(jù)處理效果的比較[J]. 花琳琳,施念,楊永利,趙天儀,施學(xué)忠. 鄭州大學(xué)學(xué)報(bào)(醫(yī)學(xué)版). 2012(03)
[4]基于AUC的分類器評(píng)價(jià)和設(shè)計(jì)綜述[J]. 汪云云,陳松燦. 模式識(shí)別與人工智能. 2011(01)
[5]基于實(shí)例與MATLAB的ROC曲線繪制比較研究[J]. 石昊蘇. 電子設(shè)計(jì)工程. 2010(09)
[6]工業(yè)過程數(shù)據(jù)中缺失值處理方法的研究[J]. 郭超,陸新建. 計(jì)算機(jī)工程與設(shè)計(jì). 2010(06)
[7]基于K近鄰的支持向量機(jī)分類方法[J]. 和文全,薛惠峰,解丹蕊,杜喆. 計(jì)算機(jī)仿真. 2008(11)
[8]缺失值處理方法比較研究[J]. 胡紅曉,謝佳,韓冰. 商場(chǎng)現(xiàn)代化. 2007(15)
[9]SVM-KNN分類器——一種提高SVM分類精度的新方法[J]. 李蓉,葉世偉,史忠植. 電子學(xué)報(bào). 2002(05)
本文編號(hào):3426022
【文章來源】:華北電力大學(xué)(北京)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:50 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
1零陰id函數(shù)胭
2.3.2支持向量機(jī)的求解方法??支持向量機(jī)分類器的最優(yōu)化問題,是目標(biāo)函數(shù)為二次函數(shù)、約束條件為線性的??典型二次規(guī)劃問題。目標(biāo)函數(shù)為:??1?T??max—?sJ^y^co?xf?+?b)>\,i?=?\,2,...,n?(2-16)??Ml??為了方便求f和引入核函數(shù),我們考慮目標(biāo)1數(shù)的對(duì)偶問題:??"7?min?丄|卜2|???./.,乂(《7'?+?/))之?V?=?l,2”“,n?(2-17)??x?2??接下來,導(dǎo)入拉格朗日變量求解對(duì)偶問題,定義拉格朗日函數(shù)為:??1??L{〇),?bM)?=?-?||r/r?j?-?2]?or,?x,?+?6)?-1)?(2-18)??^?/=1??分別對(duì)仏6求偏導(dǎo),并令1?=?0和&?=?〇,可得:??d(〇?db??
<45000?^?>=45000?<40?^?>=40??嫁?4?;;4?r^vt:??圖2-5決策樹例子??如圖2-5所示為一個(gè)使用決策樹來預(yù)測(cè)客戶是否會(huì)購買產(chǎn)品的例子。其中,性??別屬性是頂端的內(nèi)部節(jié)點(diǎn),被稱為根節(jié)點(diǎn)。收入和年齡是內(nèi)部節(jié)點(diǎn),分別對(duì)應(yīng)兩個(gè)??屬性。是和否則是葉子節(jié)點(diǎn),位于樹中最后分支的末端。一個(gè)節(jié)點(diǎn)的深度是從根節(jié)??點(diǎn)到葉子節(jié)點(diǎn)所需的最小步數(shù),節(jié)點(diǎn)收入和年齡的深度都是1,而葉子節(jié)點(diǎn)的深度??都是2。圖中的決策樹顯示收入低于45000的女性和年齡小于40的男性會(huì)被分類為??會(huì)購買產(chǎn)品的人群。在遍歷決策樹之后,發(fā)現(xiàn)女性的年齡與是否購買產(chǎn)品無關(guān),而??男性的收入也與是否購買產(chǎn)品無關(guān)。??(開)
【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)SVM-KNN的不平衡數(shù)據(jù)分類[J]. 王超學(xué),張濤,馬春森. 計(jì)算機(jī)工程與應(yīng)用. 2016(04)
[2]灰色建模中數(shù)據(jù)缺失值處理方法探討[J]. 魯純. 遼寧省交通高等?茖W(xué)校學(xué)報(bào). 2013(02)
[3]不同缺失值處理方法對(duì)隨機(jī)缺失數(shù)據(jù)處理效果的比較[J]. 花琳琳,施念,楊永利,趙天儀,施學(xué)忠. 鄭州大學(xué)學(xué)報(bào)(醫(yī)學(xué)版). 2012(03)
[4]基于AUC的分類器評(píng)價(jià)和設(shè)計(jì)綜述[J]. 汪云云,陳松燦. 模式識(shí)別與人工智能. 2011(01)
[5]基于實(shí)例與MATLAB的ROC曲線繪制比較研究[J]. 石昊蘇. 電子設(shè)計(jì)工程. 2010(09)
[6]工業(yè)過程數(shù)據(jù)中缺失值處理方法的研究[J]. 郭超,陸新建. 計(jì)算機(jī)工程與設(shè)計(jì). 2010(06)
[7]基于K近鄰的支持向量機(jī)分類方法[J]. 和文全,薛惠峰,解丹蕊,杜喆. 計(jì)算機(jī)仿真. 2008(11)
[8]缺失值處理方法比較研究[J]. 胡紅曉,謝佳,韓冰. 商場(chǎng)現(xiàn)代化. 2007(15)
[9]SVM-KNN分類器——一種提高SVM分類精度的新方法[J]. 李蓉,葉世偉,史忠植. 電子學(xué)報(bào). 2002(05)
本文編號(hào):3426022
本文鏈接:http://sikaile.net/jingjilunwen/shijiejingjilunwen/3426022.html
最近更新
教材專著