基于Spark的類別不平衡問題研究
發(fā)布時間:2021-08-29 15:46
隨著信息技術的發(fā)展,大量數(shù)據(jù)得以存儲積累,人們進入信息爆炸時代。在大數(shù)據(jù)世界里,知識就是力量,從這種新的知識中提取規(guī)則對傳統(tǒng)的機器學習算法來說具有很大的挑戰(zhàn),一方面由于數(shù)據(jù)的紛繁復雜加劇數(shù)據(jù)分析難度,比如類別不平衡問題等,另一方面是因為它們無法適應分布式平臺的可擴展性要求。針對上述問題,本文做了一些工作:(1)提出了基于Spark的代價敏感C45決策樹集成類別不平衡算法(Cost Sensitive C45 Decision Tree Ensemble Class Imbalance Algorithm based on Spark,CSCES)。該算法利用Spark的廣播機制將所有聚合的正類樣本廣播到每一個分區(qū)內(nèi)降低該分區(qū)的類別不平衡比率。接著所有分區(qū)并行訓練C45決策樹。每次迭代時,通過對分類錯誤和分類正確的樣本賦予不同的代價,來獲得下一次分類精度的提升。最后所有分區(qū)內(nèi)的子分類器集成最終的分類器。實驗結果證明了該算法具有一定的優(yōu)越性、高效性和擴展性。(2)考慮到某些數(shù)據(jù)集中正類樣本過少或者類別不平衡比率過大,本文在Spark平臺上又實現(xiàn)了SMOTE和Tomek Link算法。SMO...
【文章來源】:合肥工業(yè)大學安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
ROC曲線
合肥工業(yè)大學碩士學位論文30目錄等。Hdfs-site.xml文件中可以設置NameNode的訪問地址、NameNode和DataNode的數(shù)據(jù)訪問路徑、文件的副本個數(shù)及數(shù)據(jù)塊大小等。mapred-site.xml文件用來設置和MapReduce守護進程相關的一些參數(shù)等。yarn-site.xml文件涉及到資源管理調(diào)度等參數(shù)。以上這些文件的某些參數(shù)可以依據(jù)系統(tǒng)實際情況和作業(yè)需要進行配置。(4)安裝Spark:將Spark解壓到本地機器,然后添加Spark的環(huán)境變量,配置spark-env.sh等文件。(5)安裝IDEA軟件用來編寫Scala代碼。四個節(jié)點安裝好所有軟件及完成文件設置之后,首先使用hadoopnamenode-format可以格式化集群,然后在終端輸入start-all.sh命令啟動集群。hadoopdfsadmin-report命令可以查看集群是否成功啟動以及每個節(jié)點的運行狀態(tài),如圖3.3所示。如果需要更加直觀地觀察集群狀態(tài),也可以通過網(wǎng)頁查看,如圖3.4所示。當一個應用程序在Spark上運行時,Spark會啟動兩種JVM進程,分別為driver和executor。Driver是驅動進程,負責創(chuàng)建Spark的context,將RDD劃分為階段,生成有向無環(huán)圖DAG,負責提交作業(yè),并且將作業(yè)轉換成任務發(fā)送給executor等。Executor進程在自身的節(jié)點上執(zhí)行具體的計算任務,與driver進行通信,向其發(fā)送計算結果。圖3.3終端命令方式查看集群節(jié)點狀態(tài)Fig3.3Viewclusternodestatusinterminalcommandmode
第三章基于Spark的代價敏感C45決策樹集成類別不平衡算法31圖3.4網(wǎng)頁方式查看集群節(jié)點狀態(tài)Fig3.4Viewthestatusoftheclusternodeinwebmode至此大數(shù)據(jù)集群框架已完成搭建和部署,接下來,我們可以在IDEA上面編寫代碼,開發(fā)實驗程序。3.3實驗數(shù)據(jù)在該實驗中,本文的大部分數(shù)據(jù)集主要來源于keel數(shù)據(jù)庫(http://www.keel.es/),因為在該數(shù)據(jù)庫中對數(shù)據(jù)的用途做了分類,可以直接獲得類別不平衡的數(shù)據(jù)。只有pima數(shù)據(jù)從UCI數(shù)據(jù)庫中獲得(https://archive.ics.uci.edu/ml/index.php)。9個數(shù)據(jù)集的數(shù)量,正負類樣本數(shù)量及類別不平衡比率如表3.5所示:表3.5數(shù)據(jù)的樣本數(shù)量及類別不平衡比率Tab3.5Thesizeofdataandclassimbalanceratio數(shù)據(jù)集樣本數(shù)量正類:負類類別不平衡比率(負類/正類)abalone233958:228139.328Ecoli333636:3008.333Flare-F106644:102223.227page5472559:49138.789pima768268:5001.866poker207526:204978.808wine90021:87941.857wilt4839261:457817.540Yeast4148452:143227.538從表3.5中,可以看出,本文選擇數(shù)據(jù)集的類別不平衡比率均不同,最低為
【參考文獻】:
期刊論文
[1]Spark環(huán)境下基于綜合權重的不平衡數(shù)據(jù)集成分類方法[J]. 丁家滿,王思晨,賈連印,游進國,姜瑛. 小型微型計算機系統(tǒng). 2019(02)
[2]MapReduce環(huán)境下處理多類別不平衡數(shù)據(jù)的改進隨機森林算法[J]. 姚立,張曦煌. 微電子學與計算機. 2018(11)
[3]基于三支決策的不平衡數(shù)據(jù)過采樣方法[J]. 胡峰,王蕾,周耀. 電子學報. 2018(01)
[4]面向非平衡文本情感分類的TSF特征選擇方法[J]. 王杰,李德玉,王素格. 計算機科學. 2016(10)
[5]一種基于類別不平衡數(shù)據(jù)的層次分類模型[J]. 施培蓓,劉貴全,汪中,衛(wèi)兵. 中國科學技術大學學報. 2015(01)
[6]基于決策準則優(yōu)化的不均衡數(shù)據(jù)分類[J]. 曹鵬,栗偉,趙大哲. 小型微型計算機系統(tǒng). 2014(05)
[7]兩層聚類的類別不平衡數(shù)據(jù)挖掘算法[J]. 胡小生,張潤晶,鐘勇. 計算機科學. 2013(11)
[8]基于聚類融合的不平衡數(shù)據(jù)分類方法[J]. 陳思,郭躬德,陳黎飛. 模式識別與人工智能. 2010(06)
碩士論文
[1]針對類內(nèi)不平衡樣本分類方法的研究[D]. 石鳳興.哈爾濱工業(yè)大學 2016
[2]基于隨機森林的不平衡數(shù)據(jù)分類方法研究[D]. 肖堅.哈爾濱工業(yè)大學 2013
本文編號:3370930
【文章來源】:合肥工業(yè)大學安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
ROC曲線
合肥工業(yè)大學碩士學位論文30目錄等。Hdfs-site.xml文件中可以設置NameNode的訪問地址、NameNode和DataNode的數(shù)據(jù)訪問路徑、文件的副本個數(shù)及數(shù)據(jù)塊大小等。mapred-site.xml文件用來設置和MapReduce守護進程相關的一些參數(shù)等。yarn-site.xml文件涉及到資源管理調(diào)度等參數(shù)。以上這些文件的某些參數(shù)可以依據(jù)系統(tǒng)實際情況和作業(yè)需要進行配置。(4)安裝Spark:將Spark解壓到本地機器,然后添加Spark的環(huán)境變量,配置spark-env.sh等文件。(5)安裝IDEA軟件用來編寫Scala代碼。四個節(jié)點安裝好所有軟件及完成文件設置之后,首先使用hadoopnamenode-format可以格式化集群,然后在終端輸入start-all.sh命令啟動集群。hadoopdfsadmin-report命令可以查看集群是否成功啟動以及每個節(jié)點的運行狀態(tài),如圖3.3所示。如果需要更加直觀地觀察集群狀態(tài),也可以通過網(wǎng)頁查看,如圖3.4所示。當一個應用程序在Spark上運行時,Spark會啟動兩種JVM進程,分別為driver和executor。Driver是驅動進程,負責創(chuàng)建Spark的context,將RDD劃分為階段,生成有向無環(huán)圖DAG,負責提交作業(yè),并且將作業(yè)轉換成任務發(fā)送給executor等。Executor進程在自身的節(jié)點上執(zhí)行具體的計算任務,與driver進行通信,向其發(fā)送計算結果。圖3.3終端命令方式查看集群節(jié)點狀態(tài)Fig3.3Viewclusternodestatusinterminalcommandmode
第三章基于Spark的代價敏感C45決策樹集成類別不平衡算法31圖3.4網(wǎng)頁方式查看集群節(jié)點狀態(tài)Fig3.4Viewthestatusoftheclusternodeinwebmode至此大數(shù)據(jù)集群框架已完成搭建和部署,接下來,我們可以在IDEA上面編寫代碼,開發(fā)實驗程序。3.3實驗數(shù)據(jù)在該實驗中,本文的大部分數(shù)據(jù)集主要來源于keel數(shù)據(jù)庫(http://www.keel.es/),因為在該數(shù)據(jù)庫中對數(shù)據(jù)的用途做了分類,可以直接獲得類別不平衡的數(shù)據(jù)。只有pima數(shù)據(jù)從UCI數(shù)據(jù)庫中獲得(https://archive.ics.uci.edu/ml/index.php)。9個數(shù)據(jù)集的數(shù)量,正負類樣本數(shù)量及類別不平衡比率如表3.5所示:表3.5數(shù)據(jù)的樣本數(shù)量及類別不平衡比率Tab3.5Thesizeofdataandclassimbalanceratio數(shù)據(jù)集樣本數(shù)量正類:負類類別不平衡比率(負類/正類)abalone233958:228139.328Ecoli333636:3008.333Flare-F106644:102223.227page5472559:49138.789pima768268:5001.866poker207526:204978.808wine90021:87941.857wilt4839261:457817.540Yeast4148452:143227.538從表3.5中,可以看出,本文選擇數(shù)據(jù)集的類別不平衡比率均不同,最低為
【參考文獻】:
期刊論文
[1]Spark環(huán)境下基于綜合權重的不平衡數(shù)據(jù)集成分類方法[J]. 丁家滿,王思晨,賈連印,游進國,姜瑛. 小型微型計算機系統(tǒng). 2019(02)
[2]MapReduce環(huán)境下處理多類別不平衡數(shù)據(jù)的改進隨機森林算法[J]. 姚立,張曦煌. 微電子學與計算機. 2018(11)
[3]基于三支決策的不平衡數(shù)據(jù)過采樣方法[J]. 胡峰,王蕾,周耀. 電子學報. 2018(01)
[4]面向非平衡文本情感分類的TSF特征選擇方法[J]. 王杰,李德玉,王素格. 計算機科學. 2016(10)
[5]一種基于類別不平衡數(shù)據(jù)的層次分類模型[J]. 施培蓓,劉貴全,汪中,衛(wèi)兵. 中國科學技術大學學報. 2015(01)
[6]基于決策準則優(yōu)化的不均衡數(shù)據(jù)分類[J]. 曹鵬,栗偉,趙大哲. 小型微型計算機系統(tǒng). 2014(05)
[7]兩層聚類的類別不平衡數(shù)據(jù)挖掘算法[J]. 胡小生,張潤晶,鐘勇. 計算機科學. 2013(11)
[8]基于聚類融合的不平衡數(shù)據(jù)分類方法[J]. 陳思,郭躬德,陳黎飛. 模式識別與人工智能. 2010(06)
碩士論文
[1]針對類內(nèi)不平衡樣本分類方法的研究[D]. 石鳳興.哈爾濱工業(yè)大學 2016
[2]基于隨機森林的不平衡數(shù)據(jù)分類方法研究[D]. 肖堅.哈爾濱工業(yè)大學 2013
本文編號:3370930
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3370930.html
最近更新
教材專著