基于Spark的類別不平衡問題研究

發(fā)布時間：2021-08-29 15:46

　　隨著信息技術的發(fā)展,大量數(shù)據(jù)得以存儲積累,人們進入信息爆炸時代。在大數(shù)據(jù)世界里,知識就是力量,從這種新的知識中提取規(guī)則對傳統(tǒng)的機器學習算法來說具有很大的挑戰(zhàn),一方面由于數(shù)據(jù)的紛繁復雜加劇數(shù)據(jù)分析難度,比如類別不平衡問題等,另一方面是因為它們無法適應分布式平臺的可擴展性要求。針對上述問題,本文做了一些工作:（1）提出了基于Spark的代價敏感C45決策樹集成類別不平衡算法（Cost Sensitive C45 Decision Tree Ensemble Class Imbalance Algorithm based on Spark,CSCES）。該算法利用Spark的廣播機制將所有聚合的正類樣本廣播到每一個分區(qū)內(nèi)降低該分區(qū)的類別不平衡比率。接著所有分區(qū)并行訓練C45決策樹。每次迭代時,通過對分類錯誤和分類正確的樣本賦予不同的代價,來獲得下一次分類精度的提升。最后所有分區(qū)內(nèi)的子分類器集成最終的分類器。實驗結果證明了該算法具有一定的優(yōu)越性、高效性和擴展性。（2）考慮到某些數(shù)據(jù)集中正類樣本過少或者類別不平衡比率過大,本文在Spark平臺上又實現(xiàn)了SMOTE和Tomek Link算法。SMO...

【文章來源】：合肥工業(yè)大學安徽省 211工程院校教育部直屬院校

【文章頁數(shù)】：73 頁

【學位級別】：碩士

【部分圖文】：

基于Spark的類別不平衡問題研究

ROC曲線

節(jié)點狀態(tài),終端,方式,文件

合肥工業(yè)大學碩士學位論文30目錄等。Hdfs-site.xml文件中可以設置NameNode的訪問地址、NameNode和DataNode的數(shù)據(jù)訪問路徑、文件的副本個數(shù)及數(shù)據(jù)塊大小等。mapred-site.xml文件用來設置和MapReduce守護進程相關的一些參數(shù)等。yarn-site.xml文件涉及到資源管理調(diào)度等參數(shù)。以上這些文件的某些參數(shù)可以依據(jù)系統(tǒng)實際情況和作業(yè)需要進行配置。(4)安裝Spark：將Spark解壓到本地機器，然后添加Spark的環(huán)境變量，配置spark-env.sh等文件。(5)安裝IDEA軟件用來編寫Scala代碼。四個節(jié)點安裝好所有軟件及完成文件設置之后，首先使用hadoopnamenode-format可以格式化集群，然后在終端輸入start-all.sh命令啟動集群。hadoopdfsadmin-report命令可以查看集群是否成功啟動以及每個節(jié)點的運行狀態(tài)，如圖3.3所示。如果需要更加直觀地觀察集群狀態(tài)，也可以通過網(wǎng)頁查看，如圖3.4所示。當一個應用程序在Spark上運行時，Spark會啟動兩種JVM進程,分別為driver和executor。Driver是驅動進程，負責創(chuàng)建Spark的context，將RDD劃分為階段，生成有向無環(huán)圖DAG，負責提交作業(yè)，并且將作業(yè)轉換成任務發(fā)送給executor等。Executor進程在自身的節(jié)點上執(zhí)行具體的計算任務，與driver進行通信，向其發(fā)送計算結果。圖3.3終端命令方式查看集群節(jié)點狀態(tài)Fig3.3Viewclusternodestatusinterminalcommandmode

節(jié)點狀態(tài),網(wǎng)頁,方式,類別

第三章基于Spark的代價敏感C45決策樹集成類別不平衡算法31圖3.4網(wǎng)頁方式查看集群節(jié)點狀態(tài)Fig3.4Viewthestatusoftheclusternodeinwebmode至此大數(shù)據(jù)集群框架已完成搭建和部署，接下來，我們可以在IDEA上面編寫代碼，開發(fā)實驗程序。3.3實驗數(shù)據(jù)在該實驗中，本文的大部分數(shù)據(jù)集主要來源于keel數(shù)據(jù)庫（http://www.keel.es/），因為在該數(shù)據(jù)庫中對數(shù)據(jù)的用途做了分類，可以直接獲得類別不平衡的數(shù)據(jù)。只有pima數(shù)據(jù)從UCI數(shù)據(jù)庫中獲得（https://archive.ics.uci.edu/ml/index.php）。9個數(shù)據(jù)集的數(shù)量，正負類樣本數(shù)量及類別不平衡比率如表3.5所示：表3.5數(shù)據(jù)的樣本數(shù)量及類別不平衡比率Tab3.5Thesizeofdataandclassimbalanceratio數(shù)據(jù)集樣本數(shù)量正類:負類類別不平衡比率(負類/正類)abalone233958：228139.328Ecoli333636：3008.333Flare-F106644：102223.227page5472559：49138.789pima768268：5001.866poker207526：204978.808wine90021：87941.857wilt4839261：457817.540Yeast4148452:143227.538從表3.5中，可以看出，本文選擇數(shù)據(jù)集的類別不平衡比率均不同，最低為

【參考文獻】：
期刊論文
[1]Spark環(huán)境下基于綜合權重的不平衡數(shù)據(jù)集成分類方法[J]. 丁家滿,王思晨,賈連印,游進國,姜瑛.  小型微型計算機系統(tǒng). 2019(02)
[2]MapReduce環(huán)境下處理多類別不平衡數(shù)據(jù)的改進隨機森林算法[J]. 姚立,張曦煌.  微電子學與計算機. 2018(11)
[3]基于三支決策的不平衡數(shù)據(jù)過采樣方法[J]. 胡峰,王蕾,周耀.  電子學報. 2018(01)
[4]面向非平衡文本情感分類的TSF特征選擇方法[J]. 王杰,李德玉,王素格.  計算機科學. 2016(10)
[5]一種基于類別不平衡數(shù)據(jù)的層次分類模型[J]. 施培蓓,劉貴全,汪中,衛(wèi)兵.  中國科學技術大學學報. 2015(01)
[6]基于決策準則優(yōu)化的不均衡數(shù)據(jù)分類[J]. 曹鵬,栗偉,趙大哲.  小型微型計算機系統(tǒng). 2014(05)
[7]兩層聚類的類別不平衡數(shù)據(jù)挖掘算法[J]. 胡小生,張潤晶,鐘勇.  計算機科學. 2013(11)
[8]基于聚類融合的不平衡數(shù)據(jù)分類方法[J]. 陳思,郭躬德,陳黎飛.  模式識別與人工智能. 2010(06)

碩士論文
[1]針對類內(nèi)不平衡樣本分類方法的研究[D]. 石鳳興.哈爾濱工業(yè)大學 2016
[2]基于隨機森林的不平衡數(shù)據(jù)分類方法研究[D]. 肖堅.哈爾濱工業(yè)大學 2013

本文編號：3370930

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3370930.html

上一篇：多核學習融合中層特征的圖像分類算法
下一篇：路網(wǎng)空間中面向時間區(qū)間的空間文本查詢研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Spark的類別不平衡問題研究