天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Spark的類別不平衡問題研究

發(fā)布時間:2021-08-29 15:46
  隨著信息技術的發(fā)展,大量數(shù)據(jù)得以存儲積累,人們進入信息爆炸時代。在大數(shù)據(jù)世界里,知識就是力量,從這種新的知識中提取規(guī)則對傳統(tǒng)的機器學習算法來說具有很大的挑戰(zhàn),一方面由于數(shù)據(jù)的紛繁復雜加劇數(shù)據(jù)分析難度,比如類別不平衡問題等,另一方面是因為它們無法適應分布式平臺的可擴展性要求。針對上述問題,本文做了一些工作:(1)提出了基于Spark的代價敏感C45決策樹集成類別不平衡算法(Cost Sensitive C45 Decision Tree Ensemble Class Imbalance Algorithm based on Spark,CSCES)。該算法利用Spark的廣播機制將所有聚合的正類樣本廣播到每一個分區(qū)內(nèi)降低該分區(qū)的類別不平衡比率。接著所有分區(qū)并行訓練C45決策樹。每次迭代時,通過對分類錯誤和分類正確的樣本賦予不同的代價,來獲得下一次分類精度的提升。最后所有分區(qū)內(nèi)的子分類器集成最終的分類器。實驗結果證明了該算法具有一定的優(yōu)越性、高效性和擴展性。(2)考慮到某些數(shù)據(jù)集中正類樣本過少或者類別不平衡比率過大,本文在Spark平臺上又實現(xiàn)了SMOTE和Tomek Link算法。SMO... 

【文章來源】:合肥工業(yè)大學安徽省 211工程院校 教育部直屬院校

【文章頁數(shù)】:73 頁

【學位級別】:碩士

【部分圖文】:

基于Spark的類別不平衡問題研究


ROC曲線

節(jié)點狀態(tài),終端,方式,文件


合肥工業(yè)大學碩士學位論文30目錄等。Hdfs-site.xml文件中可以設置NameNode的訪問地址、NameNode和DataNode的數(shù)據(jù)訪問路徑、文件的副本個數(shù)及數(shù)據(jù)塊大小等。mapred-site.xml文件用來設置和MapReduce守護進程相關的一些參數(shù)等。yarn-site.xml文件涉及到資源管理調(diào)度等參數(shù)。以上這些文件的某些參數(shù)可以依據(jù)系統(tǒng)實際情況和作業(yè)需要進行配置。(4)安裝Spark:將Spark解壓到本地機器,然后添加Spark的環(huán)境變量,配置spark-env.sh等文件。(5)安裝IDEA軟件用來編寫Scala代碼。四個節(jié)點安裝好所有軟件及完成文件設置之后,首先使用hadoopnamenode-format可以格式化集群,然后在終端輸入start-all.sh命令啟動集群。hadoopdfsadmin-report命令可以查看集群是否成功啟動以及每個節(jié)點的運行狀態(tài),如圖3.3所示。如果需要更加直觀地觀察集群狀態(tài),也可以通過網(wǎng)頁查看,如圖3.4所示。當一個應用程序在Spark上運行時,Spark會啟動兩種JVM進程,分別為driver和executor。Driver是驅動進程,負責創(chuàng)建Spark的context,將RDD劃分為階段,生成有向無環(huán)圖DAG,負責提交作業(yè),并且將作業(yè)轉換成任務發(fā)送給executor等。Executor進程在自身的節(jié)點上執(zhí)行具體的計算任務,與driver進行通信,向其發(fā)送計算結果。圖3.3終端命令方式查看集群節(jié)點狀態(tài)Fig3.3Viewclusternodestatusinterminalcommandmode

節(jié)點狀態(tài),網(wǎng)頁,方式,類別


第三章基于Spark的代價敏感C45決策樹集成類別不平衡算法31圖3.4網(wǎng)頁方式查看集群節(jié)點狀態(tài)Fig3.4Viewthestatusoftheclusternodeinwebmode至此大數(shù)據(jù)集群框架已完成搭建和部署,接下來,我們可以在IDEA上面編寫代碼,開發(fā)實驗程序。3.3實驗數(shù)據(jù)在該實驗中,本文的大部分數(shù)據(jù)集主要來源于keel數(shù)據(jù)庫(http://www.keel.es/),因為在該數(shù)據(jù)庫中對數(shù)據(jù)的用途做了分類,可以直接獲得類別不平衡的數(shù)據(jù)。只有pima數(shù)據(jù)從UCI數(shù)據(jù)庫中獲得(https://archive.ics.uci.edu/ml/index.php)。9個數(shù)據(jù)集的數(shù)量,正負類樣本數(shù)量及類別不平衡比率如表3.5所示:表3.5數(shù)據(jù)的樣本數(shù)量及類別不平衡比率Tab3.5Thesizeofdataandclassimbalanceratio數(shù)據(jù)集樣本數(shù)量正類:負類類別不平衡比率(負類/正類)abalone233958:228139.328Ecoli333636:3008.333Flare-F106644:102223.227page5472559:49138.789pima768268:5001.866poker207526:204978.808wine90021:87941.857wilt4839261:457817.540Yeast4148452:143227.538從表3.5中,可以看出,本文選擇數(shù)據(jù)集的類別不平衡比率均不同,最低為

【參考文獻】:
期刊論文
[1]Spark環(huán)境下基于綜合權重的不平衡數(shù)據(jù)集成分類方法[J]. 丁家滿,王思晨,賈連印,游進國,姜瑛.  小型微型計算機系統(tǒng). 2019(02)
[2]MapReduce環(huán)境下處理多類別不平衡數(shù)據(jù)的改進隨機森林算法[J]. 姚立,張曦煌.  微電子學與計算機. 2018(11)
[3]基于三支決策的不平衡數(shù)據(jù)過采樣方法[J]. 胡峰,王蕾,周耀.  電子學報. 2018(01)
[4]面向非平衡文本情感分類的TSF特征選擇方法[J]. 王杰,李德玉,王素格.  計算機科學. 2016(10)
[5]一種基于類別不平衡數(shù)據(jù)的層次分類模型[J]. 施培蓓,劉貴全,汪中,衛(wèi)兵.  中國科學技術大學學報. 2015(01)
[6]基于決策準則優(yōu)化的不均衡數(shù)據(jù)分類[J]. 曹鵬,栗偉,趙大哲.  小型微型計算機系統(tǒng). 2014(05)
[7]兩層聚類的類別不平衡數(shù)據(jù)挖掘算法[J]. 胡小生,張潤晶,鐘勇.  計算機科學. 2013(11)
[8]基于聚類融合的不平衡數(shù)據(jù)分類方法[J]. 陳思,郭躬德,陳黎飛.  模式識別與人工智能. 2010(06)

碩士論文
[1]針對類內(nèi)不平衡樣本分類方法的研究[D]. 石鳳興.哈爾濱工業(yè)大學 2016
[2]基于隨機森林的不平衡數(shù)據(jù)分類方法研究[D]. 肖堅.哈爾濱工業(yè)大學 2013



本文編號:3370930

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3370930.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶3bfc5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com