天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Spark的類別不平衡問題研究

發(fā)布時(shí)間:2021-08-29 15:46
  隨著信息技術(shù)的發(fā)展,大量數(shù)據(jù)得以存儲(chǔ)積累,人們進(jìn)入信息爆炸時(shí)代。在大數(shù)據(jù)世界里,知識(shí)就是力量,從這種新的知識(shí)中提取規(guī)則對(duì)傳統(tǒng)的機(jī)器學(xué)習(xí)算法來說具有很大的挑戰(zhàn),一方面由于數(shù)據(jù)的紛繁復(fù)雜加劇數(shù)據(jù)分析難度,比如類別不平衡問題等,另一方面是因?yàn)樗鼈儫o法適應(yīng)分布式平臺(tái)的可擴(kuò)展性要求。針對(duì)上述問題,本文做了一些工作:(1)提出了基于Spark的代價(jià)敏感C45決策樹集成類別不平衡算法(Cost Sensitive C45 Decision Tree Ensemble Class Imbalance Algorithm based on Spark,CSCES)。該算法利用Spark的廣播機(jī)制將所有聚合的正類樣本廣播到每一個(gè)分區(qū)內(nèi)降低該分區(qū)的類別不平衡比率。接著所有分區(qū)并行訓(xùn)練C45決策樹。每次迭代時(shí),通過對(duì)分類錯(cuò)誤和分類正確的樣本賦予不同的代價(jià),來獲得下一次分類精度的提升。最后所有分區(qū)內(nèi)的子分類器集成最終的分類器。實(shí)驗(yàn)結(jié)果證明了該算法具有一定的優(yōu)越性、高效性和擴(kuò)展性。(2)考慮到某些數(shù)據(jù)集中正類樣本過少或者類別不平衡比率過大,本文在Spark平臺(tái)上又實(shí)現(xiàn)了SMOTE和Tomek Link算法。SMO... 

【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校

【文章頁數(shù)】:73 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于Spark的類別不平衡問題研究


ROC曲線

節(jié)點(diǎn)狀態(tài),終端,方式,文件


合肥工業(yè)大學(xué)碩士學(xué)位論文30目錄等。Hdfs-site.xml文件中可以設(shè)置NameNode的訪問地址、NameNode和DataNode的數(shù)據(jù)訪問路徑、文件的副本個(gè)數(shù)及數(shù)據(jù)塊大小等。mapred-site.xml文件用來設(shè)置和MapReduce守護(hù)進(jìn)程相關(guān)的一些參數(shù)等。yarn-site.xml文件涉及到資源管理調(diào)度等參數(shù)。以上這些文件的某些參數(shù)可以依據(jù)系統(tǒng)實(shí)際情況和作業(yè)需要進(jìn)行配置。(4)安裝Spark:將Spark解壓到本地機(jī)器,然后添加Spark的環(huán)境變量,配置spark-env.sh等文件。(5)安裝IDEA軟件用來編寫Scala代碼。四個(gè)節(jié)點(diǎn)安裝好所有軟件及完成文件設(shè)置之后,首先使用hadoopnamenode-format可以格式化集群,然后在終端輸入start-all.sh命令啟動(dòng)集群。hadoopdfsadmin-report命令可以查看集群是否成功啟動(dòng)以及每個(gè)節(jié)點(diǎn)的運(yùn)行狀態(tài),如圖3.3所示。如果需要更加直觀地觀察集群狀態(tài),也可以通過網(wǎng)頁查看,如圖3.4所示。當(dāng)一個(gè)應(yīng)用程序在Spark上運(yùn)行時(shí),Spark會(huì)啟動(dòng)兩種JVM進(jìn)程,分別為driver和executor。Driver是驅(qū)動(dòng)進(jìn)程,負(fù)責(zé)創(chuàng)建Spark的context,將RDD劃分為階段,生成有向無環(huán)圖DAG,負(fù)責(zé)提交作業(yè),并且將作業(yè)轉(zhuǎn)換成任務(wù)發(fā)送給executor等。Executor進(jìn)程在自身的節(jié)點(diǎn)上執(zhí)行具體的計(jì)算任務(wù),與driver進(jìn)行通信,向其發(fā)送計(jì)算結(jié)果。圖3.3終端命令方式查看集群節(jié)點(diǎn)狀態(tài)Fig3.3Viewclusternodestatusinterminalcommandmode

節(jié)點(diǎn)狀態(tài),網(wǎng)頁,方式,類別


第三章基于Spark的代價(jià)敏感C45決策樹集成類別不平衡算法31圖3.4網(wǎng)頁方式查看集群節(jié)點(diǎn)狀態(tài)Fig3.4Viewthestatusoftheclusternodeinwebmode至此大數(shù)據(jù)集群框架已完成搭建和部署,接下來,我們可以在IDEA上面編寫代碼,開發(fā)實(shí)驗(yàn)程序。3.3實(shí)驗(yàn)數(shù)據(jù)在該實(shí)驗(yàn)中,本文的大部分?jǐn)?shù)據(jù)集主要來源于keel數(shù)據(jù)庫(http://www.keel.es/),因?yàn)樵谠摂?shù)據(jù)庫中對(duì)數(shù)據(jù)的用途做了分類,可以直接獲得類別不平衡的數(shù)據(jù)。只有pima數(shù)據(jù)從UCI數(shù)據(jù)庫中獲得(https://archive.ics.uci.edu/ml/index.php)。9個(gè)數(shù)據(jù)集的數(shù)量,正負(fù)類樣本數(shù)量及類別不平衡比率如表3.5所示:表3.5數(shù)據(jù)的樣本數(shù)量及類別不平衡比率Tab3.5Thesizeofdataandclassimbalanceratio數(shù)據(jù)集樣本數(shù)量正類:負(fù)類類別不平衡比率(負(fù)類/正類)abalone233958:228139.328Ecoli333636:3008.333Flare-F106644:102223.227page5472559:49138.789pima768268:5001.866poker207526:204978.808wine90021:87941.857wilt4839261:457817.540Yeast4148452:143227.538從表3.5中,可以看出,本文選擇數(shù)據(jù)集的類別不平衡比率均不同,最低為

【參考文獻(xiàn)】:
期刊論文
[1]Spark環(huán)境下基于綜合權(quán)重的不平衡數(shù)據(jù)集成分類方法[J]. 丁家滿,王思晨,賈連印,游進(jìn)國,姜瑛.  小型微型計(jì)算機(jī)系統(tǒng). 2019(02)
[2]MapReduce環(huán)境下處理多類別不平衡數(shù)據(jù)的改進(jìn)隨機(jī)森林算法[J]. 姚立,張曦煌.  微電子學(xué)與計(jì)算機(jī). 2018(11)
[3]基于三支決策的不平衡數(shù)據(jù)過采樣方法[J]. 胡峰,王蕾,周耀.  電子學(xué)報(bào). 2018(01)
[4]面向非平衡文本情感分類的TSF特征選擇方法[J]. 王杰,李德玉,王素格.  計(jì)算機(jī)科學(xué). 2016(10)
[5]一種基于類別不平衡數(shù)據(jù)的層次分類模型[J]. 施培蓓,劉貴全,汪中,衛(wèi)兵.  中國科學(xué)技術(shù)大學(xué)學(xué)報(bào). 2015(01)
[6]基于決策準(zhǔn)則優(yōu)化的不均衡數(shù)據(jù)分類[J]. 曹鵬,栗偉,趙大哲.  小型微型計(jì)算機(jī)系統(tǒng). 2014(05)
[7]兩層聚類的類別不平衡數(shù)據(jù)挖掘算法[J]. 胡小生,張潤晶,鐘勇.  計(jì)算機(jī)科學(xué). 2013(11)
[8]基于聚類融合的不平衡數(shù)據(jù)分類方法[J]. 陳思,郭躬德,陳黎飛.  模式識(shí)別與人工智能. 2010(06)

碩士論文
[1]針對(duì)類內(nèi)不平衡樣本分類方法的研究[D]. 石鳳興.哈爾濱工業(yè)大學(xué) 2016
[2]基于隨機(jī)森林的不平衡數(shù)據(jù)分類方法研究[D]. 肖堅(jiān).哈爾濱工業(yè)大學(xué) 2013



本文編號(hào):3370930

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3370930.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3bfc5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
亚洲一区二区精品免费| 99一级特黄色性生活片| 日本av在线不卡一区| 欧美精品专区一区二区| 中文精品人妻一区二区| 日本和亚洲的香蕉视频| 果冻传媒精选麻豆白晶晶 | 亚洲精品欧美精品一区三区| 国产精品色热综合在线| 亚洲国产精品久久琪琪| 又黄又硬又爽又色的视频| 黄片免费在线观看日韩| 国产综合一区二区三区av | 午夜免费精品视频在线看| 国内精品伊人久久久av高清| 麻豆视频传媒入口在线看| 日韩欧美精品一区二区三区| 国产精品激情在线观看| 亚洲视频在线观看你懂的| 91久久精品在这里色伊人| 国产精品免费不卡视频| 亚洲熟女诱惑一区二区| 91精品国产品国语在线不卡| 日韩一区二区三区久久| 狠狠干狠狠操在线播放| 欧美日韩综合综合久久久| 黄色美女日本的美女日人| 91天堂免费在线观看| 中文文精品字幕一区二区| 日韩一本不卡在线观看| 亚洲中文字幕在线观看四区 | 亚洲熟女乱色一区二区三区| 人妻中文一区二区三区| 亚洲欧美日韩在线看片| 欧美日韩国产亚洲三级理论片| 99久久国产亚洲综合精品| 日韩欧美国产精品中文字幕| 亚洲精品一二三区不卡| 国产自拍欧美日韩在线观看| 国产乱人伦精品一区二区三区四区| 欧美一级不卡视频在线观看|