天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

面向軟件缺陷預(yù)測的類不平衡數(shù)據(jù)生成方法研究

發(fā)布時間:2021-06-15 01:00
  軟件缺陷預(yù)測技術(shù)通過對軟件歷史數(shù)據(jù)進行分析,利用分類、排序等模型,識別潛在有缺陷的軟件模塊。軟件缺陷預(yù)測模型構(gòu)建過程中,有缺陷樣本數(shù)遠小于無缺陷樣本數(shù),且分布不均勻,存在嚴重的類間不平衡和類內(nèi)不平衡問題,這兩種情況都會對構(gòu)建預(yù)測模型產(chǎn)生負面影響。為了減少數(shù)據(jù)不平衡對預(yù)測模型的影響,在軟件缺陷預(yù)測模型構(gòu)建的四個階段都存在相應(yīng)的方法對數(shù)據(jù)不平衡進行修正,包括數(shù)據(jù)采樣、特征提取、分類器優(yōu)化以及評價標(biāo)準(zhǔn)。其中數(shù)據(jù)采樣是缺陷預(yù)測模型構(gòu)建的初始階段,在初始階段對數(shù)據(jù)不平衡進行修正可直接減小后續(xù)階段執(zhí)行的復(fù)雜度。處理類不平衡問題的常用數(shù)據(jù)采樣方法通過調(diào)整樣本的數(shù)量達到類間平衡,但分布通常遵循原有分布,類內(nèi)平衡沒有改善。本文針對樣本分布,提出一種軟件缺陷預(yù)測類不平衡數(shù)據(jù)生成方法,根據(jù)樣本特征空間中分布情況進行聚類劃分,對劃分后的子區(qū)域依據(jù)不同分布情況采用不同策略進行有缺陷樣本數(shù)據(jù)合成,通過增加數(shù)量達到有缺陷和無缺陷樣本類間平衡,通過不同區(qū)域數(shù)據(jù)生成密度的不同改善有缺陷樣本類內(nèi)分布。為了驗證本文方法的有效性,本文在9個已公開缺陷預(yù)測數(shù)據(jù)集上進行了實驗,對比了本文方法與現(xiàn)有數(shù)據(jù)生成方法,并在不同分類算法下... 

【文章來源】:北京化工大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:76 頁

【學(xué)位級別】:碩士

【部分圖文】:

面向軟件缺陷預(yù)測的類不平衡數(shù)據(jù)生成方法研究


圖1-1軟件缺陷預(yù)測過程??Fi.?1-1?Software?Defect?Prediction?Process??

示意圖,數(shù)據(jù),情況,示意圖


不平衡問題下的軟件缺陷預(yù)測??數(shù)據(jù)不平衡包括類間不平衡和類內(nèi)不平衡問題。實際的軟件數(shù)據(jù)集內(nèi)有缺陷樣本??數(shù)遠小于無缺陷樣本數(shù),存在類間不平衡。數(shù)據(jù)集內(nèi)有缺陷樣本分布不均勻,有缺陷??樣本可以被劃分為多個子簇,且子簇間的樣本數(shù)量差距很大,存在類內(nèi)不平衡。本章??將對類間不平衡問題和類內(nèi)不平衡問題進行介紹,并介紹在數(shù)據(jù)不平衡問題下的現(xiàn)有??研宄。本章詳細介紹了幾種基于數(shù)據(jù)采樣的不平衡數(shù)據(jù)處理方法。??2.?1類間不平衡與類內(nèi)不平衡??類間不平衡是指數(shù)據(jù)集內(nèi)不同類別的樣本數(shù)量相差很大,如圖2-l(a)所示,黑色??五角星代表的樣本數(shù)量遠小于圓形樣本的數(shù)量,可以稱黑色五角星為少數(shù)類樣本,圓??形為多數(shù)類樣本,這兩類樣本數(shù)量差距很大,屬于類間不平衡。在實際問題中,少數(shù)??類樣本往往是關(guān)注的重點,需要較高的分類準(zhǔn)確率。但是大多分類算法是基于數(shù)據(jù)分??布平衡設(shè)計的,分類器在分類時會更傾向于多數(shù)類樣本,使大量少數(shù)類樣本被誤分,??造成分類結(jié)果的不準(zhǔn)確。??,B;?G?mnil?Minority?Cia?*??f,?t??(a)?(b)??圖2-1數(shù)據(jù)不平衡情況示意圖??Fig.?2-1?Schematic?diagram?of?imbalance?data??類內(nèi)不平衡是指數(shù)據(jù)集內(nèi)某一類的樣本分布不均勻,這類樣本可以劃分出多個子??簇,每個子簇的樣本數(shù)量相差較大。如圖2-1所示,A代表圓形類中數(shù)量較多的子類??集合、D代表圓形類中數(shù)量較少的子類集合、B代表五角星中數(shù)量較多的子類集合、??C代表五角星中數(shù)量較少的子類集合,可以看出無論是圓形類還是五角星類都存在類??內(nèi)不平衡。類內(nèi)不平衡可能引起小析取問題,即分類器通過創(chuàng)建規(guī)則來

數(shù)據(jù)分布,預(yù)測模型,缺陷,軟件


。??因此,類間不平衡問題和類內(nèi)不平衡問題都會影響分類結(jié)果的準(zhǔn)確性。??2.?2數(shù)據(jù)不平衡問題下的軟件缺陷預(yù)測模型??軟件缺陷預(yù)測中有缺陷的樣本數(shù)量遠遠小于無缺陷的樣本數(shù)量,存在類間不平衡??問題;數(shù)據(jù)集中的有缺陷樣本內(nèi)部分布不均勻,存在類內(nèi)不平衡問題,這兩種類不平??衡將嚴重影響分類預(yù)測的結(jié)果。??無缺陷?無缺陷?有缺陷?有缺陷??/===?]?介?卜?pr??^^?無缺陷??原始數(shù)據(jù)粢""?數(shù)據(jù)采樣?|?特征選擇 ̄?|?分類器優(yōu)化 ̄?評價標(biāo)準(zhǔn)??圖2-2不平衡數(shù)據(jù)下軟件缺陷預(yù)測模型??Fig.2-2?Defect?prediction?model?based?on?unbalanced?data??目前研宄熱點主要在于如何在構(gòu)建缺陷預(yù)測模型階段減弱不平衡數(shù)據(jù)帶來的影??響。圖2-2描繪了軟件缺陷預(yù)測模型在四個主要構(gòu)建階段對不平衡數(shù)據(jù)進行的處理。??面對無缺陷樣本多于有缺陷樣本,第一階段數(shù)據(jù)采樣階段希望通過增加或減少樣本數(shù)??而使數(shù)據(jù)集達到平衡,即有缺陷樣本數(shù)與無缺陷樣本數(shù)相差不大;第二階段特征選擇??則是結(jié)合特征選擇算法,從己有特征中選取更有利于將有缺陷樣本分出的特征,一方??面刪除無用特征,一方面對高維特征進行降維,減少計算成本;第三階段為分類器優(yōu)??化階段,許多機器學(xué)習(xí)算法被引入軟件缺陷預(yù)測問題中來,但是單一種類的分類器在??不同數(shù)據(jù)分布下的表現(xiàn)程度不同,特別是在不平衡數(shù)據(jù)下,大部分分類器表現(xiàn)不佳,??因此需要優(yōu)化分類器以實現(xiàn)對不平衡數(shù)據(jù)的良好分類;第四階段為評價標(biāo)準(zhǔn),機器學(xué)??習(xí)中最為常用的評價標(biāo)準(zhǔn)就是分類準(zhǔn)確率,在面對不平衡問題時,如果僅以分類準(zhǔn)確??率作為評價標(biāo)準(zhǔn),即使將有


本文編號:3230582

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3230582.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f3ccc***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
99在线视频精品免费播放| 久久精品国产99精品亚洲| 中文字幕乱码亚洲三区| 亚洲精品成人综合色在线| 成人午夜免费观看视频| 色婷婷国产熟妇人妻露脸| 午夜精品久久久99热连载| 国产精品日韩欧美一区二区| 热情的邻居在线中文字幕| 亚洲美女国产精品久久| 成年男女午夜久久久精品| 免费久久一级欧美特大黄孕妇| 91偷拍与自偷拍精品| 欧美亚洲综合另类色妞| 国产亚洲欧美日韩精品一区| 亚洲精品蜜桃在线观看| 国产一级特黄在线观看| 国产精品涩涩成人一区二区三区| 国产又色又爽又黄又免费| 偷拍美女洗澡免费视频| 午夜久久精品福利视频| 白丝美女被插入视频在线观看| 国产精品亚洲精品亚洲| 精品国产91亚洲一区二区三区| 又色又爽又无遮挡的视频| 91天堂素人精品系列全集| 日本东京热加勒比一区二区| 亚洲国产av一二三区| 在线中文字幕亚洲欧美一区 | 尤物天堂av一区二区| 日韩欧美国产精品中文字幕| 日韩中文字幕人妻精品| 在线免费国产一区二区三区| 中文字幕人妻日本一区二区| 五月天丁香婷婷一区二区| 日本视频在线观看不卡| 空之色水之色在线播放| 日本午夜免费观看视频| 亚洲国产香蕉视频在线观看| 黄片在线观看一区二区三区| 国产又黄又爽又粗视频在线|