基于代價(jià)敏感集成分類器的代碼壞味檢測(cè)
發(fā)布時(shí)間:2020-12-25 14:25
軟件系統(tǒng)的演化是一個(gè)長(zhǎng)期連續(xù)的過程,軟件系統(tǒng)在一段時(shí)間內(nèi)通常會(huì)發(fā)生一系列大小不等的變化。隨著軟件系統(tǒng)的發(fā)展,系統(tǒng)的功能就會(huì)越來越多,從而系統(tǒng)越來越大,相比較而言其設(shè)計(jì)就會(huì)變得惡化,會(huì)更加復(fù)雜和難以理解,導(dǎo)致軟件系統(tǒng)很難維護(hù)。軟件整個(gè)生命周期內(nèi),維護(hù)的花費(fèi)是開發(fā)的2-100倍,為了提高軟件系統(tǒng)的可維護(hù)性,降低維護(hù)成本,系統(tǒng)就必須在不影響外部行為的前提下進(jìn)行重構(gòu),重構(gòu)的基礎(chǔ)就是檢測(cè)代碼壞味,因此,代碼壞味的檢測(cè)就變得尤為重要。代碼壞味指軟件設(shè)計(jì)上的一些問題,會(huì)導(dǎo)致軟件很難演化,越來越多的學(xué)者采用機(jī)器學(xué)習(xí)的方法來檢測(cè)壞味,機(jī)器學(xué)習(xí)方法能夠通過學(xué)習(xí)樣例來構(gòu)建檢測(cè)規(guī)則,最后用測(cè)試樣例來評(píng)價(jià)結(jié)果,結(jié)果表明用機(jī)器學(xué)習(xí)方法檢測(cè)代碼壞味會(huì)取得更好的結(jié)果。但由于代碼壞味的數(shù)據(jù)集是極度不平衡的,負(fù)樣例個(gè)數(shù)遠(yuǎn)遠(yuǎn)大于正樣例個(gè)數(shù),這就導(dǎo)致傳統(tǒng)機(jī)器學(xué)習(xí)算法的效果大打折扣。本文提出一種新的檢測(cè)代碼壞味的方法,以傳統(tǒng)機(jī)器學(xué)習(xí)算法決策樹為基礎(chǔ),引入以認(rèn)知復(fù)雜度為代價(jià)因子的代價(jià)矩陣,從而降低數(shù)據(jù)不平衡對(duì)算法的影響,提高代碼壞味的檢測(cè)準(zhǔn)確率,本文主要研究了長(zhǎng)方法和特征依戀兩種代碼壞味的檢測(cè)。本文的主要工作有:1)針對(duì)代碼壞味...
【文章來源】:河北師范大學(xué)河北省
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
特征依戀示例
圖 2.3 代碼壞味檢測(cè)的一般流程.3.2 基于貝葉斯網(wǎng)絡(luò)的檢測(cè)方法家們研究出了大量代碼壞味的檢測(cè)技術(shù),但有些技術(shù)并不能處理檢測(cè)過程素。比如:針對(duì)代碼壞味的定義并沒有形成統(tǒng)一的標(biāo)準(zhǔn),所以代碼壞味定指標(biāo)會(huì)出現(xiàn)不同的結(jié)果,軟件質(zhì)量的評(píng)定主要是以人為中心的,因此對(duì)于壞味總有一定不確定程度的存在。貝葉斯方法可以把現(xiàn)有技術(shù)最新的檢測(cè)率模型,檢測(cè)結(jié)果是以一個(gè)概率的形式呈現(xiàn)的,這個(gè)概率度量一個(gè)類屬于小[41]。葉斯網(wǎng)絡(luò)是一個(gè)代表概率分布的非周期性圖表,在這個(gè)圖表中,每個(gè)節(jié)點(diǎn)變量iX ,兩個(gè)節(jié)點(diǎn)之間的邊表示一個(gè)概率,這個(gè)概率是父節(jié)點(diǎn)表示的變量示的變量之間的依賴程度的度量。貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)表示假設(shè)網(wǎng)絡(luò)中的每個(gè)某些條件下獨(dú)立于其父節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)X 關(guān)聯(lián)一個(gè)條件概率表,這個(gè)條件
文采用的方法是欠采樣方法結(jié)合代價(jià)敏感學(xué)習(xí)。了能夠使分類效果達(dá)到最好,需要確定正負(fù)樣例的比例,本文是首先從負(fù)樣中隨機(jī)欠采樣抽取多個(gè)不同數(shù)量的子類,并把這些子類分別與正樣例樣本組不同比例的數(shù)據(jù)樣本集,把這些不同比例的樣本集訓(xùn)練生成決策樹,決策樹進(jìn)行分類,并比較不同比例樣本的分類查準(zhǔn)率,最后選擇查準(zhǔn)率最高的樣本同比例的正負(fù)樣例的決策樹分類效果如圖 3.1 所示。
【參考文獻(xiàn)】:
期刊論文
[1]不均衡數(shù)據(jù)分類算法的綜述[J]. 陶新民,郝思媛,張冬雪,徐鵬. 重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(01)
[2]不均衡數(shù)據(jù)下基于SVM的故障檢測(cè)新算法[J]. 陶新民,劉福榮,童智靖,楊立標(biāo). 振動(dòng)與沖擊. 2010(12)
[3]支持向量機(jī)與AdaBoost的結(jié)合算法研究[J]. 張曉龍,任芳. 計(jì)算機(jī)應(yīng)用研究. 2009(01)
碩士論文
[1]基于潛在語義分析的代碼壞味檢測(cè)[D]. 馬賽.河北師范大學(xué) 2017
[2]基于語義分析的文本挖掘研究[D]. 陸洋.浙江工業(yè)大學(xué) 2012
[3]面向自動(dòng)化重構(gòu)的代碼味道識(shí)別器的設(shè)計(jì)與實(shí)現(xiàn)[D]. 李軍超.國(guó)防科學(xué)技術(shù)大學(xué) 2006
本文編號(hào):2937825
【文章來源】:河北師范大學(xué)河北省
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
特征依戀示例
圖 2.3 代碼壞味檢測(cè)的一般流程.3.2 基于貝葉斯網(wǎng)絡(luò)的檢測(cè)方法家們研究出了大量代碼壞味的檢測(cè)技術(shù),但有些技術(shù)并不能處理檢測(cè)過程素。比如:針對(duì)代碼壞味的定義并沒有形成統(tǒng)一的標(biāo)準(zhǔn),所以代碼壞味定指標(biāo)會(huì)出現(xiàn)不同的結(jié)果,軟件質(zhì)量的評(píng)定主要是以人為中心的,因此對(duì)于壞味總有一定不確定程度的存在。貝葉斯方法可以把現(xiàn)有技術(shù)最新的檢測(cè)率模型,檢測(cè)結(jié)果是以一個(gè)概率的形式呈現(xiàn)的,這個(gè)概率度量一個(gè)類屬于小[41]。葉斯網(wǎng)絡(luò)是一個(gè)代表概率分布的非周期性圖表,在這個(gè)圖表中,每個(gè)節(jié)點(diǎn)變量iX ,兩個(gè)節(jié)點(diǎn)之間的邊表示一個(gè)概率,這個(gè)概率是父節(jié)點(diǎn)表示的變量示的變量之間的依賴程度的度量。貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)表示假設(shè)網(wǎng)絡(luò)中的每個(gè)某些條件下獨(dú)立于其父節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)X 關(guān)聯(lián)一個(gè)條件概率表,這個(gè)條件
文采用的方法是欠采樣方法結(jié)合代價(jià)敏感學(xué)習(xí)。了能夠使分類效果達(dá)到最好,需要確定正負(fù)樣例的比例,本文是首先從負(fù)樣中隨機(jī)欠采樣抽取多個(gè)不同數(shù)量的子類,并把這些子類分別與正樣例樣本組不同比例的數(shù)據(jù)樣本集,把這些不同比例的樣本集訓(xùn)練生成決策樹,決策樹進(jìn)行分類,并比較不同比例樣本的分類查準(zhǔn)率,最后選擇查準(zhǔn)率最高的樣本同比例的正負(fù)樣例的決策樹分類效果如圖 3.1 所示。
【參考文獻(xiàn)】:
期刊論文
[1]不均衡數(shù)據(jù)分類算法的綜述[J]. 陶新民,郝思媛,張冬雪,徐鵬. 重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(01)
[2]不均衡數(shù)據(jù)下基于SVM的故障檢測(cè)新算法[J]. 陶新民,劉福榮,童智靖,楊立標(biāo). 振動(dòng)與沖擊. 2010(12)
[3]支持向量機(jī)與AdaBoost的結(jié)合算法研究[J]. 張曉龍,任芳. 計(jì)算機(jī)應(yīng)用研究. 2009(01)
碩士論文
[1]基于潛在語義分析的代碼壞味檢測(cè)[D]. 馬賽.河北師范大學(xué) 2017
[2]基于語義分析的文本挖掘研究[D]. 陸洋.浙江工業(yè)大學(xué) 2012
[3]面向自動(dòng)化重構(gòu)的代碼味道識(shí)別器的設(shè)計(jì)與實(shí)現(xiàn)[D]. 李軍超.國(guó)防科學(xué)技術(shù)大學(xué) 2006
本文編號(hào):2937825
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2937825.html
最近更新
教材專著