軟件缺陷預測的特征選擇方法研究
發(fā)布時間:2021-04-12 11:16
對軟件項目進行開發(fā)和研究時,將不可避免地產生軟件缺陷,因此,及時發(fā)現和消除所研發(fā)的相關軟件的缺陷也成為了軟件項目工程開發(fā)需要著重開展的關鍵工作。隨著全球經濟科技的不斷發(fā)展,在當前知識經濟時代下,軟件產品充斥著人們的日常生活,與此同時,軟件產品在社會生產生活領域的作用也持續(xù)提升。相應地,軟件產品和系統(tǒng)的質量也越來越為人們所關注。作為軟件工程的關鍵內容,軟件缺陷預測技術以相關經驗數據為依托,借助機器學習的方法,能夠及時幫助軟件開發(fā)者和用戶發(fā)現相關軟件缺陷,進而有效節(jié)省軟件開發(fā)所需資源并提高軟件開發(fā)效率,確保產品質量。經過多年的發(fā)展,軟件預測技術已取得了較大的研究進步,但仍存在不足之處,如對于預測模型的分類并不精確、預測方法選擇的適用性和針對性不強等,這也在一定程度上限制了軟件預測技術在相關行業(yè)領域的應用,也增加了相關軟件系統(tǒng)和產品的隱患。特征選擇是通過從既有的M個特征中挑選出N個有效特征,進而降低數據集的維度,完成系統(tǒng)特定指標最優(yōu)化的過程。特征選擇不僅僅是傳統(tǒng)模式識別中重要的數據預處理技術,而且也是提高學習算法的有效手段,主要包括了Filter和Wrapper兩種類型的算法,二者區(qū)別主要體...
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:49 頁
【學位級別】:碩士
【部分圖文】:
軟件缺陷預測體系框架圖
第3章基于互信息的特征選擇3.3,評價函數J(f)中的b(見式(3.12))對于特征選擇過程十分重要。當b=-1時,J(f)類似于Fatemeh的評價函數;當b=0時,J(f)類似于Battiti所提函數(式(3.11))。當b=-3時,相應結果表現為圖3.2和圖3.3中的藍線條,此時,所對應的實驗結果要優(yōu)于其他取值情況。圖3.2IMIFS在NB分類器上的實驗結果具體來看,圖3.2為IMIFS在NB(樸素貝葉斯算法)分類器上的實驗結果。從CM1、JM1、PC1和KC1四個數據集的顯示結果中可發(fā)現,以NB為分類器的情況下,IMIFS對軟件缺陷的預測結果為,維度較小的缺陷特征子集的缺陷預測效果更為突出,且考慮到特征子集的規(guī)模(大。⿲(f)的非線性影響的IMIFS算法所確定出的最優(yōu)特征子集對于缺陷分類效果的過渡比較平滑,但為考慮這一因素的,則存在一定波動,如CM1和JM1數據集下的分類過渡。此外,特征數(橫坐標)為2時,缺陷特征分類的準確度最高,但這并不意味著缺陷數據集特征維數為2時,所對應的特征子集是最好的,原因是,在使用較低維度的特征子集構建軟件缺陷預測模型時,經常會出現過度擬合的問題。因此,本文認為,基于IMIFS+NB的軟件缺陷預測的最有特征子集大小應選取一個較為恰當的空間,而非是特定值,根據圖3.2所示實驗結果,可選擇[2,7]這一維度空間作為最優(yōu)特征子集維度,確保缺陷預測結果更具參考性。19
第3章基于互信息的特征選擇圖3.3IMIFS在MLP分類器上的實驗結果圖3.3為IMIFS在MLP(多層感知機)上的軟件缺陷預測結果。與NB分類器的相似之處為,同樣是對J(f)受特征子集大小的非線性影響予以考量的IMIFS算法(CM1和PC1)的效果要優(yōu)于其他情況下的IMIFS算法。不同之處在于,在軟件缺陷分類的精確度上,MLP分類器下的精確度峰值主要位于維度相對較大的中間位置,最優(yōu)特征子集的空間維度基本上占據了最初原始特征集維度的45%左右,與NB分類器下的低維度特征空間數據集相比,這一大小的特征子集要顯得更為合理,能夠在減少缺陷特征間冗余度的同時,盡可能保留多的缺陷信息,避免過度擬合的問題。根據上述實驗結果可知,基于改進互信息的特征選擇算法IMIFS在提高軟件缺陷分類的效率和準確度方面具有較為突出的作用。但需要說明的是,在仿真實驗過程中,并未發(fā)現對所有預測模型全部適用的最優(yōu)特征子集,因為對于不同的學習算法而言,其學習能力也具有一定差異。因此,綜合圖3.2和圖3.3所示結果,給出IMIFS算法下適用于不同分類器的最優(yōu)特征子集的維度區(qū)間,以供相關人員參考,如表3.1所示。其中,“()”內的數字為與相應結果對應的最有特征子集內的數據集個數。表3.1IMIFS算法下不同分類器最優(yōu)特征子集維度區(qū)間分類器樸素貝葉斯多層感知機最優(yōu)特征子集維度區(qū)間[2,7](4)[9.14](4)20
【參考文獻】:
期刊論文
[1]面向制造過程數據的兩階段無監(jiān)督特征選擇方法[J]. 張潔,盛夏,張朋,秦威,趙新明. 機械工程學報. 2019(17)
[2]基于差空間融合特征選擇的SVM算法[J]. 景煒,丁衛(wèi)平. 計算機工程與設計. 2019(08)
[3]基于基尼指標和卡方檢驗的特征選擇方法[J]. 陳諶,梁雪春. 計算機工程與設計. 2019(08)
[4]基于卷積神經網絡的代價敏感軟件缺陷預測模型[J]. 邱少健,蔡子儀,陸璐. 計算機科學. 2019(11)
[5]用于軟件缺陷預測的集成模型[J]. 胡夢園,黃鴻云,丁佐華. 計算機科學. 2019(11)
[6]基于實例過濾與遷移的跨項目缺陷預測方法[J]. 范貴生,刁旭煬,虞慧群,陳麗瓊. 計算機工程. 2020(08)
[7]軟件缺陷預測技術研究進展[J]. 宮麗娜,姜淑娟,姜麗. 軟件學報. 2019(10)
[8]基于隨機森林的信用評估特征選擇[J]. 王妍. 黑龍江科學. 2019(14)
[9]基于烏鴉搜索算法的新型特征選擇算法[J]. 王穎,曹捷,邱志洋. 吉林大學學報(理學版). 2019(04)
[10]基于粗糙集和果蠅優(yōu)化算法的特征選擇方法[J]. 方波,陳紅梅,王生武. 計算機科學. 2019(07)
碩士論文
[1]基于程序語義的軟件缺陷預測技術研究與實現[D]. 于悅.北京郵電大學 2019
[2]基于機器學習的軟件缺陷預測方案研究[D]. 李夢奇.北京郵電大學 2019
[3]基于主動學習的軟件缺陷預測方法研究[D]. 吳芳芳.南京大學 2019
[4]基于特征遷移的跨項目軟件缺陷預測[D]. 劉樹毅.內蒙古師范大學 2019
[5]基于集成模型的軟件缺陷預測[D]. 胡夢園.浙江理工大學 2019
[6]基于聯合表示的軟件缺陷預測方法研究[D]. 史作婷.南京郵電大學 2018
[7]特征選擇在軟件缺陷預測技術中的應用研究[D]. 王培.華中師范大學 2013
本文編號:3133204
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:49 頁
【學位級別】:碩士
【部分圖文】:
軟件缺陷預測體系框架圖
第3章基于互信息的特征選擇3.3,評價函數J(f)中的b(見式(3.12))對于特征選擇過程十分重要。當b=-1時,J(f)類似于Fatemeh的評價函數;當b=0時,J(f)類似于Battiti所提函數(式(3.11))。當b=-3時,相應結果表現為圖3.2和圖3.3中的藍線條,此時,所對應的實驗結果要優(yōu)于其他取值情況。圖3.2IMIFS在NB分類器上的實驗結果具體來看,圖3.2為IMIFS在NB(樸素貝葉斯算法)分類器上的實驗結果。從CM1、JM1、PC1和KC1四個數據集的顯示結果中可發(fā)現,以NB為分類器的情況下,IMIFS對軟件缺陷的預測結果為,維度較小的缺陷特征子集的缺陷預測效果更為突出,且考慮到特征子集的規(guī)模(大。⿲(f)的非線性影響的IMIFS算法所確定出的最優(yōu)特征子集對于缺陷分類效果的過渡比較平滑,但為考慮這一因素的,則存在一定波動,如CM1和JM1數據集下的分類過渡。此外,特征數(橫坐標)為2時,缺陷特征分類的準確度最高,但這并不意味著缺陷數據集特征維數為2時,所對應的特征子集是最好的,原因是,在使用較低維度的特征子集構建軟件缺陷預測模型時,經常會出現過度擬合的問題。因此,本文認為,基于IMIFS+NB的軟件缺陷預測的最有特征子集大小應選取一個較為恰當的空間,而非是特定值,根據圖3.2所示實驗結果,可選擇[2,7]這一維度空間作為最優(yōu)特征子集維度,確保缺陷預測結果更具參考性。19
第3章基于互信息的特征選擇圖3.3IMIFS在MLP分類器上的實驗結果圖3.3為IMIFS在MLP(多層感知機)上的軟件缺陷預測結果。與NB分類器的相似之處為,同樣是對J(f)受特征子集大小的非線性影響予以考量的IMIFS算法(CM1和PC1)的效果要優(yōu)于其他情況下的IMIFS算法。不同之處在于,在軟件缺陷分類的精確度上,MLP分類器下的精確度峰值主要位于維度相對較大的中間位置,最優(yōu)特征子集的空間維度基本上占據了最初原始特征集維度的45%左右,與NB分類器下的低維度特征空間數據集相比,這一大小的特征子集要顯得更為合理,能夠在減少缺陷特征間冗余度的同時,盡可能保留多的缺陷信息,避免過度擬合的問題。根據上述實驗結果可知,基于改進互信息的特征選擇算法IMIFS在提高軟件缺陷分類的效率和準確度方面具有較為突出的作用。但需要說明的是,在仿真實驗過程中,并未發(fā)現對所有預測模型全部適用的最優(yōu)特征子集,因為對于不同的學習算法而言,其學習能力也具有一定差異。因此,綜合圖3.2和圖3.3所示結果,給出IMIFS算法下適用于不同分類器的最優(yōu)特征子集的維度區(qū)間,以供相關人員參考,如表3.1所示。其中,“()”內的數字為與相應結果對應的最有特征子集內的數據集個數。表3.1IMIFS算法下不同分類器最優(yōu)特征子集維度區(qū)間分類器樸素貝葉斯多層感知機最優(yōu)特征子集維度區(qū)間[2,7](4)[9.14](4)20
【參考文獻】:
期刊論文
[1]面向制造過程數據的兩階段無監(jiān)督特征選擇方法[J]. 張潔,盛夏,張朋,秦威,趙新明. 機械工程學報. 2019(17)
[2]基于差空間融合特征選擇的SVM算法[J]. 景煒,丁衛(wèi)平. 計算機工程與設計. 2019(08)
[3]基于基尼指標和卡方檢驗的特征選擇方法[J]. 陳諶,梁雪春. 計算機工程與設計. 2019(08)
[4]基于卷積神經網絡的代價敏感軟件缺陷預測模型[J]. 邱少健,蔡子儀,陸璐. 計算機科學. 2019(11)
[5]用于軟件缺陷預測的集成模型[J]. 胡夢園,黃鴻云,丁佐華. 計算機科學. 2019(11)
[6]基于實例過濾與遷移的跨項目缺陷預測方法[J]. 范貴生,刁旭煬,虞慧群,陳麗瓊. 計算機工程. 2020(08)
[7]軟件缺陷預測技術研究進展[J]. 宮麗娜,姜淑娟,姜麗. 軟件學報. 2019(10)
[8]基于隨機森林的信用評估特征選擇[J]. 王妍. 黑龍江科學. 2019(14)
[9]基于烏鴉搜索算法的新型特征選擇算法[J]. 王穎,曹捷,邱志洋. 吉林大學學報(理學版). 2019(04)
[10]基于粗糙集和果蠅優(yōu)化算法的特征選擇方法[J]. 方波,陳紅梅,王生武. 計算機科學. 2019(07)
碩士論文
[1]基于程序語義的軟件缺陷預測技術研究與實現[D]. 于悅.北京郵電大學 2019
[2]基于機器學習的軟件缺陷預測方案研究[D]. 李夢奇.北京郵電大學 2019
[3]基于主動學習的軟件缺陷預測方法研究[D]. 吳芳芳.南京大學 2019
[4]基于特征遷移的跨項目軟件缺陷預測[D]. 劉樹毅.內蒙古師范大學 2019
[5]基于集成模型的軟件缺陷預測[D]. 胡夢園.浙江理工大學 2019
[6]基于聯合表示的軟件缺陷預測方法研究[D]. 史作婷.南京郵電大學 2018
[7]特征選擇在軟件缺陷預測技術中的應用研究[D]. 王培.華中師范大學 2013
本文編號:3133204
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3133204.html