面向缺陷管理的跨項目知識復用技術研究
發(fā)布時間:2021-08-04 20:01
軟件缺陷管理一直是軟件開發(fā)活動中很重要的一環(huán)。如今,隨著開源運動的蓬勃發(fā)展,越來越多的開發(fā)者將軟件項目托管到開源社區(qū)。為了吸引來自不同地區(qū)的外圍貢獻者參與到項目的開發(fā)進程中來,開源社區(qū)提供的協(xié)同開發(fā)工具趨向于輕量化。一方面,這些輕量級工具簡化了項目的貢獻機制,為項目吸引了海量貢獻;另一方面,匯聚而來的海量貢獻質(zhì)量參差不齊,其中不乏有很多模糊的、質(zhì)量低的外圍貢獻,給開源項目的健康發(fā)展帶來了巨大的隱患。因此,在大眾化協(xié)同的開源生態(tài)下,對開源軟件進行自動化的缺陷管理變得格外重要。已有的自動化缺陷管理方法基于傳統(tǒng)的機器學習模型,受制于訓練樣本數(shù)量的多少。對于一些新的或是沒有足夠歷史數(shù)據(jù)的項目,無法在項目內(nèi)構建一個好的預測模型。因此,為了解決樣本不足的項目的缺陷管理問題,本文基于開源社區(qū)Github中的大規(guī)模數(shù)據(jù)集,對面向缺陷管理的跨項目知識復用技術進行了探索研究。論文的主要貢獻總結如下:第一,基于開源社區(qū)累積的數(shù)據(jù)資源,分別對項目內(nèi)的質(zhì)量以及項目間的關聯(lián)關系進行了量化評估,提出了面向開源項目的多維量化度量體系,其中包括項目內(nèi)質(zhì)量評估度量(包含4個維度、9個度量指標),以及項目間關聯(lián)關系度量(包...
【文章來源】:國防科技大學湖南省 211工程院校 985工程院校
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
圖1.2?Github?ITS工作流程??
國防科技太學研究生院碩士學位論文??0.8??°'78??丨^??0.76?^0000^4t00000^^??掛?0.74??|〇,2?/??傘?0_7?/??0.68?T??0.66?4??0.64??0?200?400?600?800?1000??ISSUE樣本數(shù)量??圖1.4?GitHub社區(qū)分類準確寧與樣本大小關藥??小數(shù)據(jù)集項目內(nèi)的學習器預測效果很不好[15]。此外,我們在缺陷分類場景下,??對Github社區(qū)有足夠issue樣本的項目調(diào)研了樣本大小和分類準確率的關系。如??圖1.4所示,可以發(fā)現(xiàn)在樣本不足的時候,分類器性能很差,隨著訓練樣本量的增??力口,分類的準確率有穩(wěn)步上升。然而,在實際的缺陷分類預測任務中,并不是總??能滿足這個機器學習基本假設。我們對GitHub社區(qū)截至2017年5月的所有開源??項目友其issue數(shù)量(從GHTorrent6平合獲。┳隽嘶A統(tǒng)計,統(tǒng)計結果如圖1.5,??1.6所示■。從圖1.5可以看出整體Github項目issue數(shù)量墨現(xiàn)長尾分布趨勢,即絕大??部分項_僅有少量issue。其中僅有1.7%的項M?issue數(shù)量超過200,?0.6%的項貝??issue.數(shù)量舞過500。圖1.6對issue數(shù)量大于500的項_雜行了帯標簽.issue.數(shù)鐘翁??計,我們發(fā)現(xiàn)平均每個項目有超過40%的issue沒有標簽,無法作為訓練樣本在??分類器中使用。綜合上述觀察結果,我們發(fā)現(xiàn)在實際中,大量項目沒有足夠的訓??練樣本,無法在項目內(nèi)訓練出有效的預測模型。??對于一些新的或沒有足夠歷史數(shù)據(jù)的項目,想要構建一個好的學習器來對項??目進行分類預測是一個
釀科技大孝研觸院碩位論文??1e+05-??01?llllliy—I'??6?5000?10000?15000?20000??issueaS??圖1.5?GitHub社區(qū)項目與issue數(shù)量統(tǒng)計圖??1.00-??0.75-?????1??ru??菡?0.50-??I?????nn??m??0.25-??團1..6?Github社糕項U帶標記issue比例箱魏'圈??如何更高效的進行跨項自知識源的選擇與集成也I個待解決的難題。針對以上??兩個難點,我們將對面向缺陷管理的跨項i■知識復用技術展開研究,探索如何更??好地對數(shù)據(jù)不足的項目實現(xiàn)跨項目分類預測,以提高項目質(zhì)量,減輕項_管理人??.農(nóng)負擔S??1.2相關研究現(xiàn)狀??一直以來,軟件缺陷預測和缺陷報舎分類都是軟件工程領域最受關注的研??究內(nèi)容之一。如今,面向開源社區(qū)的海暈貢讞,軟件的缺陷管理更是受到學術??界和工業(yè)界的廣泛關往《受到遷移學習原理和相關技術的啟蒙,越來越多的??研究學者關注用跨項目的方法解決實際問題。近幾年,在軟件工程的一些頂級??會議如?ICSE(International?Conference?of?Software?Engineering)、FSE(ACM?SIGSOFT??Symposium?on?the?Foundation?of?Software?Engineering)?>?MSR(International?Conference??on?Mining?Software?Repositories)上,持續(xù)有研究學者提出用跨項目的方法解決缺??第7頁??
【參考文獻】:
期刊論文
[1]靜態(tài)軟件缺陷預測方法研究[J]. 陳翔,顧慶,劉望舒,劉樹龍,倪超. 軟件學報. 2016(01)
[2]一種基于跨領域典型相關性分析的遷移學習方法[J]. 張博,史忠植,趙曉非,張建華. 計算機學報. 2015(07)
[3]基于度量元的靜態(tài)軟件缺陷預測技術[J]. 常瑞花,賈鵬. 火力與指揮控制. 2015(02)
[4]遷移學習研究進展[J]. 莊福振,羅平,何清,史忠植. 軟件學報. 2015(01)
本文編號:3322319
【文章來源】:國防科技大學湖南省 211工程院校 985工程院校
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
圖1.2?Github?ITS工作流程??
國防科技太學研究生院碩士學位論文??0.8??°'78??丨^??0.76?^0000^4t00000^^??掛?0.74??|〇,2?/??傘?0_7?/??0.68?T??0.66?4??0.64??0?200?400?600?800?1000??ISSUE樣本數(shù)量??圖1.4?GitHub社區(qū)分類準確寧與樣本大小關藥??小數(shù)據(jù)集項目內(nèi)的學習器預測效果很不好[15]。此外,我們在缺陷分類場景下,??對Github社區(qū)有足夠issue樣本的項目調(diào)研了樣本大小和分類準確率的關系。如??圖1.4所示,可以發(fā)現(xiàn)在樣本不足的時候,分類器性能很差,隨著訓練樣本量的增??力口,分類的準確率有穩(wěn)步上升。然而,在實際的缺陷分類預測任務中,并不是總??能滿足這個機器學習基本假設。我們對GitHub社區(qū)截至2017年5月的所有開源??項目友其issue數(shù)量(從GHTorrent6平合獲。┳隽嘶A統(tǒng)計,統(tǒng)計結果如圖1.5,??1.6所示■。從圖1.5可以看出整體Github項目issue數(shù)量墨現(xiàn)長尾分布趨勢,即絕大??部分項_僅有少量issue。其中僅有1.7%的項M?issue數(shù)量超過200,?0.6%的項貝??issue.數(shù)量舞過500。圖1.6對issue數(shù)量大于500的項_雜行了帯標簽.issue.數(shù)鐘翁??計,我們發(fā)現(xiàn)平均每個項目有超過40%的issue沒有標簽,無法作為訓練樣本在??分類器中使用。綜合上述觀察結果,我們發(fā)現(xiàn)在實際中,大量項目沒有足夠的訓??練樣本,無法在項目內(nèi)訓練出有效的預測模型。??對于一些新的或沒有足夠歷史數(shù)據(jù)的項目,想要構建一個好的學習器來對項??目進行分類預測是一個
釀科技大孝研觸院碩位論文??1e+05-??01?llllliy—I'??6?5000?10000?15000?20000??issueaS??圖1.5?GitHub社區(qū)項目與issue數(shù)量統(tǒng)計圖??1.00-??0.75-?????1??ru??菡?0.50-??I?????nn??m??0.25-??團1..6?Github社糕項U帶標記issue比例箱魏'圈??如何更高效的進行跨項自知識源的選擇與集成也I個待解決的難題。針對以上??兩個難點,我們將對面向缺陷管理的跨項i■知識復用技術展開研究,探索如何更??好地對數(shù)據(jù)不足的項目實現(xiàn)跨項目分類預測,以提高項目質(zhì)量,減輕項_管理人??.農(nóng)負擔S??1.2相關研究現(xiàn)狀??一直以來,軟件缺陷預測和缺陷報舎分類都是軟件工程領域最受關注的研??究內(nèi)容之一。如今,面向開源社區(qū)的海暈貢讞,軟件的缺陷管理更是受到學術??界和工業(yè)界的廣泛關往《受到遷移學習原理和相關技術的啟蒙,越來越多的??研究學者關注用跨項目的方法解決實際問題。近幾年,在軟件工程的一些頂級??會議如?ICSE(International?Conference?of?Software?Engineering)、FSE(ACM?SIGSOFT??Symposium?on?the?Foundation?of?Software?Engineering)?>?MSR(International?Conference??on?Mining?Software?Repositories)上,持續(xù)有研究學者提出用跨項目的方法解決缺??第7頁??
【參考文獻】:
期刊論文
[1]靜態(tài)軟件缺陷預測方法研究[J]. 陳翔,顧慶,劉望舒,劉樹龍,倪超. 軟件學報. 2016(01)
[2]一種基于跨領域典型相關性分析的遷移學習方法[J]. 張博,史忠植,趙曉非,張建華. 計算機學報. 2015(07)
[3]基于度量元的靜態(tài)軟件缺陷預測技術[J]. 常瑞花,賈鵬. 火力與指揮控制. 2015(02)
[4]遷移學習研究進展[J]. 莊福振,羅平,何清,史忠植. 軟件學報. 2015(01)
本文編號:3322319
本文鏈接:http://sikaile.net/guanlilunwen/shequguanli/3322319.html
最近更新
教材專著