面向大型開源社區(qū)的缺陷數(shù)據(jù)分析與研究
發(fā)布時間:2021-12-28 11:09
隨著開源軟件社區(qū)和敏捷開發(fā)模式的不斷發(fā)展,越來越多的軟件開發(fā)團隊選擇將項目托管到開源社區(qū)中,使得來自行業(yè)各界的開發(fā)者都能參與到開源軟件項目的開發(fā)中。在開源軟件社區(qū)的發(fā)展潮流中,出現(xiàn)了一大批優(yōu)秀的開源軟件開發(fā)社區(qū)。例如業(yè)界中最大的開源軟件社區(qū)GitHub。像GitHub這種大型開源社區(qū)在經(jīng)過長期發(fā)展后,社區(qū)上沉淀了大量的軟件倉庫,其中包含著開發(fā)者在整個軟件協(xié)作開發(fā)的過程中的經(jīng)驗和技巧。在眾多的軟件數(shù)據(jù)中,有一類很重要的數(shù)據(jù):軟件缺陷記錄。軟件缺陷記錄通常記錄了軟件開發(fā)者在使用軟件的過程中遇到的一些故障,或者是期待軟件在新的版本中具有的功能等等。當(dāng)軟件的使用者在向軟件所有者提出一條軟件缺陷記錄后,軟件所有者通常都會組織適當(dāng)?shù)拈_發(fā)資源來解決軟件缺陷記錄中的軟件故障。文本對缺陷數(shù)據(jù)的研究主要從兩個方面來研究。1.研究如何提升缺陷數(shù)據(jù)的檢索效率。開源社區(qū)中雖然存儲著海量的缺陷數(shù)據(jù),但是這些數(shù)據(jù)信息分散廣泛,每條缺陷記錄的內(nèi)容復(fù)雜,有的甚至包括代碼崩潰堆棧等閱讀體驗不友好的內(nèi)容,因為缺陷記錄的這些特點,導(dǎo)致開發(fā)人員無法快速的理解缺陷記錄所記錄的具體缺陷內(nèi)容,損害閱讀和檢索效率。本文主要通過給缺陷記...
【文章來源】:武漢大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:55 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3.1:標簽自動生成方法概要??點,標簽元數(shù)據(jù)定義具體和抽象兩種標簽屬性,用來區(qū)分不同抽象層次的標簽
圖3.3:?7/2/67^7^5和人工組的召回時間對比??
?12??缺陷記錄序號??圖3.3:?7/2/67^7^5和人工組的召回時間對比??此標簽提取時間的長短變化,也顯著影響著人工組的召回時間。為了探宂驗證人工組搜索時間波??動發(fā)生的真正原因,我們將人工組搜索時間最大值和最小值出現(xiàn)的缺陷記錄的文本長度和代碼長??度進行了統(tǒng)計,如表3.5所示:??表3.5:缺陷記錄的文本代碼長度比較??^缺陷記錄序號|文本行數(shù)|代碼行數(shù)??3?120?36??6?40?15??從表中我們可以發(fā)現(xiàn),3號缺陷記錄的文本長度和代碼長度都遠遠大于6號缺陷記錄,復(fù)雜??的文木和代碼給閱讀者理解缺陷記錄的主題造成了較大的障礙,從而使得閱讀者給該缺陷記錄生??成關(guān)鍵詞的時間變長,而搜索時間包括生成關(guān)鍵詞的時間和搜索結(jié)果中召回的時間,生成關(guān)鍵詞??的吋間變長,最終的搜索吋間也有很大可能變長。因而會產(chǎn)生圖3.3中的搜索時間波動的現(xiàn)象。??3.4.2檢索效果比較(RQ2)??在討論搜索效果時
【參考文獻】:
期刊論文
[1]Social media in Git Hub: the role of @-mention in assisting software development[J]. Yang ZHANG,Huaimin WANG,Gang YIN,Tao WANG,Yue YU. Science China(Information Sciences). 2017(03)
[2]多標簽數(shù)據(jù)挖掘技術(shù):研究綜述[J]. 李思男,李寧,李戰(zhàn)懷. 計算機科學(xué). 2013(04)
本文編號:3553953
【文章來源】:武漢大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:55 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3.1:標簽自動生成方法概要??點,標簽元數(shù)據(jù)定義具體和抽象兩種標簽屬性,用來區(qū)分不同抽象層次的標簽
圖3.3:?7/2/67^7^5和人工組的召回時間對比??
?12??缺陷記錄序號??圖3.3:?7/2/67^7^5和人工組的召回時間對比??此標簽提取時間的長短變化,也顯著影響著人工組的召回時間。為了探宂驗證人工組搜索時間波??動發(fā)生的真正原因,我們將人工組搜索時間最大值和最小值出現(xiàn)的缺陷記錄的文本長度和代碼長??度進行了統(tǒng)計,如表3.5所示:??表3.5:缺陷記錄的文本代碼長度比較??^缺陷記錄序號|文本行數(shù)|代碼行數(shù)??3?120?36??6?40?15??從表中我們可以發(fā)現(xiàn),3號缺陷記錄的文本長度和代碼長度都遠遠大于6號缺陷記錄,復(fù)雜??的文木和代碼給閱讀者理解缺陷記錄的主題造成了較大的障礙,從而使得閱讀者給該缺陷記錄生??成關(guān)鍵詞的時間變長,而搜索時間包括生成關(guān)鍵詞的時間和搜索結(jié)果中召回的時間,生成關(guān)鍵詞??的吋間變長,最終的搜索吋間也有很大可能變長。因而會產(chǎn)生圖3.3中的搜索時間波動的現(xiàn)象。??3.4.2檢索效果比較(RQ2)??在討論搜索效果時
【參考文獻】:
期刊論文
[1]Social media in Git Hub: the role of @-mention in assisting software development[J]. Yang ZHANG,Huaimin WANG,Gang YIN,Tao WANG,Yue YU. Science China(Information Sciences). 2017(03)
[2]多標簽數(shù)據(jù)挖掘技術(shù):研究綜述[J]. 李思男,李寧,李戰(zhàn)懷. 計算機科學(xué). 2013(04)
本文編號:3553953
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3553953.html
最近更新
教材專著