循環(huán)神經(jīng)網(wǎng)絡(luò)在缺陷報告重復(fù)檢測上的研究及應(yīng)用
發(fā)布時間:2021-04-16 18:03
研究表明處理大量的重復(fù)缺陷會對人力造成極大的浪費,特別對于大型的項目來說尤其明顯。為了減輕人工檢測重復(fù)報告的工作量,縮減人工管理缺陷的時間,開展缺陷報告自動重復(fù)檢測方法的研究是具有價值的。本文系統(tǒng)的分析了重復(fù)缺陷報告產(chǎn)生的原因,發(fā)展現(xiàn)狀及其意義,并對國內(nèi)外的重復(fù)缺陷研究方法及深度學(xué)習(xí)在文本相似度上的方法進(jìn)行了綜述。最終基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,簡稱RNN)與Attention機制的理論及技術(shù),將LSTM(Long Short-Term Memory)模型,BI-LSTM(Bi-directional Long Short-Term Memory)模型,雙層BI-LSTM模型及使用Attention機制的雙層BI-LSTM模型,應(yīng)用于重復(fù)缺陷報告領(lǐng)域,用于計算兩個缺陷報告間的相似度。并以開源項目Eclipse產(chǎn)生的缺陷報告作為數(shù)據(jù)集,對比前人經(jīng)驗篩選出數(shù)據(jù)源對上述模型進(jìn)行實驗,之后對各模型結(jié)果進(jìn)行了對比與分析,并進(jìn)行了一定程度的調(diào)優(yōu)。整體思路是將缺陷報告分為相似與不相似兩類,當(dāng)兩個缺陷報告計算出的結(jié)果大于某個閾值時,即判定為兩文本相似。并在各個...
【文章來源】:北京林業(yè)大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3.4標(biāo)題長度對實驗結(jié)果的影響??Figure?3.4?Effect?of?title?length?on?experiment?results??
3基于LSTM的重復(fù)缺陷報告檢測??96.00%??94.00%??92.00%??90.00%??H?H?_??80.00%?——_??20?30?40?50??■準(zhǔn)確率■召回率■?FI值??圖3.4標(biāo)題長度對實驗結(jié)果的影響??Figure?3.4?Effect?of?title?length?on?experiment?results??由圖3.4可知,標(biāo)題長度選擇為40時,模型的三種評價指標(biāo)都有所提升,此時??準(zhǔn)確率達(dá)到LSTM模型的最高。??96.00%??94.00%??92.00%??90.00%??88.00%?■?H?_??i?I?I?I?III?III??78.00%?^?^?^?^?,.h_??100?125?135?150??■準(zhǔn)確率■召回率■?FI值??圖3.5描述長度對實驗結(jié)果的影響??Figure?3.5?Describe?the?eflfect?of?length?on?experimental?results??由圖3.5可知,在標(biāo)題長度達(dá)到最優(yōu)之后,對描述長度進(jìn)行對比實驗,當(dāng)描述長??度為125時,該模型的準(zhǔn)確率達(dá)到了最優(yōu),為87.42%。??25??
Dropout?技術(shù)??Dropout技術(shù)的提出,主要為了解決過擬合問題,使模型能夠更好的完成訓(xùn)練。??其在2012年Hinton的論文中首次被提出,它能夠提高神經(jīng)網(wǎng)絡(luò)的性能,它主要是通??過減少特征檢測器的共同作用實現(xiàn)(Hinton?etal,2012)。在每次訓(xùn)練過程中,將部分隱??藏層的節(jié)點設(shè)置成0,忽略部分特征檢測,可以明顯地減少過擬合現(xiàn)象。即在前向傳??播的時候,設(shè)置一定的幾率讓&些神經(jīng)元的激活值停止工作,這樣可以使模型不會太??依賴菜些局部的特征,從而提高泛化能力。??圖3.7神經(jīng)網(wǎng)絡(luò)Dropout示意圖??Figure?3.7?Neural?network?dropout?schematic??27??
【參考文獻(xiàn)】:
期刊論文
[1]雙向循環(huán)神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用[J]. 更藏措毛,黃鶴鳴. 計算機與現(xiàn)代化. 2019(10)
[2]融合文本與分類信息的重復(fù)缺陷報告檢測方法[J]. 范道遠(yuǎn),孫吉紅,王煒,涂吉屏,何欣. 計算機科學(xué). 2019(12)
[3]基于深度學(xué)習(xí)的文本相似度計算[J]. 邵恒,馮興樂,包芬. 鄭州大學(xué)學(xué)報(理學(xué)版). 2020(01)
[4]基于CNN和BiLSTM的短文本相似度計算方法[J]. 郭浩,許偉,盧凱,唐球. 信息技術(shù)與網(wǎng)絡(luò)安全. 2019(06)
[5]文本相似度計算方法研究綜述[J]. 王春柳,楊永輝,鄧霏,賴輝源. 情報科學(xué). 2019(03)
[6]軟件測試自動化方法研究[J]. 彭迪. 電子質(zhì)量. 2018(11)
[7]OSDR:一種開源軟件的缺陷修復(fù)人推薦方法[J]. 張文,李自強,杜宇航,趙博揚. 計算機應(yīng)用與軟件. 2017(08)
[8]面向自然語言處理的深度學(xué)習(xí)研究[J]. 奚雪峰,周國棟. 自動化學(xué)報. 2016(10)
[9]一種新的基于N-gram模型的重復(fù)軟件缺陷報告檢測方法[J]. 李寧,李戰(zhàn)懷,張利軍. 西北工業(yè)大學(xué)學(xué)報. 2010(02)
[10]軟件缺陷數(shù)據(jù)處理研究綜述[J]. 李寧,李戰(zhàn)懷. 計算機科學(xué). 2009(08)
博士論文
[1]眾包測試報告的挖掘與評估[D]. 陳信.大連理工大學(xué) 2018
[2]軟件缺陷報告管理關(guān)鍵技術(shù)研究[D]. 喻維.華南理工大學(xué) 2018
[3]軟件測試及評價的復(fù)用策略研究及其實現(xiàn)[D]. 夏啟明.武漢大學(xué) 2010
碩士論文
[1]基于深度學(xué)習(xí)的短文本相似度分析與實現(xiàn)[D]. 韓建輝.北方工業(yè)大學(xué) 2019
[2]軟件測試信息管理系統(tǒng)的設(shè)計與實現(xiàn)[D]. 胡畔.電子科技大學(xué) 2018
[3]基于Attention Bi-LSTM的文本分類方法研究[D]. 王恰.華南理工大學(xué) 2018
[4]基于LSTM的文本相似度識別方法研究[D]. 楊飛.吉林大學(xué) 2018
[5]軟件缺陷管理系統(tǒng)的設(shè)計與實現(xiàn)[D]. 王漢雄.哈爾濱工業(yè)大學(xué) 2017
[6]基于多平臺應(yīng)用的軟件缺陷管理系統(tǒng)的設(shè)計與實現(xiàn)[D]. 袁林艷.天津大學(xué) 2017
[7]基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D]. 黃積楊.南京大學(xué) 2016
[8]自動重復(fù)缺陷報告檢測方法研究[D]. 王彬.華東師范大學(xué) 2016
[9]基于LDA模型的重復(fù)缺陷報告檢測的研究[D]. 蔣欣志.重慶大學(xué) 2013
本文編號:3141911
【文章來源】:北京林業(yè)大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3.4標(biāo)題長度對實驗結(jié)果的影響??Figure?3.4?Effect?of?title?length?on?experiment?results??
3基于LSTM的重復(fù)缺陷報告檢測??96.00%??94.00%??92.00%??90.00%??H?H?_??80.00%?——_??20?30?40?50??■準(zhǔn)確率■召回率■?FI值??圖3.4標(biāo)題長度對實驗結(jié)果的影響??Figure?3.4?Effect?of?title?length?on?experiment?results??由圖3.4可知,標(biāo)題長度選擇為40時,模型的三種評價指標(biāo)都有所提升,此時??準(zhǔn)確率達(dá)到LSTM模型的最高。??96.00%??94.00%??92.00%??90.00%??88.00%?■?H?_??i?I?I?I?III?III??78.00%?^?^?^?^?,.h_??100?125?135?150??■準(zhǔn)確率■召回率■?FI值??圖3.5描述長度對實驗結(jié)果的影響??Figure?3.5?Describe?the?eflfect?of?length?on?experimental?results??由圖3.5可知,在標(biāo)題長度達(dá)到最優(yōu)之后,對描述長度進(jìn)行對比實驗,當(dāng)描述長??度為125時,該模型的準(zhǔn)確率達(dá)到了最優(yōu),為87.42%。??25??
Dropout?技術(shù)??Dropout技術(shù)的提出,主要為了解決過擬合問題,使模型能夠更好的完成訓(xùn)練。??其在2012年Hinton的論文中首次被提出,它能夠提高神經(jīng)網(wǎng)絡(luò)的性能,它主要是通??過減少特征檢測器的共同作用實現(xiàn)(Hinton?etal,2012)。在每次訓(xùn)練過程中,將部分隱??藏層的節(jié)點設(shè)置成0,忽略部分特征檢測,可以明顯地減少過擬合現(xiàn)象。即在前向傳??播的時候,設(shè)置一定的幾率讓&些神經(jīng)元的激活值停止工作,這樣可以使模型不會太??依賴菜些局部的特征,從而提高泛化能力。??圖3.7神經(jīng)網(wǎng)絡(luò)Dropout示意圖??Figure?3.7?Neural?network?dropout?schematic??27??
【參考文獻(xiàn)】:
期刊論文
[1]雙向循環(huán)神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用[J]. 更藏措毛,黃鶴鳴. 計算機與現(xiàn)代化. 2019(10)
[2]融合文本與分類信息的重復(fù)缺陷報告檢測方法[J]. 范道遠(yuǎn),孫吉紅,王煒,涂吉屏,何欣. 計算機科學(xué). 2019(12)
[3]基于深度學(xué)習(xí)的文本相似度計算[J]. 邵恒,馮興樂,包芬. 鄭州大學(xué)學(xué)報(理學(xué)版). 2020(01)
[4]基于CNN和BiLSTM的短文本相似度計算方法[J]. 郭浩,許偉,盧凱,唐球. 信息技術(shù)與網(wǎng)絡(luò)安全. 2019(06)
[5]文本相似度計算方法研究綜述[J]. 王春柳,楊永輝,鄧霏,賴輝源. 情報科學(xué). 2019(03)
[6]軟件測試自動化方法研究[J]. 彭迪. 電子質(zhì)量. 2018(11)
[7]OSDR:一種開源軟件的缺陷修復(fù)人推薦方法[J]. 張文,李自強,杜宇航,趙博揚. 計算機應(yīng)用與軟件. 2017(08)
[8]面向自然語言處理的深度學(xué)習(xí)研究[J]. 奚雪峰,周國棟. 自動化學(xué)報. 2016(10)
[9]一種新的基于N-gram模型的重復(fù)軟件缺陷報告檢測方法[J]. 李寧,李戰(zhàn)懷,張利軍. 西北工業(yè)大學(xué)學(xué)報. 2010(02)
[10]軟件缺陷數(shù)據(jù)處理研究綜述[J]. 李寧,李戰(zhàn)懷. 計算機科學(xué). 2009(08)
博士論文
[1]眾包測試報告的挖掘與評估[D]. 陳信.大連理工大學(xué) 2018
[2]軟件缺陷報告管理關(guān)鍵技術(shù)研究[D]. 喻維.華南理工大學(xué) 2018
[3]軟件測試及評價的復(fù)用策略研究及其實現(xiàn)[D]. 夏啟明.武漢大學(xué) 2010
碩士論文
[1]基于深度學(xué)習(xí)的短文本相似度分析與實現(xiàn)[D]. 韓建輝.北方工業(yè)大學(xué) 2019
[2]軟件測試信息管理系統(tǒng)的設(shè)計與實現(xiàn)[D]. 胡畔.電子科技大學(xué) 2018
[3]基于Attention Bi-LSTM的文本分類方法研究[D]. 王恰.華南理工大學(xué) 2018
[4]基于LSTM的文本相似度識別方法研究[D]. 楊飛.吉林大學(xué) 2018
[5]軟件缺陷管理系統(tǒng)的設(shè)計與實現(xiàn)[D]. 王漢雄.哈爾濱工業(yè)大學(xué) 2017
[6]基于多平臺應(yīng)用的軟件缺陷管理系統(tǒng)的設(shè)計與實現(xiàn)[D]. 袁林艷.天津大學(xué) 2017
[7]基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D]. 黃積楊.南京大學(xué) 2016
[8]自動重復(fù)缺陷報告檢測方法研究[D]. 王彬.華東師范大學(xué) 2016
[9]基于LDA模型的重復(fù)缺陷報告檢測的研究[D]. 蔣欣志.重慶大學(xué) 2013
本文編號:3141911
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3141911.html
最近更新
教材專著