天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于門控卷積神經(jīng)網(wǎng)絡(luò)的代碼自動摘要算法

發(fā)布時間:2021-09-07 19:02
  隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和開源社區(qū)的興起,開源代碼的數(shù)量急劇增加,從開源社區(qū)中發(fā)掘出有用信息需要耗費(fèi)大量的時間和精力。自動摘要技術(shù)廣泛地應(yīng)用于文本主要內(nèi)容的獲取,但針對代碼的相關(guān)技術(shù)研究較少。本文使用深度學(xué)習(xí)思想解決這一問題,利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)模型提取代碼特征,從而緩解信息爆炸帶給人們的時間精力問題。本文對代碼自動摘要問題進(jìn)行了分析,將問題拆分為代碼特征提取和摘要自動生成兩個子問題,結(jié)合深度學(xué)習(xí)中端到端的模型設(shè)計思想,在設(shè)計模型時綜合考慮這兩個問題,提出了一種基于深度學(xué)習(xí)的代碼自動摘要模型。本文首先對代碼特征提取問題進(jìn)行了研究,本文使用門控卷積神經(jīng)網(wǎng)絡(luò)提取代碼的文本特征,在門控卷積神經(jīng)網(wǎng)絡(luò)中,對輸入元素添加位置信息以獲取序列中詞的位置,引入門控線性單元使模型可以選擇對預(yù)測有益的詞或者特征,利用殘差連接解決梯度彌散問題。本文使用抽象語法樹卷積神經(jīng)網(wǎng)絡(luò)提取代碼的結(jié)構(gòu)特征,在抽象語法樹卷積神經(jīng)網(wǎng)絡(luò)中,使用Tree-Based CNN和Pre-Order CNN相結(jié)合的方式,獲取語法樹中節(jié)點(diǎn)的完整信息。本文其次對摘要自動生成問題進(jìn)... 

【文章來源】:云南大學(xué)云南省 211工程院校

【文章頁數(shù)】:58 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于門控卷積神經(jīng)網(wǎng)絡(luò)的代碼自動摘要算法


圖2-2:門控卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖??資料來源:FAIR:《Language?Modeling?with?Gated?Convolutional?Networks》,2016?年

結(jié)構(gòu)圖,改進(jìn)模型,結(jié)構(gòu)圖,注意力機(jī)制


?(2.2)??其中,P為每個詞對應(yīng)的概率,g為Softmax函數(shù)。??Google團(tuán)隊(duì)[3Q1提出了?Seq2Seq模型的改進(jìn)模型,其模型結(jié)構(gòu)如圖2-4所示。??W?X?Y?Z?<EOS>??;k?h?“?>?^?A???^?^?^??>????????A?“?i?v?“?“?“?i?[??ABC?<EOS>?W?X?Y?Z??圖2_4:?Seq2Seq改進(jìn)模型結(jié)構(gòu)圖??資料來源:Google?Brain:《Sequence?to?Sequence?Learning?with?Neural?Networks》,2014?年。??圖2-4為在時間維度上進(jìn)行展開的模型圖,在未展開的情況下,Encoder端??使用一個神經(jīng)網(wǎng)絡(luò)接收輸入序列“AB?CEOS(EOS=EndofSentence,句末標(biāo)記)”,??在接收過程中,每隔一個時間點(diǎn)接收一個字或者詞,在讀取到EOS時停止輸入,??最后輸出一個向量作為輸入序列的語義表征向量。Decoder端使用第二個神經(jīng)網(wǎng)??絡(luò)接收到Encoder端產(chǎn)生的輸出向量后,再輸出對應(yīng)的語義向量,此時每個時間??點(diǎn)輸出詞的概率都與前一個時間點(diǎn)的輸出相關(guān),最后將輸入序列依次映射為“W??X?Y?Z?EOS”,從而實(shí)現(xiàn)語句的翻譯任務(wù)。??2.2.2?注意力機(jī)制(Attention?Mechanism)??注意力機(jī)制(AttentionMechanism)最早被提出是在視覺圖像領(lǐng)域。之后由??于Google?Brain團(tuán)隊(duì)157]在RNN模型的基礎(chǔ)上引入了注意力機(jī)制來完成圖像分類??任務(wù)

算法,概率分布,概率,組成序列


?0.1??圖2-7:?Beam?Search算法示例圖??以圖2-7為例,K的值為2,?K為集束寬度(Beam?Width)。??首先,在[0.1,0.1,0.3,0.4,0.1]概率分布中挑選出概率最大的兩個數(shù)值:0.3和??0.4,代表的序列分別為Je和moi。??然后,將Je和moi分別作為解碼器端的輸入,獲得兩個概率分布,再從得??到的兩個概率分布中選擇概率和最大的組成序列:0.3+0.8和0.4+0.6,代表的序??列分別為Je?suis和moi?suis。??以此類推,得到最終的兩個序列,分別為Je?suis?dtudiant和moi?suis?dtudiant,??兩者相比,前者的概率和最大,即為最終結(jié)果。??2.2.4?雙語互譯質(zhì)量輔助工具算法(BLEU)??在機(jī)器翻譯領(lǐng)域當(dāng)中,需要一個用來衡量機(jī)器翻譯結(jié)果與人工翻譯結(jié)果匹配??度的指標(biāo)。為了能夠獲取更好的效果

【參考文獻(xiàn)】:
期刊論文
[1]基于結(jié)構(gòu)感知雙編碼器的代碼注釋自動生成[J]. 徐少峰,潘文韜,熊赟,朱揚(yáng)勇.  計算機(jī)工程. 2020(02)
[2]基于改進(jìn)Sequence-to-Sequence模型的文本摘要生成方法[J]. 周健,田萱,崔曉暉.  計算機(jī)工程與應(yīng)用. 2019(01)
[3]一種改進(jìn)的基于抽象語法樹的軟件源代碼比對算法[J]. 劉楠,韓麗芳,夏坤峰,曲通.  信息網(wǎng)絡(luò)安全. 2014(01)
[4]一個重建GCC抽象語法樹的方法[J]. 劉文偉,劉堅.  計算機(jī)工程與應(yīng)用. 2004(18)

碩士論文
[1]基于抽象語法樹的程序代碼抄襲檢測技術(shù)研究[D]. 趙彥博.內(nèi)蒙古師范大學(xué) 2010



本文編號:3390085

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3390085.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9f0c9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com