基于隨機森林與梯度提升決策樹的代碼抄襲檢測模型研究
發(fā)布時間:2022-12-08 00:43
隨著信息技術(shù)的發(fā)展,計算機顯得越來越重要,計算機專業(yè)學(xué)生的編程能力也得到空前重視。為了增強編程訓(xùn)練,在線作業(yè)提交系統(tǒng)OJ系統(tǒng)(Online Judge System)得到廣泛應(yīng)用。學(xué)生可以在OJ上提交作業(yè),系統(tǒng)自動判斷該題是否正確,從而能大大減輕教師工作量。隨著作業(yè)量的增加,學(xué)生抄襲現(xiàn)象越加嚴(yán)重,因此,需要一個機制檢測抄襲并努力杜絕抄襲。抄襲的檢查涉及到多個方面的因素,為了盡可能提高準(zhǔn)確率,本文主要完成了以下工作:(1)代碼相似度的計算基于數(shù)字指紋技術(shù)對學(xué)生新提交的代碼計算相似度。其過程分三個步驟進行處理:數(shù)字化、指紋化、相似度計算。(2)特征提取與計算為了使用機器學(xué)習(xí)判斷抄襲,定義了特征并對特征進行提取。特征包括代碼相似度是否超過閾值、相似度超過或者低于閾值的百分比類別值、題目難度、代碼風(fēng)格相似度、歷史抄題率類別值、相似集中度等。(3)機器學(xué)習(xí)模型及效果分析對OJ系統(tǒng)中現(xiàn)有代碼抄襲檢測方法進行改進,使用融合隨機森林(Random Forest)與梯度提升決策樹(Gradient Boosting Decision Tree)的改進算法,彌補單個算法的不足。并將兩個算法的結(jié)果進行對比,...
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景
1.2 國內(nèi)外現(xiàn)狀
1.3 論文研究內(nèi)容
1.4 論文的組織結(jié)構(gòu)
1.5 本章小結(jié)
第2章 相關(guān)技術(shù)概述
2.1 數(shù)字指紋技術(shù)
2.2 決策樹
2.3 熵
2.4 隨機森林
2.5 梯度提升決策樹
2.6 本章小結(jié)
第3章 機器學(xué)習(xí)特征提取與計算
3.1 數(shù)字指紋計算代碼相似度
3.2 特征定義
3.3 特征計算
3.4 結(jié)合RF與 GBDT的學(xué)習(xí)模型
3.5 本章小結(jié)
第4章 機器學(xué)習(xí)算法設(shè)計與測試
4.1 OJ系統(tǒng)抄襲檢測流程設(shè)計
4.2 嫌疑區(qū)間上限及下限(閾值SRT)的動態(tài)調(diào)整
4.3 機器學(xué)習(xí)算法測試
4.4 本章小結(jié)
第5章 在線代碼提交與抄襲檢查系統(tǒng)設(shè)計與實現(xiàn)
5.1 教師需求分析
5.2 學(xué)生需求分析
5.3 系統(tǒng)功能模塊設(shè)計
5.4 數(shù)據(jù)庫設(shè)計
5.5 特征處理模塊實現(xiàn)
5.6 特征計算模塊實現(xiàn)
5.7 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻
攻讀學(xué)位期間的研究成果目錄
致謝
【參考文獻】:
期刊論文
[1]基于隨機森林算法的糧堆機械通風(fēng)溫度預(yù)測及控制研究[J]. 韓建軍,南少偉,李建平,郭呈周. 河南工業(yè)大學(xué)學(xué)報(自然科學(xué)版). 2019(05)
[2]多元線性回歸方法對北京地區(qū)PM2.5預(yù)報的改進應(yīng)用[J]. 潘錦秀,晏平仲,孫峰,李云婷,劉保獻,王占山,董瑞. 中國環(huán)境監(jiān)測. 2019(02)
[3]采用梯度提升決策樹的車輛換道融合決策模型[J]. 徐兵,劉瀟,汪子揚,劉飛虎,梁軍. 浙江大學(xué)學(xué)報(工學(xué)版). 2019(06)
[4]機器學(xué)習(xí)分類問題及算法研究綜述[J]. 楊劍鋒,喬佩蕊,李永梅,王寧. 統(tǒng)計與決策. 2019(06)
[5]基于決策樹特征提取的支持向量機在巖性分類中的應(yīng)用[J]. 韓啟迪,張小桐,申維. 吉林大學(xué)學(xué)報(地球科學(xué)版). 2019(02)
[6]基于ROC曲線和駕駛行為特征的駕駛憤怒強度判別閾值[J]. 萬平,吳超仲,馬曉鳳. 吉林大學(xué)學(xué)報(工學(xué)版). 2020(01)
[7]一種基于信息熵的關(guān)鍵詞提取算法[J]. 吳華,羅順,孫偉晉. 計算機與數(shù)字工程. 2019(03)
[8]面向差分隱私保護的隨機森林算法[J]. 李遠(yuǎn)航,陳先來,劉莉,安瑩,李忠民. 計算機工程. 2020(01)
[9]基于多元協(xié)變量和隨機森林算法的寧夏用電量預(yù)測[J]. 寧永龍,鄒蒙. 機電信息. 2019(06)
[10]基于貝葉斯模型組合的隨機森林預(yù)測方法[J]. 董娜,常建芳,吳愛國. 湖南大學(xué)學(xué)報(自然科學(xué)版). 2019(02)
碩士論文
[1]基于分詞頻的特征選擇算法在文本分類中的研究[D]. 劉藝彬.西安理工大學(xué) 2018
[2]基于python的Web數(shù)據(jù)挖掘技術(shù)研究與實現(xiàn)[D]. 劉熠.長江大學(xué) 2018
[3]基于子樹追蹤的代碼抄襲檢測研究與實現(xiàn)[D]. 張振祥.江蘇大學(xué) 2018
[4]基于CNN的代碼相似度檢測研究與代碼查重系統(tǒng)[D]. 殷丹平.北京郵電大學(xué) 2018
[5]C語言查重與自動評分算法研究[D]. 朱林琴.湘潭大學(xué) 2017
[6]基于編輯距離的C代碼相似度度量算法研究[D]. 張建雄.華中科技大學(xué) 2017
[7]基于源碼結(jié)構(gòu)相似度檢測系統(tǒng)的設(shè)計與實現(xiàn)[D]. 孫芬芬.內(nèi)蒙古大學(xué) 2017
[8]基于代碼復(fù)雜度的軟件演化評估與分析[D]. 何磊.東南大學(xué) 2016
[9]基于SVM的抄襲檢測研究[D]. 王素紅.哈爾濱工程大學(xué) 2015
[10]基于數(shù)字指紋的C程序克隆檢測技術(shù)的研究[D]. 黃柳柳.南京理工大學(xué) 2011
本文編號:3713192
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景
1.2 國內(nèi)外現(xiàn)狀
1.3 論文研究內(nèi)容
1.4 論文的組織結(jié)構(gòu)
1.5 本章小結(jié)
第2章 相關(guān)技術(shù)概述
2.1 數(shù)字指紋技術(shù)
2.2 決策樹
2.3 熵
2.4 隨機森林
2.5 梯度提升決策樹
2.6 本章小結(jié)
第3章 機器學(xué)習(xí)特征提取與計算
3.1 數(shù)字指紋計算代碼相似度
3.2 特征定義
3.3 特征計算
3.4 結(jié)合RF與 GBDT的學(xué)習(xí)模型
3.5 本章小結(jié)
第4章 機器學(xué)習(xí)算法設(shè)計與測試
4.1 OJ系統(tǒng)抄襲檢測流程設(shè)計
4.2 嫌疑區(qū)間上限及下限(閾值SRT)的動態(tài)調(diào)整
4.3 機器學(xué)習(xí)算法測試
4.4 本章小結(jié)
第5章 在線代碼提交與抄襲檢查系統(tǒng)設(shè)計與實現(xiàn)
5.1 教師需求分析
5.2 學(xué)生需求分析
5.3 系統(tǒng)功能模塊設(shè)計
5.4 數(shù)據(jù)庫設(shè)計
5.5 特征處理模塊實現(xiàn)
5.6 特征計算模塊實現(xiàn)
5.7 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻
攻讀學(xué)位期間的研究成果目錄
致謝
【參考文獻】:
期刊論文
[1]基于隨機森林算法的糧堆機械通風(fēng)溫度預(yù)測及控制研究[J]. 韓建軍,南少偉,李建平,郭呈周. 河南工業(yè)大學(xué)學(xué)報(自然科學(xué)版). 2019(05)
[2]多元線性回歸方法對北京地區(qū)PM2.5預(yù)報的改進應(yīng)用[J]. 潘錦秀,晏平仲,孫峰,李云婷,劉保獻,王占山,董瑞. 中國環(huán)境監(jiān)測. 2019(02)
[3]采用梯度提升決策樹的車輛換道融合決策模型[J]. 徐兵,劉瀟,汪子揚,劉飛虎,梁軍. 浙江大學(xué)學(xué)報(工學(xué)版). 2019(06)
[4]機器學(xué)習(xí)分類問題及算法研究綜述[J]. 楊劍鋒,喬佩蕊,李永梅,王寧. 統(tǒng)計與決策. 2019(06)
[5]基于決策樹特征提取的支持向量機在巖性分類中的應(yīng)用[J]. 韓啟迪,張小桐,申維. 吉林大學(xué)學(xué)報(地球科學(xué)版). 2019(02)
[6]基于ROC曲線和駕駛行為特征的駕駛憤怒強度判別閾值[J]. 萬平,吳超仲,馬曉鳳. 吉林大學(xué)學(xué)報(工學(xué)版). 2020(01)
[7]一種基于信息熵的關(guān)鍵詞提取算法[J]. 吳華,羅順,孫偉晉. 計算機與數(shù)字工程. 2019(03)
[8]面向差分隱私保護的隨機森林算法[J]. 李遠(yuǎn)航,陳先來,劉莉,安瑩,李忠民. 計算機工程. 2020(01)
[9]基于多元協(xié)變量和隨機森林算法的寧夏用電量預(yù)測[J]. 寧永龍,鄒蒙. 機電信息. 2019(06)
[10]基于貝葉斯模型組合的隨機森林預(yù)測方法[J]. 董娜,常建芳,吳愛國. 湖南大學(xué)學(xué)報(自然科學(xué)版). 2019(02)
碩士論文
[1]基于分詞頻的特征選擇算法在文本分類中的研究[D]. 劉藝彬.西安理工大學(xué) 2018
[2]基于python的Web數(shù)據(jù)挖掘技術(shù)研究與實現(xiàn)[D]. 劉熠.長江大學(xué) 2018
[3]基于子樹追蹤的代碼抄襲檢測研究與實現(xiàn)[D]. 張振祥.江蘇大學(xué) 2018
[4]基于CNN的代碼相似度檢測研究與代碼查重系統(tǒng)[D]. 殷丹平.北京郵電大學(xué) 2018
[5]C語言查重與自動評分算法研究[D]. 朱林琴.湘潭大學(xué) 2017
[6]基于編輯距離的C代碼相似度度量算法研究[D]. 張建雄.華中科技大學(xué) 2017
[7]基于源碼結(jié)構(gòu)相似度檢測系統(tǒng)的設(shè)計與實現(xiàn)[D]. 孫芬芬.內(nèi)蒙古大學(xué) 2017
[8]基于代碼復(fù)雜度的軟件演化評估與分析[D]. 何磊.東南大學(xué) 2016
[9]基于SVM的抄襲檢測研究[D]. 王素紅.哈爾濱工程大學(xué) 2015
[10]基于數(shù)字指紋的C程序克隆檢測技術(shù)的研究[D]. 黃柳柳.南京理工大學(xué) 2011
本文編號:3713192
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3713192.html
最近更新
教材專著