基于隨機(jī)森林與梯度提升決策樹的代碼抄襲檢測(cè)模型研究
發(fā)布時(shí)間:2022-12-08 00:43
隨著信息技術(shù)的發(fā)展,計(jì)算機(jī)顯得越來越重要,計(jì)算機(jī)專業(yè)學(xué)生的編程能力也得到空前重視。為了增強(qiáng)編程訓(xùn)練,在線作業(yè)提交系統(tǒng)OJ系統(tǒng)(Online Judge System)得到廣泛應(yīng)用。學(xué)生可以在OJ上提交作業(yè),系統(tǒng)自動(dòng)判斷該題是否正確,從而能大大減輕教師工作量。隨著作業(yè)量的增加,學(xué)生抄襲現(xiàn)象越加嚴(yán)重,因此,需要一個(gè)機(jī)制檢測(cè)抄襲并努力杜絕抄襲。抄襲的檢查涉及到多個(gè)方面的因素,為了盡可能提高準(zhǔn)確率,本文主要完成了以下工作:(1)代碼相似度的計(jì)算基于數(shù)字指紋技術(shù)對(duì)學(xué)生新提交的代碼計(jì)算相似度。其過程分三個(gè)步驟進(jìn)行處理:數(shù)字化、指紋化、相似度計(jì)算。(2)特征提取與計(jì)算為了使用機(jī)器學(xué)習(xí)判斷抄襲,定義了特征并對(duì)特征進(jìn)行提取。特征包括代碼相似度是否超過閾值、相似度超過或者低于閾值的百分比類別值、題目難度、代碼風(fēng)格相似度、歷史抄題率類別值、相似集中度等。(3)機(jī)器學(xué)習(xí)模型及效果分析對(duì)OJ系統(tǒng)中現(xiàn)有代碼抄襲檢測(cè)方法進(jìn)行改進(jìn),使用融合隨機(jī)森林(Random Forest)與梯度提升決策樹(Gradient Boosting Decision Tree)的改進(jìn)算法,彌補(bǔ)單個(gè)算法的不足。并將兩個(gè)算法的結(jié)果進(jìn)行對(duì)比,...
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景
1.2 國(guó)內(nèi)外現(xiàn)狀
1.3 論文研究?jī)?nèi)容
1.4 論文的組織結(jié)構(gòu)
1.5 本章小結(jié)
第2章 相關(guān)技術(shù)概述
2.1 數(shù)字指紋技術(shù)
2.2 決策樹
2.3 熵
2.4 隨機(jī)森林
2.5 梯度提升決策樹
2.6 本章小結(jié)
第3章 機(jī)器學(xué)習(xí)特征提取與計(jì)算
3.1 數(shù)字指紋計(jì)算代碼相似度
3.2 特征定義
3.3 特征計(jì)算
3.4 結(jié)合RF與 GBDT的學(xué)習(xí)模型
3.5 本章小結(jié)
第4章 機(jī)器學(xué)習(xí)算法設(shè)計(jì)與測(cè)試
4.1 OJ系統(tǒng)抄襲檢測(cè)流程設(shè)計(jì)
4.2 嫌疑區(qū)間上限及下限(閾值SRT)的動(dòng)態(tài)調(diào)整
4.3 機(jī)器學(xué)習(xí)算法測(cè)試
4.4 本章小結(jié)
第5章 在線代碼提交與抄襲檢查系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
5.1 教師需求分析
5.2 學(xué)生需求分析
5.3 系統(tǒng)功能模塊設(shè)計(jì)
5.4 數(shù)據(jù)庫(kù)設(shè)計(jì)
5.5 特征處理模塊實(shí)現(xiàn)
5.6 特征計(jì)算模塊實(shí)現(xiàn)
5.7 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
攻讀學(xué)位期間的研究成果目錄
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于隨機(jī)森林算法的糧堆機(jī)械通風(fēng)溫度預(yù)測(cè)及控制研究[J]. 韓建軍,南少偉,李建平,郭呈周. 河南工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(05)
[2]多元線性回歸方法對(duì)北京地區(qū)PM2.5預(yù)報(bào)的改進(jìn)應(yīng)用[J]. 潘錦秀,晏平仲,孫峰,李云婷,劉保獻(xiàn),王占山,董瑞. 中國(guó)環(huán)境監(jiān)測(cè). 2019(02)
[3]采用梯度提升決策樹的車輛換道融合決策模型[J]. 徐兵,劉瀟,汪子揚(yáng),劉飛虎,梁軍. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2019(06)
[4]機(jī)器學(xué)習(xí)分類問題及算法研究綜述[J]. 楊劍鋒,喬佩蕊,李永梅,王寧. 統(tǒng)計(jì)與決策. 2019(06)
[5]基于決策樹特征提取的支持向量機(jī)在巖性分類中的應(yīng)用[J]. 韓啟迪,張小桐,申維. 吉林大學(xué)學(xué)報(bào)(地球科學(xué)版). 2019(02)
[6]基于ROC曲線和駕駛行為特征的駕駛憤怒強(qiáng)度判別閾值[J]. 萬(wàn)平,吳超仲,馬曉鳳. 吉林大學(xué)學(xué)報(bào)(工學(xué)版). 2020(01)
[7]一種基于信息熵的關(guān)鍵詞提取算法[J]. 吳華,羅順,孫偉晉. 計(jì)算機(jī)與數(shù)字工程. 2019(03)
[8]面向差分隱私保護(hù)的隨機(jī)森林算法[J]. 李遠(yuǎn)航,陳先來,劉莉,安瑩,李忠民. 計(jì)算機(jī)工程. 2020(01)
[9]基于多元協(xié)變量和隨機(jī)森林算法的寧夏用電量預(yù)測(cè)[J]. 寧永龍,鄒蒙. 機(jī)電信息. 2019(06)
[10]基于貝葉斯模型組合的隨機(jī)森林預(yù)測(cè)方法[J]. 董娜,常建芳,吳愛國(guó). 湖南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(02)
碩士論文
[1]基于分詞頻的特征選擇算法在文本分類中的研究[D]. 劉藝彬.西安理工大學(xué) 2018
[2]基于python的Web數(shù)據(jù)挖掘技術(shù)研究與實(shí)現(xiàn)[D]. 劉熠.長(zhǎng)江大學(xué) 2018
[3]基于子樹追蹤的代碼抄襲檢測(cè)研究與實(shí)現(xiàn)[D]. 張振祥.江蘇大學(xué) 2018
[4]基于CNN的代碼相似度檢測(cè)研究與代碼查重系統(tǒng)[D]. 殷丹平.北京郵電大學(xué) 2018
[5]C語(yǔ)言查重與自動(dòng)評(píng)分算法研究[D]. 朱林琴.湘潭大學(xué) 2017
[6]基于編輯距離的C代碼相似度度量算法研究[D]. 張建雄.華中科技大學(xué) 2017
[7]基于源碼結(jié)構(gòu)相似度檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 孫芬芬.內(nèi)蒙古大學(xué) 2017
[8]基于代碼復(fù)雜度的軟件演化評(píng)估與分析[D]. 何磊.東南大學(xué) 2016
[9]基于SVM的抄襲檢測(cè)研究[D]. 王素紅.哈爾濱工程大學(xué) 2015
[10]基于數(shù)字指紋的C程序克隆檢測(cè)技術(shù)的研究[D]. 黃柳柳.南京理工大學(xué) 2011
本文編號(hào):3713192
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景
1.2 國(guó)內(nèi)外現(xiàn)狀
1.3 論文研究?jī)?nèi)容
1.4 論文的組織結(jié)構(gòu)
1.5 本章小結(jié)
第2章 相關(guān)技術(shù)概述
2.1 數(shù)字指紋技術(shù)
2.2 決策樹
2.3 熵
2.4 隨機(jī)森林
2.5 梯度提升決策樹
2.6 本章小結(jié)
第3章 機(jī)器學(xué)習(xí)特征提取與計(jì)算
3.1 數(shù)字指紋計(jì)算代碼相似度
3.2 特征定義
3.3 特征計(jì)算
3.4 結(jié)合RF與 GBDT的學(xué)習(xí)模型
3.5 本章小結(jié)
第4章 機(jī)器學(xué)習(xí)算法設(shè)計(jì)與測(cè)試
4.1 OJ系統(tǒng)抄襲檢測(cè)流程設(shè)計(jì)
4.2 嫌疑區(qū)間上限及下限(閾值SRT)的動(dòng)態(tài)調(diào)整
4.3 機(jī)器學(xué)習(xí)算法測(cè)試
4.4 本章小結(jié)
第5章 在線代碼提交與抄襲檢查系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
5.1 教師需求分析
5.2 學(xué)生需求分析
5.3 系統(tǒng)功能模塊設(shè)計(jì)
5.4 數(shù)據(jù)庫(kù)設(shè)計(jì)
5.5 特征處理模塊實(shí)現(xiàn)
5.6 特征計(jì)算模塊實(shí)現(xiàn)
5.7 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
攻讀學(xué)位期間的研究成果目錄
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于隨機(jī)森林算法的糧堆機(jī)械通風(fēng)溫度預(yù)測(cè)及控制研究[J]. 韓建軍,南少偉,李建平,郭呈周. 河南工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(05)
[2]多元線性回歸方法對(duì)北京地區(qū)PM2.5預(yù)報(bào)的改進(jìn)應(yīng)用[J]. 潘錦秀,晏平仲,孫峰,李云婷,劉保獻(xiàn),王占山,董瑞. 中國(guó)環(huán)境監(jiān)測(cè). 2019(02)
[3]采用梯度提升決策樹的車輛換道融合決策模型[J]. 徐兵,劉瀟,汪子揚(yáng),劉飛虎,梁軍. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2019(06)
[4]機(jī)器學(xué)習(xí)分類問題及算法研究綜述[J]. 楊劍鋒,喬佩蕊,李永梅,王寧. 統(tǒng)計(jì)與決策. 2019(06)
[5]基于決策樹特征提取的支持向量機(jī)在巖性分類中的應(yīng)用[J]. 韓啟迪,張小桐,申維. 吉林大學(xué)學(xué)報(bào)(地球科學(xué)版). 2019(02)
[6]基于ROC曲線和駕駛行為特征的駕駛憤怒強(qiáng)度判別閾值[J]. 萬(wàn)平,吳超仲,馬曉鳳. 吉林大學(xué)學(xué)報(bào)(工學(xué)版). 2020(01)
[7]一種基于信息熵的關(guān)鍵詞提取算法[J]. 吳華,羅順,孫偉晉. 計(jì)算機(jī)與數(shù)字工程. 2019(03)
[8]面向差分隱私保護(hù)的隨機(jī)森林算法[J]. 李遠(yuǎn)航,陳先來,劉莉,安瑩,李忠民. 計(jì)算機(jī)工程. 2020(01)
[9]基于多元協(xié)變量和隨機(jī)森林算法的寧夏用電量預(yù)測(cè)[J]. 寧永龍,鄒蒙. 機(jī)電信息. 2019(06)
[10]基于貝葉斯模型組合的隨機(jī)森林預(yù)測(cè)方法[J]. 董娜,常建芳,吳愛國(guó). 湖南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(02)
碩士論文
[1]基于分詞頻的特征選擇算法在文本分類中的研究[D]. 劉藝彬.西安理工大學(xué) 2018
[2]基于python的Web數(shù)據(jù)挖掘技術(shù)研究與實(shí)現(xiàn)[D]. 劉熠.長(zhǎng)江大學(xué) 2018
[3]基于子樹追蹤的代碼抄襲檢測(cè)研究與實(shí)現(xiàn)[D]. 張振祥.江蘇大學(xué) 2018
[4]基于CNN的代碼相似度檢測(cè)研究與代碼查重系統(tǒng)[D]. 殷丹平.北京郵電大學(xué) 2018
[5]C語(yǔ)言查重與自動(dòng)評(píng)分算法研究[D]. 朱林琴.湘潭大學(xué) 2017
[6]基于編輯距離的C代碼相似度度量算法研究[D]. 張建雄.華中科技大學(xué) 2017
[7]基于源碼結(jié)構(gòu)相似度檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 孫芬芬.內(nèi)蒙古大學(xué) 2017
[8]基于代碼復(fù)雜度的軟件演化評(píng)估與分析[D]. 何磊.東南大學(xué) 2016
[9]基于SVM的抄襲檢測(cè)研究[D]. 王素紅.哈爾濱工程大學(xué) 2015
[10]基于數(shù)字指紋的C程序克隆檢測(cè)技術(shù)的研究[D]. 黃柳柳.南京理工大學(xué) 2011
本文編號(hào):3713192
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3713192.html
最近更新
教材專著