基于Logistic Regression的數(shù)學(xué)成績(jī)預(yù)測(cè)系統(tǒng)的應(yīng)用研究
發(fā)布時(shí)間:2021-12-17 13:19
近幾年,隨著我國(guó)綜合國(guó)力不斷增強(qiáng),我國(guó)的教育也得到長(zhǎng)足的發(fā)展。數(shù)學(xué)教育仍然是我國(guó)教育體系中非常重要的組成部分,是我國(guó)基礎(chǔ)教育的主體,更是我國(guó)基本教育與多元化教育發(fā)展中不可缺少的一部分。本文針對(duì)教育領(lǐng)域,進(jìn)行如下幾個(gè)方面的探究:分析并研究教育數(shù)據(jù)挖掘(Educational Data mining,EDM),將學(xué)生數(shù)學(xué)成績(jī)預(yù)測(cè)作為教育數(shù)據(jù)挖掘的子模塊進(jìn)行設(shè)計(jì)并實(shí)現(xiàn)。在研究之前,首先對(duì)模型和系統(tǒng)中用到的基礎(chǔ)技術(shù)知識(shí)進(jìn)行講解,如數(shù)據(jù)挖掘的定義與理論知識(shí)、EDM研究特點(diǎn)與EDM國(guó)內(nèi)外研究現(xiàn)狀、機(jī)器學(xué)習(xí)定義、Logistic Regression、Xgboost算法、Random Forest算法、Rasch Model算法。本文將對(duì)數(shù)據(jù)預(yù)處理的過(guò)程進(jìn)行較為詳盡的敘述。在得到優(yōu)質(zhì)的數(shù)據(jù)后,對(duì)數(shù)據(jù)原屬性進(jìn)行分析,并結(jié)合專業(yè)領(lǐng)域的相關(guān)知識(shí),設(shè)計(jì)生成高品質(zhì)的特征,這些特征將對(duì)模型預(yù)測(cè)效果產(chǎn)生直接的影響。因此,數(shù)據(jù)預(yù)處理及特征構(gòu)造的工作將占據(jù)本系統(tǒng)所有時(shí)間的90%。接下來(lái)分別使用Logistic Regression,Xgboost,Random Forest算法進(jìn)行數(shù)據(jù)建模,并對(duì)其調(diào)參,然后把以上三個(gè)...
【文章來(lái)源】:南昌大學(xué)江西省 211工程院校
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
論文任務(wù)描述圖
圖 2.1 Sigmoid 函數(shù)用 Logistic Regression 模型時(shí),發(fā)生比作為判斷一件用。發(fā)生比就是當(dāng)事件發(fā)生時(shí) y 取值為 1,事件未事情發(fā)生的概率為 p,那么 1-p 為事件不發(fā)生的概數(shù)。在回歸算法中最常用的估計(jì)方法很多,但最小技術(shù)被業(yè)界認(rèn)可。因?yàn)槲覀兊哪繕?biāo) p 是在[0,1]之二乘估計(jì)并不適合我們解決我們的問(wèn)題,但是我們?cè)谮吔?0和 1的時(shí)候變換變得更加緩和一些,于是目標(biāo),它對(duì)事件發(fā)生與不發(fā)生的比值進(jìn)行取對(duì)數(shù)的操作,這也叫做對(duì)數(shù)差異比。發(fā)生這樣的情況后,性關(guān)系了。歸的公式為:
圖 2.2 隨機(jī)森林分類例子隨機(jī)森林的重采樣技術(shù)采取的是一種有放回的采樣方法,它的名字叫自助法(Boot Strap)。它采樣的來(lái)源是訓(xùn)練集,并且采集樣本數(shù)目是固定的,并在采集完畢后將樣本放回原集合[22]。如圖 2.3 所示。圖 2.3 自助法重采樣這代表這之前采集的樣本在別的采集子集中也會(huì)存在。在 Bagging 算法經(jīng)過(guò)幾回合的隨機(jī)采樣之后,所有子集的全集中仍然會(huì)有 36.8%的數(shù)據(jù)并沒(méi)有存在,即不在訓(xùn)練集中。我們稱這部分?jǐn)?shù)據(jù)為袋外數(shù)據(jù)(Out Of Bag,簡(jiǎn)稱
【參考文獻(xiàn)】:
期刊論文
[1]高效率數(shù)學(xué)學(xué)習(xí)高中生數(shù)學(xué)成績(jī)的影響路徑[J]. 康玥媛,張楠,王光明,佘文娟,劉艷云. 心理與行為研究. 2016(03)
[2]數(shù)據(jù)挖掘在學(xué)生專業(yè)成績(jī)預(yù)測(cè)上的應(yīng)用[J]. 崔仁桀. 軟件. 2016(01)
[3]學(xué)習(xí)參與度對(duì)初中生數(shù)學(xué)成績(jī)影響研究[J]. 馬蕾迪,范蔚,孫亞玲. 中國(guó)教育學(xué)刊. 2015(02)
[4]基于大數(shù)據(jù)的個(gè)性化自適應(yīng)在線學(xué)習(xí)分析模型及實(shí)現(xiàn)[J]. 姜強(qiáng),趙蔚,王朋嬌,王麗萍. 中國(guó)電化教育. 2015(01)
[5]K-Means算法在計(jì)算機(jī)等級(jí)考試成績(jī)分析中的應(yīng)用[J]. 曾旭,司馬宇. 軟件導(dǎo)刊. 2012(11)
[6]一種解決協(xié)同過(guò)濾數(shù)據(jù)稀疏性問(wèn)題的方法[J]. 王洋,駱力明. 首都師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2012(04)
[7]數(shù)感、數(shù)學(xué)效能感與數(shù)學(xué)成績(jī)的關(guān)系研究[J]. 王本法,喬福強(qiáng). 中國(guó)特殊教育. 2012(06)
[8]一種基于Bagging算法的高斯過(guò)程集成建模方法[J]. 李雅芹,楊慧中. 東南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(S1)
[9]淺析數(shù)據(jù)挖掘概念與技術(shù)[J]. 穆瑞輝,付歡. 新鄉(xiāng)教育學(xué)院學(xué)報(bào). 2008(03)
[10]基于決策樹(shù)的英語(yǔ)四級(jí)成績(jī)分析[J]. 曹丹陽(yáng),李晉宏,魏金強(qiáng),張艷芳. 北方工業(yè)大學(xué)學(xué)報(bào). 2007(01)
博士論文
[1]高維數(shù)據(jù)的特征選擇及基于特征選擇的集成學(xué)習(xí)研究[D]. 張麗新.清華大學(xué) 2004
碩士論文
[1]基于數(shù)據(jù)挖掘技術(shù)的學(xué)生成績(jī)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 馬丹.吉林大學(xué) 2015
[2]數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的方法研究[D]. 方洪鷹.西南大學(xué) 2009
[3]探索性數(shù)據(jù)分析方法及應(yīng)用[D]. 孫麗君.東北財(cái)經(jīng)大學(xué) 2005
本文編號(hào):3540204
【文章來(lái)源】:南昌大學(xué)江西省 211工程院校
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
論文任務(wù)描述圖
圖 2.1 Sigmoid 函數(shù)用 Logistic Regression 模型時(shí),發(fā)生比作為判斷一件用。發(fā)生比就是當(dāng)事件發(fā)生時(shí) y 取值為 1,事件未事情發(fā)生的概率為 p,那么 1-p 為事件不發(fā)生的概數(shù)。在回歸算法中最常用的估計(jì)方法很多,但最小技術(shù)被業(yè)界認(rèn)可。因?yàn)槲覀兊哪繕?biāo) p 是在[0,1]之二乘估計(jì)并不適合我們解決我們的問(wèn)題,但是我們?cè)谮吔?0和 1的時(shí)候變換變得更加緩和一些,于是目標(biāo),它對(duì)事件發(fā)生與不發(fā)生的比值進(jìn)行取對(duì)數(shù)的操作,這也叫做對(duì)數(shù)差異比。發(fā)生這樣的情況后,性關(guān)系了。歸的公式為:
圖 2.2 隨機(jī)森林分類例子隨機(jī)森林的重采樣技術(shù)采取的是一種有放回的采樣方法,它的名字叫自助法(Boot Strap)。它采樣的來(lái)源是訓(xùn)練集,并且采集樣本數(shù)目是固定的,并在采集完畢后將樣本放回原集合[22]。如圖 2.3 所示。圖 2.3 自助法重采樣這代表這之前采集的樣本在別的采集子集中也會(huì)存在。在 Bagging 算法經(jīng)過(guò)幾回合的隨機(jī)采樣之后,所有子集的全集中仍然會(huì)有 36.8%的數(shù)據(jù)并沒(méi)有存在,即不在訓(xùn)練集中。我們稱這部分?jǐn)?shù)據(jù)為袋外數(shù)據(jù)(Out Of Bag,簡(jiǎn)稱
【參考文獻(xiàn)】:
期刊論文
[1]高效率數(shù)學(xué)學(xué)習(xí)高中生數(shù)學(xué)成績(jī)的影響路徑[J]. 康玥媛,張楠,王光明,佘文娟,劉艷云. 心理與行為研究. 2016(03)
[2]數(shù)據(jù)挖掘在學(xué)生專業(yè)成績(jī)預(yù)測(cè)上的應(yīng)用[J]. 崔仁桀. 軟件. 2016(01)
[3]學(xué)習(xí)參與度對(duì)初中生數(shù)學(xué)成績(jī)影響研究[J]. 馬蕾迪,范蔚,孫亞玲. 中國(guó)教育學(xué)刊. 2015(02)
[4]基于大數(shù)據(jù)的個(gè)性化自適應(yīng)在線學(xué)習(xí)分析模型及實(shí)現(xiàn)[J]. 姜強(qiáng),趙蔚,王朋嬌,王麗萍. 中國(guó)電化教育. 2015(01)
[5]K-Means算法在計(jì)算機(jī)等級(jí)考試成績(jī)分析中的應(yīng)用[J]. 曾旭,司馬宇. 軟件導(dǎo)刊. 2012(11)
[6]一種解決協(xié)同過(guò)濾數(shù)據(jù)稀疏性問(wèn)題的方法[J]. 王洋,駱力明. 首都師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2012(04)
[7]數(shù)感、數(shù)學(xué)效能感與數(shù)學(xué)成績(jī)的關(guān)系研究[J]. 王本法,喬福強(qiáng). 中國(guó)特殊教育. 2012(06)
[8]一種基于Bagging算法的高斯過(guò)程集成建模方法[J]. 李雅芹,楊慧中. 東南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(S1)
[9]淺析數(shù)據(jù)挖掘概念與技術(shù)[J]. 穆瑞輝,付歡. 新鄉(xiāng)教育學(xué)院學(xué)報(bào). 2008(03)
[10]基于決策樹(shù)的英語(yǔ)四級(jí)成績(jī)分析[J]. 曹丹陽(yáng),李晉宏,魏金強(qiáng),張艷芳. 北方工業(yè)大學(xué)學(xué)報(bào). 2007(01)
博士論文
[1]高維數(shù)據(jù)的特征選擇及基于特征選擇的集成學(xué)習(xí)研究[D]. 張麗新.清華大學(xué) 2004
碩士論文
[1]基于數(shù)據(jù)挖掘技術(shù)的學(xué)生成績(jī)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 馬丹.吉林大學(xué) 2015
[2]數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的方法研究[D]. 方洪鷹.西南大學(xué) 2009
[3]探索性數(shù)據(jù)分析方法及應(yīng)用[D]. 孫麗君.東北財(cái)經(jīng)大學(xué) 2005
本文編號(hào):3540204
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3540204.html
最近更新
教材專著