天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 教育論文 > 遠程教育論文 >

基于XGBoost特征選擇的幕課翹課指數(shù)建立及應(yīng)用

發(fā)布時間:2021-04-17 06:15
  翹課行為反應(yīng)了幕課的質(zhì)量問題,也是在線教育的核心問題之一。該文通過對真實的在線教育數(shù)據(jù)進行分析,結(jié)合在線教育領(lǐng)域的先驗知識,針對數(shù)據(jù)中的豐富海量的特征問題,提出了基于XGBoost特征重要度計算和分類的翹課特征選擇方法,并建立了在線教育的翹課指數(shù)(DOI)。基于學堂在線數(shù)據(jù)集提取的海量特征的實證分析表明,基于XGBoost的特征選擇方法比其他經(jīng)典特征選擇方法具有更好的效果。在數(shù)據(jù)集的不同時間點上使用翹課指數(shù)模型作翹課預測,驗證了翹課指數(shù)的有效性。 

【文章來源】:電子科技大學學報. 2018,47(06)北大核心EICSCD

【文章頁數(shù)】:6 頁

【部分圖文】:

基于XGBoost特征選擇的幕課翹課指數(shù)建立及應(yīng)用


不同F(xiàn)I方法配合不同分類器的性能比較0.740.72050100150200250300350特征數(shù)量c.SVM分類

最優(yōu)子集,特征數(shù),重要度


第6期宋國琴,等:基于XGBoost特征選擇的幕課翹課指數(shù)建立及應(yīng)用925分類值(AUC)0.900.890.880.870.8650100150200250300(135,0.8994)特征數(shù)量圖4基于XGBoost特征重要度的最優(yōu)子集表2最優(yōu)特征子集內(nèi)容特征數(shù)量用戶在注冊課程中的學習54最后一天行為用戶在整個網(wǎng)站的行為4035統(tǒng)計信息4課程注冊信息1時間信息1表3最優(yōu)特征子集表現(xiàn)特征集數(shù)量提取時間/min分類值所有特征1339400.8998最優(yōu)子集135150.8994其中,重要度最高的特征包含最后一天訪問其他課程對象的用時,最后一天關(guān)閉網(wǎng)頁的用時等是非常有指示意義的特征。從表2中可以推斷出,某用戶翹一門課時,在其他同期課程也可能翹課;同時,用戶在課程操作、網(wǎng)站操作上會有不同表現(xiàn),而且愈臨近翹課越明顯。重點關(guān)注以上方向的趨勢,可在很大程度上主導對翹課的預測。如表3所示,最優(yōu)特征子集只有135個特征,數(shù)量不到原來的1/10,而KDDCup2015前10名隊伍的特征數(shù)量大多在1000以上[5]。因為特征子集數(shù)量小,也縮短了特征提取的時間,而分類性能卻下降極少。4DOI指數(shù)的建立及應(yīng)用在最優(yōu)特征子集上使用XGBoost算法構(gòu)造決策森林,森林中各棵樹的預測值加性求和,再將結(jié)果進行邏輯回歸,得到DOI指數(shù)的值。1()11Kkikikfxyfe==∈∑+F(17)式中,F(xiàn)為所有樹的函數(shù)空間;kf為單棵樹,其中包含了特征到分值的映射。取0.5為DOI指標的基準線,大于0.5表示翹課概率增加,小于0.5表示翹課概率減少。DOI值在0~1范圍內(nèi)變化,偏離0.5的大小表示翹課可能與否的程度。為了在更多時間點上驗證DOI指數(shù),實驗在原數(shù)據(jù)集上以3天

時間點,預測結(jié)果,特征子集,課程


第6期宋國琴,等:基于XGBoost特征選擇的幕課翹課指數(shù)建立及應(yīng)用925分類值(AUC)0.900.890.880.870.8650100150200250300(135,0.8994)特征數(shù)量圖4基于XGBoost特征重要度的最優(yōu)子集表2最優(yōu)特征子集內(nèi)容特征數(shù)量用戶在注冊課程中的學習54最后一天行為用戶在整個網(wǎng)站的行為4035統(tǒng)計信息4課程注冊信息1時間信息1表3最優(yōu)特征子集表現(xiàn)特征集數(shù)量提取時間/min分類值所有特征1339400.8998最優(yōu)子集135150.8994其中,重要度最高的特征包含最后一天訪問其他課程對象的用時,最后一天關(guān)閉網(wǎng)頁的用時等是非常有指示意義的特征。從表2中可以推斷出,某用戶翹一門課時,在其他同期課程也可能翹課;同時,用戶在課程操作、網(wǎng)站操作上會有不同表現(xiàn),而且愈臨近翹課越明顯。重點關(guān)注以上方向的趨勢,可在很大程度上主導對翹課的預測。如表3所示,最優(yōu)特征子集只有135個特征,數(shù)量不到原來的1/10,而KDDCup2015前10名隊伍的特征數(shù)量大多在1000以上[5]。因為特征子集數(shù)量小,也縮短了特征提取的時間,而分類性能卻下降極少。4DOI指數(shù)的建立及應(yīng)用在最優(yōu)特征子集上使用XGBoost算法構(gòu)造決策森林,森林中各棵樹的預測值加性求和,再將結(jié)果進行邏輯回歸,得到DOI指數(shù)的值。1()11Kkikikfxyfe==∈∑+F(17)式中,F(xiàn)為所有樹的函數(shù)空間;kf為單棵樹,其中包含了特征到分值的映射。取0.5為DOI指標的基準線,大于0.5表示翹課概率增加,小于0.5表示翹課概率減少。DOI值在0~1范圍內(nèi)變化,偏離0.5的大小表示翹課可能與否的程度。為了在更多時間點上驗證DOI指數(shù),實驗在原數(shù)據(jù)集上以3天

【參考文獻】:
期刊論文
[1]人類行為時空特性的統(tǒng)計力學[J]. 周濤,韓筱璞,閆小勇,楊紫陌,趙志丹,汪秉宏.  電子科技大學學報. 2013(04)
[2]基于迭代式RELIEF和相關(guān)向量機的黃瓜圖像識別方法[J]. 金理鉆,屠珺,劉成良.  上海交通大學學報. 2013(04)
[3]不平衡數(shù)據(jù)的降采樣方法研究[J]. 林舒楊,李翠華,江弋,林琛,鄒權(quán).  計算機研究與發(fā)展. 2011(S3)
[4]用修正的RELIEF方法測量高速空氣流瞬時速度的理論研究[J]. 鄭義,姚建銓,吳峰,房曉俊,施祥春.  光學學報. 1996(08)



本文編號:3142951

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jiaoyulunwen/wangluojiaoyulunwen/3142951.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5ace5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com