基于XGBoost特征選擇的幕課翹課指數(shù)建立及應(yīng)用
發(fā)布時間:2021-04-17 06:15
翹課行為反應(yīng)了幕課的質(zhì)量問題,也是在線教育的核心問題之一。該文通過對真實的在線教育數(shù)據(jù)進行分析,結(jié)合在線教育領(lǐng)域的先驗知識,針對數(shù)據(jù)中的豐富海量的特征問題,提出了基于XGBoost特征重要度計算和分類的翹課特征選擇方法,并建立了在線教育的翹課指數(shù)(DOI)。基于學堂在線數(shù)據(jù)集提取的海量特征的實證分析表明,基于XGBoost的特征選擇方法比其他經(jīng)典特征選擇方法具有更好的效果。在數(shù)據(jù)集的不同時間點上使用翹課指數(shù)模型作翹課預測,驗證了翹課指數(shù)的有效性。
【文章來源】:電子科技大學學報. 2018,47(06)北大核心EICSCD
【文章頁數(shù)】:6 頁
【部分圖文】:
不同F(xiàn)I方法配合不同分類器的性能比較0.740.72050100150200250300350特征數(shù)量c.SVM分類
第6期宋國琴,等:基于XGBoost特征選擇的幕課翹課指數(shù)建立及應(yīng)用925分類值(AUC)0.900.890.880.870.8650100150200250300(135,0.8994)特征數(shù)量圖4基于XGBoost特征重要度的最優(yōu)子集表2最優(yōu)特征子集內(nèi)容特征數(shù)量用戶在注冊課程中的學習54最后一天行為用戶在整個網(wǎng)站的行為4035統(tǒng)計信息4課程注冊信息1時間信息1表3最優(yōu)特征子集表現(xiàn)特征集數(shù)量提取時間/min分類值所有特征1339400.8998最優(yōu)子集135150.8994其中,重要度最高的特征包含最后一天訪問其他課程對象的用時,最后一天關(guān)閉網(wǎng)頁的用時等是非常有指示意義的特征。從表2中可以推斷出,某用戶翹一門課時,在其他同期課程也可能翹課;同時,用戶在課程操作、網(wǎng)站操作上會有不同表現(xiàn),而且愈臨近翹課越明顯。重點關(guān)注以上方向的趨勢,可在很大程度上主導對翹課的預測。如表3所示,最優(yōu)特征子集只有135個特征,數(shù)量不到原來的1/10,而KDDCup2015前10名隊伍的特征數(shù)量大多在1000以上[5]。因為特征子集數(shù)量小,也縮短了特征提取的時間,而分類性能卻下降極少。4DOI指數(shù)的建立及應(yīng)用在最優(yōu)特征子集上使用XGBoost算法構(gòu)造決策森林,森林中各棵樹的預測值加性求和,再將結(jié)果進行邏輯回歸,得到DOI指數(shù)的值。1()11Kkikikfxyfe==∈∑+F(17)式中,F(xiàn)為所有樹的函數(shù)空間;kf為單棵樹,其中包含了特征到分值的映射。取0.5為DOI指標的基準線,大于0.5表示翹課概率增加,小于0.5表示翹課概率減少。DOI值在0~1范圍內(nèi)變化,偏離0.5的大小表示翹課可能與否的程度。為了在更多時間點上驗證DOI指數(shù),實驗在原數(shù)據(jù)集上以3天
第6期宋國琴,等:基于XGBoost特征選擇的幕課翹課指數(shù)建立及應(yīng)用925分類值(AUC)0.900.890.880.870.8650100150200250300(135,0.8994)特征數(shù)量圖4基于XGBoost特征重要度的最優(yōu)子集表2最優(yōu)特征子集內(nèi)容特征數(shù)量用戶在注冊課程中的學習54最后一天行為用戶在整個網(wǎng)站的行為4035統(tǒng)計信息4課程注冊信息1時間信息1表3最優(yōu)特征子集表現(xiàn)特征集數(shù)量提取時間/min分類值所有特征1339400.8998最優(yōu)子集135150.8994其中,重要度最高的特征包含最后一天訪問其他課程對象的用時,最后一天關(guān)閉網(wǎng)頁的用時等是非常有指示意義的特征。從表2中可以推斷出,某用戶翹一門課時,在其他同期課程也可能翹課;同時,用戶在課程操作、網(wǎng)站操作上會有不同表現(xiàn),而且愈臨近翹課越明顯。重點關(guān)注以上方向的趨勢,可在很大程度上主導對翹課的預測。如表3所示,最優(yōu)特征子集只有135個特征,數(shù)量不到原來的1/10,而KDDCup2015前10名隊伍的特征數(shù)量大多在1000以上[5]。因為特征子集數(shù)量小,也縮短了特征提取的時間,而分類性能卻下降極少。4DOI指數(shù)的建立及應(yīng)用在最優(yōu)特征子集上使用XGBoost算法構(gòu)造決策森林,森林中各棵樹的預測值加性求和,再將結(jié)果進行邏輯回歸,得到DOI指數(shù)的值。1()11Kkikikfxyfe==∈∑+F(17)式中,F(xiàn)為所有樹的函數(shù)空間;kf為單棵樹,其中包含了特征到分值的映射。取0.5為DOI指標的基準線,大于0.5表示翹課概率增加,小于0.5表示翹課概率減少。DOI值在0~1范圍內(nèi)變化,偏離0.5的大小表示翹課可能與否的程度。為了在更多時間點上驗證DOI指數(shù),實驗在原數(shù)據(jù)集上以3天
【參考文獻】:
期刊論文
[1]人類行為時空特性的統(tǒng)計力學[J]. 周濤,韓筱璞,閆小勇,楊紫陌,趙志丹,汪秉宏. 電子科技大學學報. 2013(04)
[2]基于迭代式RELIEF和相關(guān)向量機的黃瓜圖像識別方法[J]. 金理鉆,屠珺,劉成良. 上海交通大學學報. 2013(04)
[3]不平衡數(shù)據(jù)的降采樣方法研究[J]. 林舒楊,李翠華,江弋,林琛,鄒權(quán). 計算機研究與發(fā)展. 2011(S3)
[4]用修正的RELIEF方法測量高速空氣流瞬時速度的理論研究[J]. 鄭義,姚建銓,吳峰,房曉俊,施祥春. 光學學報. 1996(08)
本文編號:3142951
【文章來源】:電子科技大學學報. 2018,47(06)北大核心EICSCD
【文章頁數(shù)】:6 頁
【部分圖文】:
不同F(xiàn)I方法配合不同分類器的性能比較0.740.72050100150200250300350特征數(shù)量c.SVM分類
第6期宋國琴,等:基于XGBoost特征選擇的幕課翹課指數(shù)建立及應(yīng)用925分類值(AUC)0.900.890.880.870.8650100150200250300(135,0.8994)特征數(shù)量圖4基于XGBoost特征重要度的最優(yōu)子集表2最優(yōu)特征子集內(nèi)容特征數(shù)量用戶在注冊課程中的學習54最后一天行為用戶在整個網(wǎng)站的行為4035統(tǒng)計信息4課程注冊信息1時間信息1表3最優(yōu)特征子集表現(xiàn)特征集數(shù)量提取時間/min分類值所有特征1339400.8998最優(yōu)子集135150.8994其中,重要度最高的特征包含最后一天訪問其他課程對象的用時,最后一天關(guān)閉網(wǎng)頁的用時等是非常有指示意義的特征。從表2中可以推斷出,某用戶翹一門課時,在其他同期課程也可能翹課;同時,用戶在課程操作、網(wǎng)站操作上會有不同表現(xiàn),而且愈臨近翹課越明顯。重點關(guān)注以上方向的趨勢,可在很大程度上主導對翹課的預測。如表3所示,最優(yōu)特征子集只有135個特征,數(shù)量不到原來的1/10,而KDDCup2015前10名隊伍的特征數(shù)量大多在1000以上[5]。因為特征子集數(shù)量小,也縮短了特征提取的時間,而分類性能卻下降極少。4DOI指數(shù)的建立及應(yīng)用在最優(yōu)特征子集上使用XGBoost算法構(gòu)造決策森林,森林中各棵樹的預測值加性求和,再將結(jié)果進行邏輯回歸,得到DOI指數(shù)的值。1()11Kkikikfxyfe==∈∑+F(17)式中,F(xiàn)為所有樹的函數(shù)空間;kf為單棵樹,其中包含了特征到分值的映射。取0.5為DOI指標的基準線,大于0.5表示翹課概率增加,小于0.5表示翹課概率減少。DOI值在0~1范圍內(nèi)變化,偏離0.5的大小表示翹課可能與否的程度。為了在更多時間點上驗證DOI指數(shù),實驗在原數(shù)據(jù)集上以3天
第6期宋國琴,等:基于XGBoost特征選擇的幕課翹課指數(shù)建立及應(yīng)用925分類值(AUC)0.900.890.880.870.8650100150200250300(135,0.8994)特征數(shù)量圖4基于XGBoost特征重要度的最優(yōu)子集表2最優(yōu)特征子集內(nèi)容特征數(shù)量用戶在注冊課程中的學習54最后一天行為用戶在整個網(wǎng)站的行為4035統(tǒng)計信息4課程注冊信息1時間信息1表3最優(yōu)特征子集表現(xiàn)特征集數(shù)量提取時間/min分類值所有特征1339400.8998最優(yōu)子集135150.8994其中,重要度最高的特征包含最后一天訪問其他課程對象的用時,最后一天關(guān)閉網(wǎng)頁的用時等是非常有指示意義的特征。從表2中可以推斷出,某用戶翹一門課時,在其他同期課程也可能翹課;同時,用戶在課程操作、網(wǎng)站操作上會有不同表現(xiàn),而且愈臨近翹課越明顯。重點關(guān)注以上方向的趨勢,可在很大程度上主導對翹課的預測。如表3所示,最優(yōu)特征子集只有135個特征,數(shù)量不到原來的1/10,而KDDCup2015前10名隊伍的特征數(shù)量大多在1000以上[5]。因為特征子集數(shù)量小,也縮短了特征提取的時間,而分類性能卻下降極少。4DOI指數(shù)的建立及應(yīng)用在最優(yōu)特征子集上使用XGBoost算法構(gòu)造決策森林,森林中各棵樹的預測值加性求和,再將結(jié)果進行邏輯回歸,得到DOI指數(shù)的值。1()11Kkikikfxyfe==∈∑+F(17)式中,F(xiàn)為所有樹的函數(shù)空間;kf為單棵樹,其中包含了特征到分值的映射。取0.5為DOI指標的基準線,大于0.5表示翹課概率增加,小于0.5表示翹課概率減少。DOI值在0~1范圍內(nèi)變化,偏離0.5的大小表示翹課可能與否的程度。為了在更多時間點上驗證DOI指數(shù),實驗在原數(shù)據(jù)集上以3天
【參考文獻】:
期刊論文
[1]人類行為時空特性的統(tǒng)計力學[J]. 周濤,韓筱璞,閆小勇,楊紫陌,趙志丹,汪秉宏. 電子科技大學學報. 2013(04)
[2]基于迭代式RELIEF和相關(guān)向量機的黃瓜圖像識別方法[J]. 金理鉆,屠珺,劉成良. 上海交通大學學報. 2013(04)
[3]不平衡數(shù)據(jù)的降采樣方法研究[J]. 林舒楊,李翠華,江弋,林琛,鄒權(quán). 計算機研究與發(fā)展. 2011(S3)
[4]用修正的RELIEF方法測量高速空氣流瞬時速度的理論研究[J]. 鄭義,姚建銓,吳峰,房曉俊,施祥春. 光學學報. 1996(08)
本文編號:3142951
本文鏈接:http://sikaile.net/jiaoyulunwen/wangluojiaoyulunwen/3142951.html
教材專著