引入行為數(shù)據(jù)的高校學生分層算法與異常學生檢測
發(fā)布時間:2021-08-24 23:35
大學生的教育問題一直以來是我國高校的頭等大事,在實行素質(zhì)化教育的今天,如何對學生進行精準教育成為了首要課題。在師資資源、人力資源、管理資源等有限的條件下,如何運用互聯(lián)網(wǎng)技術解決教育分層化問題就顯得尤為重要。近年來,大學生的課外活動日益豐富,校園生活更加多種多樣,隨著移動互聯(lián)網(wǎng)和電子商務的興起,學生可以足不出戶處理教學事務和日常生活需要,同樣也使得學生的管理變得困難與復雜。本文選取我校部分本科生的行為數(shù)據(jù),包括參加課外活動的時長、圖書館相關的數(shù)據(jù)、食堂數(shù)據(jù)以及成績等全方位的數(shù)據(jù),來對學生進行一個層次的劃分,通過機器學習的方式訓練出一個基于學生的管理分類模式。實現(xiàn)對學生的劃分,來方便輔導員、老師等人員對學生進行管理。本文首先采用聚類分析的思想,通過分析學生的成績數(shù)據(jù)以及行為數(shù)據(jù)來對學生進行隱藏的評級,對于聚類結果進行標定與審核,調(diào)整算法以及參數(shù)來得到合適的聚類結果。對比行為數(shù)據(jù)引入的結果可以明顯發(fā)現(xiàn)行為數(shù)據(jù)的有效性與可行性,這種結果可以經(jīng)由輔導員或任課老師的評價方可通過。再轉(zhuǎn)入到下一階段的分類模型中,訓練出一個合適的模型來對新的學生數(shù)據(jù)進行預測,異常值檢測是學情檢測的重要部分,通過改進的算...
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:44 頁
【學位級別】:碩士
【部分圖文】:
圖2-1算法流程圖??6??
上??所有的點在d維的坐標值均小于當前值,右子樹上所有的點在d維的坐標值均大于??等于當前值,本定義對其任意子節(jié)點均成立。下面是/cd樹的圖示展示:??featmes?J??n——n??展開廠丨??進舞嫩大l愛維階?(9子禱特tt點―??Assign?Partition?Ke>*?fc?ft?tcs?y?y?icaturc^?J??_^??I??■?1?■?■?■?1?'?1??[T^TTrri??MedianSeteq?S開S:子W?J?mnCtm??圖2-2?kd樹流程圖??2.1.3關于Knn算法的本文改進??在學生分類中,我們對于學生的定位要求非常精確,基于Krni多數(shù)投票的原則??基礎上,本文引進了學生置信度的概念,及最多種相鄰樣本i占比在p以上是才把??該學生劃分為/類,公式如下:??7??
碩士學位論文??MASTER'S?THESIS??密度相連:對于樣本i_和樣本,若存在樣本fc使得〖與^/均由fc密度可達,則??稱i與y密度相連。??〇??工?3(,力、)::斧、、、??側^?〇??圖2-4?DBscan算法流程圖??上圖直觀顯示DBSCAN中這幾個概念:當M〖nPts=3的時候,虛線圓圈為??e鄰域,xl是核心對象,x2由;cl密度直達,Z3由xl密度可達,;c3與密??度相連。??2.3.2算法流程??1、遍歷所有樣本,找出所有滿足鄰域距離e的核心對象的集合;??2、任意選擇一個核心對象,找出其所有密度可達的樣本并生成聚類簇;??3、從剩余的核心對象中移除2中找到的密度可達的樣本;??4、從更新后的核心對象集合重復執(zhí)行2-3步直到核心對象都被遍歷或移除。??2.3.3算法更新與調(diào)參??此處參考周治平的AF-DBscan算法叫針對于DBscan算法的調(diào)參問題,運用??以下方法來進行計算。計算出距離分布矩陣/)/燈_,其中£>/燈_?=?{dist(ij〇|l?S??iSn.lSjSn},上式中,ri為數(shù)據(jù)集d的對象數(shù)目,D/5Tnxn是一個71行?1列的??距離分布的實對稱矩陣,其中每個元素表示數(shù)據(jù)集D中對象i與對象之間的距離。??根據(jù)經(jīng)驗選。?4這條數(shù)據(jù)進行分析,發(fā)現(xiàn)eps參數(shù)應該在曲線急速的地方??選取,用曲線擬合后發(fā)現(xiàn)多項式曲線擬合效果最佳,多項式曲線擬合公式為:??10??
本文編號:3360938
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:44 頁
【學位級別】:碩士
【部分圖文】:
圖2-1算法流程圖??6??
上??所有的點在d維的坐標值均小于當前值,右子樹上所有的點在d維的坐標值均大于??等于當前值,本定義對其任意子節(jié)點均成立。下面是/cd樹的圖示展示:??featmes?J??n——n??展開廠丨??進舞嫩大l愛維階?(9子禱特tt點―??Assign?Partition?Ke>*?fc?ft?tcs?y?y?icaturc^?J??_^??I??■?1?■?■?■?1?'?1??[T^TTrri??MedianSeteq?S開S:子W?J?mnCtm??圖2-2?kd樹流程圖??2.1.3關于Knn算法的本文改進??在學生分類中,我們對于學生的定位要求非常精確,基于Krni多數(shù)投票的原則??基礎上,本文引進了學生置信度的概念,及最多種相鄰樣本i占比在p以上是才把??該學生劃分為/類,公式如下:??7??
碩士學位論文??MASTER'S?THESIS??密度相連:對于樣本i_和樣本,若存在樣本fc使得〖與^/均由fc密度可達,則??稱i與y密度相連。??〇??工?3(,力、)::斧、、、??側^?〇??圖2-4?DBscan算法流程圖??上圖直觀顯示DBSCAN中這幾個概念:當M〖nPts=3的時候,虛線圓圈為??e鄰域,xl是核心對象,x2由;cl密度直達,Z3由xl密度可達,;c3與密??度相連。??2.3.2算法流程??1、遍歷所有樣本,找出所有滿足鄰域距離e的核心對象的集合;??2、任意選擇一個核心對象,找出其所有密度可達的樣本并生成聚類簇;??3、從剩余的核心對象中移除2中找到的密度可達的樣本;??4、從更新后的核心對象集合重復執(zhí)行2-3步直到核心對象都被遍歷或移除。??2.3.3算法更新與調(diào)參??此處參考周治平的AF-DBscan算法叫針對于DBscan算法的調(diào)參問題,運用??以下方法來進行計算。計算出距離分布矩陣/)/燈_,其中£>/燈_?=?{dist(ij〇|l?S??iSn.lSjSn},上式中,ri為數(shù)據(jù)集d的對象數(shù)目,D/5Tnxn是一個71行?1列的??距離分布的實對稱矩陣,其中每個元素表示數(shù)據(jù)集D中對象i與對象之間的距離。??根據(jù)經(jīng)驗選。?4這條數(shù)據(jù)進行分析,發(fā)現(xiàn)eps參數(shù)應該在曲線急速的地方??選取,用曲線擬合后發(fā)現(xiàn)多項式曲線擬合效果最佳,多項式曲線擬合公式為:??10??
本文編號:3360938
本文鏈接:http://sikaile.net/jiaoyulunwen/gaodengjiaoyulunwen/3360938.html
最近更新
教材專著