大學(xué)生網(wǎng)絡(luò)行為與學(xué)習(xí)成績的相關(guān)性研究
發(fā)布時間:2021-07-29 13:22
隨著高校校園網(wǎng)的建設(shè)逐步普及,校園網(wǎng)成為了學(xué)生上網(wǎng)的最主要途徑,同時在出口防火墻上產(chǎn)生了大量的網(wǎng)絡(luò)行為數(shù)據(jù)。在這些海量數(shù)據(jù)的背后,還藏匿著一些人們憑直覺和經(jīng)驗很難發(fā)現(xiàn)的信息。然而,傳統(tǒng)的數(shù)據(jù)庫技術(shù)很難從大量的數(shù)據(jù)中獲取有價值的信息。分析學(xué)生用戶的網(wǎng)絡(luò)行為數(shù)據(jù),可以有效地幫助學(xué)校管理者和學(xué)術(shù)專家了解學(xué)生的網(wǎng)絡(luò)行為偏好以及不同學(xué)生用戶群體的各種網(wǎng)絡(luò)行為,網(wǎng)絡(luò)行為是否影響學(xué)業(yè)成績等。通過采集學(xué)校網(wǎng)絡(luò)中心防火墻服務(wù)器上記錄的學(xué)生大量網(wǎng)絡(luò)行為日志,利用Web使用挖掘的方法,對數(shù)據(jù)進行處理和轉(zhuǎn)換,引用了N-gram語言模型,根據(jù)日志數(shù)據(jù)中URL(Uniform Resource Locator,統(tǒng)一資源定位符)的特征提取出關(guān)鍵詞,根據(jù)關(guān)鍵詞對URL進行分類,從而完成根據(jù)網(wǎng)頁行為分類模型對用戶瀏覽的網(wǎng)頁進行分類的目的,根據(jù)用戶對不同類型的網(wǎng)站的點擊量,計算出用戶對不同網(wǎng)站類型的瀏覽占比。最后通過與學(xué)生學(xué)習(xí)成績的關(guān)聯(lián)分析,得出網(wǎng)頁瀏覽主題與學(xué)生成績的相關(guān)性結(jié)果,并對結(jié)果進行解釋與評估。文章總體上分成五個部分,首先在第一章主要闡述了用戶行為分析的研究現(xiàn)狀和意義和論文的主要內(nèi)容以及組織結(jié)構(gòu),第二章分析了與...
【文章來源】:浙江師范大學(xué)浙江省
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
用戶行為的研究趨勢
11減少風(fēng)險,作出正確的決策[5]。通常需要通過模式識別、在線分析處理、統(tǒng)計、機器學(xué)習(xí)、情報檢索和專家系統(tǒng)等多種方法才能完成挖掘的目標(biāo),因此,數(shù)據(jù)挖掘技術(shù)被認(rèn)為是一種集多種方法于一身的交叉性研究領(lǐng)域。到目前為止,數(shù)據(jù)挖掘技術(shù)的發(fā)展經(jīng)歷了四個階段:數(shù)據(jù)搜集、數(shù)據(jù)訪問、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘。數(shù)據(jù)挖掘(DataMining,DM)通常又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),然而嚴(yán)格來講,KDD指從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程,包括最開始的設(shè)定目標(biāo)到最后的結(jié)果分析,數(shù)據(jù)挖掘被認(rèn)為是KDD這個過程中一個特定的步驟。數(shù)據(jù)挖掘的定義是:從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程,并且把提取到的知識和信息用概念、規(guī)律、模式、約束、可視化等方式表現(xiàn)出來[6]。2.2.2數(shù)據(jù)挖掘的過程為了保證數(shù)據(jù)挖掘的過程中能夠按計劃有條不紊的進行,許多數(shù)據(jù)挖掘顧問公司和軟件供應(yīng)商都會在開始數(shù)據(jù)挖掘之前制定好挖掘的步驟,一般情況下數(shù)據(jù)挖掘的過程是:陳述問題和闡明假設(shè)、數(shù)據(jù)準(zhǔn)備和預(yù)處理、算法選擇與挖掘數(shù)據(jù)、結(jié)果解釋和評估。數(shù)據(jù)挖掘的過程如圖2.1所示。圖2.1數(shù)據(jù)挖掘的過程[5]王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計算機學(xué)報,2013,36(06):1125-1138.[6]唐曉萍.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)綜述[J].電腦開發(fā)與應(yīng)用,2002(04):31-32+35.
15圖2.2Web挖掘的三大類(1)Web內(nèi)容挖掘網(wǎng)頁內(nèi)容主要是呈現(xiàn)給用戶的文檔和多媒體數(shù)據(jù),包括圖像、視頻、音頻以及動畫等,挖掘的對象是網(wǎng)頁的文本內(nèi)容和多媒體數(shù)據(jù),主要的挖掘?qū)ο缶W(wǎng)頁文本內(nèi)容的挖掘。根據(jù)定義,Web內(nèi)容挖掘是從網(wǎng)頁文檔和后臺數(shù)據(jù)挖掘出信息,找出網(wǎng)頁文檔中有價值的知識。采用的方法包括歸納總結(jié)法、分類聚類法和數(shù)據(jù)建模的方法。網(wǎng)頁文本分類是預(yù)先定義好需要分成的主題類別,通過訓(xùn)練數(shù)據(jù)建立網(wǎng)頁分類器,利用網(wǎng)頁分類器把預(yù)分類的文檔一一劃分至設(shè)定好的分類集合中,一個集合內(nèi)的網(wǎng)頁文檔便屬于一個類別,分好類的網(wǎng)頁方便用戶檢索。與利用分類器分類網(wǎng)頁不同的是聚類法,聚類不需要事先預(yù)定好分成的主題類別,它只需要確定需要聚類的幾個中心,在同一個類別的文檔就是離同一個中心最近的文檔集合,不同類的網(wǎng)頁文檔離不同的聚類中心遠。所有聚類又屬于是一種無監(jiān)督學(xué)習(xí)。(2)Web結(jié)構(gòu)挖掘網(wǎng)頁里的內(nèi)容除了文檔和多媒體數(shù)據(jù)外,通常還包含大量的URL鏈接,Web結(jié)構(gòu)指的就是網(wǎng)頁里的鏈接指向,即通過一個url可以進入另一個頁面,這種不同網(wǎng)頁之間建立起的連接就是Web結(jié)構(gòu)挖掘的主要對象。通過url可以知道與一個網(wǎng)頁有關(guān)系的其它網(wǎng)站,它們的關(guān)系可以是相互推薦的,也可以是隸屬于的。這種網(wǎng)頁之間的相關(guān)性可以用來鑒定當(dāng)前網(wǎng)頁的權(quán)威性或者用來發(fā)現(xiàn)與當(dāng)前主題網(wǎng)頁相關(guān)的的權(quán)威站點,因為當(dāng)一個網(wǎng)頁里有另一個網(wǎng)頁的鏈接,說明另一個網(wǎng)頁是受認(rèn)可的。Web結(jié)構(gòu)挖掘通常用于Web頁面的發(fā)現(xiàn)。當(dāng)挖掘出的多數(shù)頁面都包含有對同一個頁面有建立連接,至少可以說明這個頁面是受到大多數(shù)認(rèn)可的。(3)Web使用挖掘(Web日志挖掘)即Web日志挖掘,在使用Web上網(wǎng)過程中,用戶會留下很多的記錄,用戶IP地
【參考文獻】:
期刊論文
[1]關(guān)聯(lián)分析在學(xué)生成績數(shù)據(jù)挖掘的應(yīng)用[J]. 狄曉嬌. 電腦知識與技術(shù). 2018(34)
[2]高校學(xué)生網(wǎng)絡(luò)行為時序特征的可視化分析[J]. 嚴(yán)承希,王軍. 情報學(xué)報. 2018(09)
[3]基于改進的n-gram模型的URL分類算法研究[J]. 駱聰,周城. 計算機技術(shù)與發(fā)展. 2018(09)
[4]一種面向海量網(wǎng)絡(luò)審計日志的敏感用戶挖掘分析架構(gòu)[J]. 李棟科. 網(wǎng)絡(luò)空間安全. 2018(04)
[5]基于大數(shù)據(jù)平臺的用戶畫像與用戶行為分析[J]. 謝康,吳記,肖靜華. 中國信息化. 2018(03)
[6]基于Spark的用戶行為分析系統(tǒng)框架研究[J]. 殷樂,姚遠,劉辰. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2018(02)
[7]基于層次聚類法的“知乎”用戶細(xì)分與行為分析[J]. 陳娟,吳卓青,鄧勝利. 情報理論與實踐. 2018(07)
[8]基于聯(lián)合特征的釣魚網(wǎng)頁分類方法[J]. 賈雪鵬,容曉峰. 電子技術(shù)與軟件工程. 2018(02)
[9]基于系統(tǒng)日志的高校圖書館研究間用戶利用行為分析[J]. 尹相權(quán),李書寧,弓建華. 現(xiàn)代情報. 2018(01)
[10]一種基于機器學(xué)習(xí)的網(wǎng)頁分類技術(shù)[J]. 孫靖超. 信息網(wǎng)絡(luò)安全. 2017(09)
碩士論文
[1]基于URL模式的網(wǎng)頁分類算法研究[D]. 楊鎰銘.中國科學(xué)技術(shù)大學(xué) 2016
[2]基于URL特征的網(wǎng)頁分類研究[D]. 李玄.南京郵電大學(xué) 2011
本文編號:3309403
【文章來源】:浙江師范大學(xué)浙江省
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
用戶行為的研究趨勢
11減少風(fēng)險,作出正確的決策[5]。通常需要通過模式識別、在線分析處理、統(tǒng)計、機器學(xué)習(xí)、情報檢索和專家系統(tǒng)等多種方法才能完成挖掘的目標(biāo),因此,數(shù)據(jù)挖掘技術(shù)被認(rèn)為是一種集多種方法于一身的交叉性研究領(lǐng)域。到目前為止,數(shù)據(jù)挖掘技術(shù)的發(fā)展經(jīng)歷了四個階段:數(shù)據(jù)搜集、數(shù)據(jù)訪問、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘。數(shù)據(jù)挖掘(DataMining,DM)通常又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),然而嚴(yán)格來講,KDD指從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程,包括最開始的設(shè)定目標(biāo)到最后的結(jié)果分析,數(shù)據(jù)挖掘被認(rèn)為是KDD這個過程中一個特定的步驟。數(shù)據(jù)挖掘的定義是:從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程,并且把提取到的知識和信息用概念、規(guī)律、模式、約束、可視化等方式表現(xiàn)出來[6]。2.2.2數(shù)據(jù)挖掘的過程為了保證數(shù)據(jù)挖掘的過程中能夠按計劃有條不紊的進行,許多數(shù)據(jù)挖掘顧問公司和軟件供應(yīng)商都會在開始數(shù)據(jù)挖掘之前制定好挖掘的步驟,一般情況下數(shù)據(jù)挖掘的過程是:陳述問題和闡明假設(shè)、數(shù)據(jù)準(zhǔn)備和預(yù)處理、算法選擇與挖掘數(shù)據(jù)、結(jié)果解釋和評估。數(shù)據(jù)挖掘的過程如圖2.1所示。圖2.1數(shù)據(jù)挖掘的過程[5]王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計算機學(xué)報,2013,36(06):1125-1138.[6]唐曉萍.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)綜述[J].電腦開發(fā)與應(yīng)用,2002(04):31-32+35.
15圖2.2Web挖掘的三大類(1)Web內(nèi)容挖掘網(wǎng)頁內(nèi)容主要是呈現(xiàn)給用戶的文檔和多媒體數(shù)據(jù),包括圖像、視頻、音頻以及動畫等,挖掘的對象是網(wǎng)頁的文本內(nèi)容和多媒體數(shù)據(jù),主要的挖掘?qū)ο缶W(wǎng)頁文本內(nèi)容的挖掘。根據(jù)定義,Web內(nèi)容挖掘是從網(wǎng)頁文檔和后臺數(shù)據(jù)挖掘出信息,找出網(wǎng)頁文檔中有價值的知識。采用的方法包括歸納總結(jié)法、分類聚類法和數(shù)據(jù)建模的方法。網(wǎng)頁文本分類是預(yù)先定義好需要分成的主題類別,通過訓(xùn)練數(shù)據(jù)建立網(wǎng)頁分類器,利用網(wǎng)頁分類器把預(yù)分類的文檔一一劃分至設(shè)定好的分類集合中,一個集合內(nèi)的網(wǎng)頁文檔便屬于一個類別,分好類的網(wǎng)頁方便用戶檢索。與利用分類器分類網(wǎng)頁不同的是聚類法,聚類不需要事先預(yù)定好分成的主題類別,它只需要確定需要聚類的幾個中心,在同一個類別的文檔就是離同一個中心最近的文檔集合,不同類的網(wǎng)頁文檔離不同的聚類中心遠。所有聚類又屬于是一種無監(jiān)督學(xué)習(xí)。(2)Web結(jié)構(gòu)挖掘網(wǎng)頁里的內(nèi)容除了文檔和多媒體數(shù)據(jù)外,通常還包含大量的URL鏈接,Web結(jié)構(gòu)指的就是網(wǎng)頁里的鏈接指向,即通過一個url可以進入另一個頁面,這種不同網(wǎng)頁之間建立起的連接就是Web結(jié)構(gòu)挖掘的主要對象。通過url可以知道與一個網(wǎng)頁有關(guān)系的其它網(wǎng)站,它們的關(guān)系可以是相互推薦的,也可以是隸屬于的。這種網(wǎng)頁之間的相關(guān)性可以用來鑒定當(dāng)前網(wǎng)頁的權(quán)威性或者用來發(fā)現(xiàn)與當(dāng)前主題網(wǎng)頁相關(guān)的的權(quán)威站點,因為當(dāng)一個網(wǎng)頁里有另一個網(wǎng)頁的鏈接,說明另一個網(wǎng)頁是受認(rèn)可的。Web結(jié)構(gòu)挖掘通常用于Web頁面的發(fā)現(xiàn)。當(dāng)挖掘出的多數(shù)頁面都包含有對同一個頁面有建立連接,至少可以說明這個頁面是受到大多數(shù)認(rèn)可的。(3)Web使用挖掘(Web日志挖掘)即Web日志挖掘,在使用Web上網(wǎng)過程中,用戶會留下很多的記錄,用戶IP地
【參考文獻】:
期刊論文
[1]關(guān)聯(lián)分析在學(xué)生成績數(shù)據(jù)挖掘的應(yīng)用[J]. 狄曉嬌. 電腦知識與技術(shù). 2018(34)
[2]高校學(xué)生網(wǎng)絡(luò)行為時序特征的可視化分析[J]. 嚴(yán)承希,王軍. 情報學(xué)報. 2018(09)
[3]基于改進的n-gram模型的URL分類算法研究[J]. 駱聰,周城. 計算機技術(shù)與發(fā)展. 2018(09)
[4]一種面向海量網(wǎng)絡(luò)審計日志的敏感用戶挖掘分析架構(gòu)[J]. 李棟科. 網(wǎng)絡(luò)空間安全. 2018(04)
[5]基于大數(shù)據(jù)平臺的用戶畫像與用戶行為分析[J]. 謝康,吳記,肖靜華. 中國信息化. 2018(03)
[6]基于Spark的用戶行為分析系統(tǒng)框架研究[J]. 殷樂,姚遠,劉辰. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2018(02)
[7]基于層次聚類法的“知乎”用戶細(xì)分與行為分析[J]. 陳娟,吳卓青,鄧勝利. 情報理論與實踐. 2018(07)
[8]基于聯(lián)合特征的釣魚網(wǎng)頁分類方法[J]. 賈雪鵬,容曉峰. 電子技術(shù)與軟件工程. 2018(02)
[9]基于系統(tǒng)日志的高校圖書館研究間用戶利用行為分析[J]. 尹相權(quán),李書寧,弓建華. 現(xiàn)代情報. 2018(01)
[10]一種基于機器學(xué)習(xí)的網(wǎng)頁分類技術(shù)[J]. 孫靖超. 信息網(wǎng)絡(luò)安全. 2017(09)
碩士論文
[1]基于URL模式的網(wǎng)頁分類算法研究[D]. 楊鎰銘.中國科學(xué)技術(shù)大學(xué) 2016
[2]基于URL特征的網(wǎng)頁分類研究[D]. 李玄.南京郵電大學(xué) 2011
本文編號:3309403
本文鏈接:http://sikaile.net/jiaoyulunwen/gaodengjiaoyulunwen/3309403.html
最近更新
教材專著