基于Hadoop的網(wǎng)絡(luò)用戶行為分析
本文關(guān)鍵詞:基于Hadoop的網(wǎng)絡(luò)用戶行為分析
更多相關(guān)文章: 校園網(wǎng) Map Reduce 用戶網(wǎng)絡(luò)行為 Hive QL技術(shù) K-means聚類
【摘要】:網(wǎng)絡(luò)已經(jīng)成為人們學(xué)習(xí)、工作和生活中必不可少的重要組成部分。校園網(wǎng)作為高校教學(xué)、科研和信息服務(wù)的基礎(chǔ)平臺,已經(jīng)成為衡量高校信息化建設(shè)和智慧校園建設(shè)的重要指標(biāo)之一。隨著校園網(wǎng)中各種網(wǎng)絡(luò)應(yīng)用的增多,產(chǎn)生了以日志形式存在的海量網(wǎng)絡(luò)用戶行為數(shù)據(jù)。與此同時,校園網(wǎng)規(guī)模的日益擴(kuò)大和用戶人數(shù)的增長,給校園網(wǎng)優(yōu)化升級和日常運維管理帶來了許多問題。另外,學(xué)生用戶過度使用網(wǎng)絡(luò)不僅給自身的學(xué)習(xí)、生活和身心健康帶來了巨大危害,而且為高校學(xué)生教育管理工作提出了新的要求。因此,校園網(wǎng)用戶網(wǎng)絡(luò)行為分析,有助于高校網(wǎng)絡(luò)管理部門制定和完善更加合理有效的網(wǎng)絡(luò)管理制度和日常運維策略;為廣大師生提高安全、快速和可靠的網(wǎng)絡(luò)環(huán)境;有助于高校學(xué)生管理部門及時了解和發(fā)現(xiàn)學(xué)生的思想動態(tài)和學(xué)習(xí)狀況等有用信息。本文在西北民族大學(xué)校園網(wǎng)基礎(chǔ)上,以校園網(wǎng)絡(luò)核心交換機(jī)H3C-12508網(wǎng)絡(luò)鏡像端口用戶訪問網(wǎng)絡(luò)的點擊流日志和深藍(lán)計費網(wǎng)關(guān)Srun3000的用戶登錄數(shù)據(jù)作為研究對象,主要針對校園網(wǎng)用戶中學(xué)生用戶在線行為展開研究。本文主要研究工作如下:1.搭建了包含Hive和Sqoop子項目的分布式Hadoop實驗環(huán)境;2.在Hadoop集群下,預(yù)處理校園網(wǎng)用戶行為數(shù)據(jù)和進(jìn)行用戶類別劃分;3.采用Hive QL查詢技術(shù),對校園網(wǎng)用戶群體行為從五個方面展開研究,即不同時段在線用戶人數(shù)分析、用戶在線時間長度分析、用戶訪問的目的地址分析、用戶在線流量分析和學(xué)生異常行為分析。用戶訪問的目的地址分析中,為了加快目的地址統(tǒng)計和排序的速度,編寫了一個Linux Shell腳本用于目的地址統(tǒng)計和排序,并取得了良好的運行效果。通過對不同年級、不同培養(yǎng)層次和不同學(xué)院學(xué)生用戶在線時長、使用網(wǎng)絡(luò)流量和在線人數(shù)等方面進(jìn)行對比研究,并對不同學(xué)生用戶群體中出現(xiàn)網(wǎng)絡(luò)行為異常的原因作了初步的探討和分析,給出了具有針對性的意見和建議;4.對學(xué)生用戶群體行為展開聚類分析。首先利用K-means聚類算法并行化的思路,找出了該算法的實現(xiàn)方法;接著編寫Mapper函數(shù)和Reducer函數(shù)實現(xiàn)K-means算法;最后,從用戶在線時長、下行流量和上行流量角度出發(fā),對用戶網(wǎng)絡(luò)行為進(jìn)行聚類研究,將用戶劃分為5個類別,并對每個類別產(chǎn)生的原因和其特征進(jìn)行了深入細(xì)致的分析。總之,上述校園網(wǎng)用戶行為研究,對于高校網(wǎng)絡(luò)管理和學(xué)生管理具有重要的參考價值和指導(dǎo)意義。
【學(xué)位授予單位】:蘭州理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 寧家駿;;“互聯(lián)網(wǎng)+”行動計劃的實施背景、內(nèi)涵及主要內(nèi)容[J];電子政務(wù);2015年06期
2 劉向東;劉奎;胡飛翔;王翠榮;;基于MapReduce的并行聚類算法設(shè)計與實現(xiàn)[J];計算機(jī)應(yīng)用與軟件;2014年11期
3 鄧甜甜;熊蔭喬;劉建娥;;基于計費系統(tǒng)的校園網(wǎng)用戶行為分析[J];長沙大學(xué)學(xué)報;2014年02期
4 劉智慧;張泉靈;;大數(shù)據(jù)技術(shù)研究綜述[J];浙江大學(xué)學(xué)報(工學(xué)版);2014年06期
5 趙龍;江榮安;;基于Hive的海量搜索日志分析系統(tǒng)研究[J];計算機(jī)應(yīng)用研究;2013年11期
6 毛典輝;;基于MapReduce的Canopy-Kmeans改進(jìn)算法[J];計算機(jī)工程與應(yīng)用;2012年27期
7 劉永增;張曉景;李先毅;;基于Hadoop/Hive的web日志分析系統(tǒng)的設(shè)計[J];廣西大學(xué)學(xué)報(自然科學(xué)版);2011年S1期
8 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學(xué)報;2007年01期
9 李一;;網(wǎng)絡(luò)行為:一個網(wǎng)絡(luò)社會學(xué)概念的簡要分析[J];蘭州大學(xué)學(xué)報;2006年05期
10 董一鴻,莊越挺;基于新型的競爭型神經(jīng)網(wǎng)絡(luò)的Web日志挖掘[J];計算機(jī)研究與發(fā)展;2003年05期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 劉鵬;網(wǎng)絡(luò)用戶行為分析的若干問題研究[D];北京郵電大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前6條
1 任思穎;基于大數(shù)據(jù)的網(wǎng)絡(luò)用戶行為分析[D];北京郵電大學(xué);2015年
2 郝增勇;基于Hadoop用戶行為分析系統(tǒng)設(shè)計與實現(xiàn)[D];北京交通大學(xué);2014年
3 徐丹;影響大學(xué)生網(wǎng)絡(luò)成癮相關(guān)因素分析及劃分網(wǎng)絡(luò)成癮上網(wǎng)時間閾限的確定[D];西北大學(xué);2010年
4 丁青;基于校園網(wǎng)用戶行為日志的數(shù)據(jù)挖掘研究[D];南京農(nóng)業(yè)大學(xué);2009年
5 王東亞;校園網(wǎng)絡(luò)行為分析的研究[D];北京交通大學(xué);2007年
6 董富強;網(wǎng)絡(luò)用戶行為分析研究及其應(yīng)用[D];西安電子科技大學(xué);2005年
,本文編號:1159753
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1159753.html