校園網(wǎng)基礎(chǔ)數(shù)據(jù)平臺(tái)及用戶行為分析系統(tǒng)
發(fā)布時(shí)間:2021-09-25 17:06
近些年來,隨著大數(shù)據(jù)、物聯(lián)網(wǎng)、云計(jì)算等技術(shù)的發(fā)展,高校網(wǎng)絡(luò)也迎來了一個(gè)新的階段,即大數(shù)據(jù)時(shí)代。大數(shù)據(jù)給我們的生活帶來了前所未有的改變,而高校作為大數(shù)據(jù)應(yīng)用的新陣地,也將給學(xué)生和教職工帶來巨大的幫助。校園網(wǎng)數(shù)據(jù)來源豐富、數(shù)據(jù)量大,通過挖掘用戶上網(wǎng)數(shù)據(jù)可以深入了解校園網(wǎng)用戶的行為習(xí)慣,提高學(xué)校教學(xué)和管理水平。本文對(duì)多個(gè)校園網(wǎng)用戶上網(wǎng)數(shù)據(jù)源進(jìn)行了深入研究,并對(duì)系統(tǒng)進(jìn)行了總體設(shè)計(jì)和實(shí)現(xiàn)。一方面通過數(shù)據(jù)預(yù)處理搭建了數(shù)據(jù)倉庫,實(shí)現(xiàn)了基礎(chǔ)數(shù)據(jù)平臺(tái);另一方面,在此基礎(chǔ)上深入挖掘用戶上網(wǎng)行為,提出了新的改進(jìn)算法和公式,并實(shí)現(xiàn)用戶行為分析系統(tǒng)。本文的主要工作和成果如下:研究和分析采集到的多個(gè)上網(wǎng)數(shù)據(jù)源,對(duì)系統(tǒng)進(jìn)行了總體設(shè)計(jì)。其中為了實(shí)現(xiàn)對(duì)校園網(wǎng)用戶上網(wǎng)數(shù)據(jù)的整合和統(tǒng)一管理,對(duì)數(shù)據(jù)平臺(tái)進(jìn)行了設(shè)計(jì),從而搭建數(shù)據(jù)倉庫,實(shí)現(xiàn)基礎(chǔ)數(shù)據(jù)平臺(tái)。為了有效挖掘校園網(wǎng)用戶上網(wǎng)數(shù)據(jù),以得到更好的聚類結(jié)果,采用基于用戶過濾的數(shù)據(jù)挖掘方式對(duì)用戶行為進(jìn)行分析,并對(duì)校園網(wǎng)用戶上網(wǎng)特征和移動(dòng)軌跡相似度算法進(jìn)行研究,提出了新的用戶上網(wǎng)活躍度公式和基于改進(jìn)LCSS(Longest Common Subsequence)的軌跡相似度算法,并通...
【文章來源】:浙江工業(yè)大學(xué)浙江省
【文章頁數(shù)】:113 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Hadoop生態(tài)系統(tǒng)
圖 2-1 Hadoop 生態(tài)系統(tǒng)Figure 2-1. The ecological system of HadoopCommon。這是 Hadoop 的一個(gè)基礎(chǔ)模塊,為生態(tài)系統(tǒng)中其他模塊提供。HDFS。這是一個(gè)分布式文件系統(tǒng),是 Hadoop 的存儲(chǔ)模塊,采用流式數(shù)式來存儲(chǔ)超大文件。它包含一個(gè)管理節(jié)點(diǎn) NameNode 和多個(gè)工作節(jié)點(diǎn)Node。NameNode 負(fù)責(zé)管理文件系統(tǒng)命名空間,維護(hù)整個(gè)文件系統(tǒng)樹及有的文件和目錄;DataNode 負(fù)責(zé)完成 NameNode 安排的工作任務(wù),它存儲(chǔ)并檢索數(shù)據(jù)塊,并且定期向 NameNode 發(fā)送它們所存儲(chǔ)的塊列表。高容錯(cuò)、高可靠、高擴(kuò)展性等優(yōu)勢(shì),而且用戶不需要使用高昂可靠的硬運(yùn)行 Hadoop 平臺(tái),因此適用性很高。其客戶端讀寫數(shù)據(jù)的結(jié)構(gòu)如圖 2-2 HDFSSqoo讀請(qǐng)求
浙江工業(yè)大學(xué)碩士學(xué)位論文MapReduce。作為 Hadoop 核心模塊的 MapReduce,它的最大優(yōu)勢(shì)在于能夠屏蔽底層實(shí)現(xiàn)細(xì)節(jié),有效降低并行編程難度,提高編程效率[47]。它將數(shù)據(jù)操作分為多個(gè)數(shù)據(jù)塊的并行處理,通過Map和Reduce兩個(gè)函數(shù)實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的各種計(jì)算。采用 MapReduce 可以解決關(guān)系型數(shù)據(jù)庫管理系統(tǒng)在海量數(shù)據(jù)存儲(chǔ)中效率低下的問題,傳統(tǒng)關(guān)系型數(shù)據(jù)庫使用的數(shù)據(jù)結(jié)構(gòu),也就是 B 樹,由于需要使用“排序/合并”操作來重建數(shù)據(jù)庫時(shí)易受尋址速率的影響,使得效率明顯下降。而 MapReduce 比較適合解決需要以批處理方式分析整個(gè)數(shù)據(jù)集的問題。而且 MapReduce 對(duì)于非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)非常有效,因?yàn)樗窃谔幚頂?shù)據(jù)時(shí)才對(duì)數(shù)據(jù)進(jìn)行解釋的,這種模式不僅靈活而且避免了關(guān)系型數(shù)據(jù)庫管理系統(tǒng)在數(shù)據(jù)加載階段帶來的高開銷,因此可以說 MapReduce 是關(guān)系型數(shù)據(jù)庫管理系統(tǒng)的補(bǔ)充。MapReduce 的處理流程如圖 2-3 所示。[Combine]Shuffle
【參考文獻(xiàn)】:
期刊論文
[1]鐵路信號(hào)設(shè)備設(shè)施技術(shù)狀態(tài)大數(shù)據(jù)平臺(tái)的研究[J]. 李斌,陳姝. 鐵路通信信號(hào)工程技術(shù). 2019(04)
[2]使用虛擬機(jī)搭建Hadoop3.0集群安裝環(huán)境[J]. 楊云海,章芬芬. 現(xiàn)代信息科技. 2018(10)
[3]Hadoop研究及挑戰(zhàn)綜述[J]. 何思佑,王亞強(qiáng). 信息通信. 2018(10)
[4]開放互聯(lián)網(wǎng)中的學(xué)者畫像技術(shù)綜述[J]. 袁莎,唐杰,顧曉韜. 計(jì)算機(jī)研究與發(fā)展. 2018(09)
[5]基于Hadoop云計(jì)算平臺(tái)的數(shù)據(jù)處理研究[J]. 朱曉麗,鄧惠俊,陳小虎. 科技經(jīng)濟(jì)市場(chǎng). 2018(07)
[6]一種潛在投訴用戶畫像及智能優(yōu)化系統(tǒng)[J]. 王勝,劉滿. 信息通信. 2018(07)
[7]基于用戶軌跡數(shù)據(jù)的移動(dòng)推薦系統(tǒng)研究[J]. 孟祥武,李瑞昌,張玉潔,紀(jì)威宇. 軟件學(xué)報(bào). 2018(10)
[8]應(yīng)用數(shù)據(jù)挖掘技術(shù)在高校數(shù)字化校園建設(shè)中的研究[J]. 葉頔. 數(shù)碼世界. 2018(05)
[9]數(shù)據(jù)挖掘技術(shù)及其在醫(yī)療質(zhì)量管理中的應(yīng)用[J]. 鄭娟,許建強(qiáng). 醫(yī)學(xué)信息學(xué)雜志. 2018(03)
[10]數(shù)據(jù)挖掘常用算法及其在醫(yī)學(xué)大數(shù)據(jù)研究中的應(yīng)用[J]. 孫雪松,王曉麗. 中國數(shù)字醫(yī)學(xué). 2018(03)
碩士論文
[1]基于聚類技術(shù)的校園網(wǎng)絡(luò)用戶行為數(shù)據(jù)分析研究[D]. 李旭.山東師范大學(xué) 2016
[2]校園無線局域網(wǎng)用戶行為分析研究[D]. 堯婷娟.山東大學(xué) 2014
本文編號(hào):3410114
【文章來源】:浙江工業(yè)大學(xué)浙江省
【文章頁數(shù)】:113 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Hadoop生態(tài)系統(tǒng)
圖 2-1 Hadoop 生態(tài)系統(tǒng)Figure 2-1. The ecological system of HadoopCommon。這是 Hadoop 的一個(gè)基礎(chǔ)模塊,為生態(tài)系統(tǒng)中其他模塊提供。HDFS。這是一個(gè)分布式文件系統(tǒng),是 Hadoop 的存儲(chǔ)模塊,采用流式數(shù)式來存儲(chǔ)超大文件。它包含一個(gè)管理節(jié)點(diǎn) NameNode 和多個(gè)工作節(jié)點(diǎn)Node。NameNode 負(fù)責(zé)管理文件系統(tǒng)命名空間,維護(hù)整個(gè)文件系統(tǒng)樹及有的文件和目錄;DataNode 負(fù)責(zé)完成 NameNode 安排的工作任務(wù),它存儲(chǔ)并檢索數(shù)據(jù)塊,并且定期向 NameNode 發(fā)送它們所存儲(chǔ)的塊列表。高容錯(cuò)、高可靠、高擴(kuò)展性等優(yōu)勢(shì),而且用戶不需要使用高昂可靠的硬運(yùn)行 Hadoop 平臺(tái),因此適用性很高。其客戶端讀寫數(shù)據(jù)的結(jié)構(gòu)如圖 2-2 HDFSSqoo讀請(qǐng)求
浙江工業(yè)大學(xué)碩士學(xué)位論文MapReduce。作為 Hadoop 核心模塊的 MapReduce,它的最大優(yōu)勢(shì)在于能夠屏蔽底層實(shí)現(xiàn)細(xì)節(jié),有效降低并行編程難度,提高編程效率[47]。它將數(shù)據(jù)操作分為多個(gè)數(shù)據(jù)塊的并行處理,通過Map和Reduce兩個(gè)函數(shù)實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的各種計(jì)算。采用 MapReduce 可以解決關(guān)系型數(shù)據(jù)庫管理系統(tǒng)在海量數(shù)據(jù)存儲(chǔ)中效率低下的問題,傳統(tǒng)關(guān)系型數(shù)據(jù)庫使用的數(shù)據(jù)結(jié)構(gòu),也就是 B 樹,由于需要使用“排序/合并”操作來重建數(shù)據(jù)庫時(shí)易受尋址速率的影響,使得效率明顯下降。而 MapReduce 比較適合解決需要以批處理方式分析整個(gè)數(shù)據(jù)集的問題。而且 MapReduce 對(duì)于非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)非常有效,因?yàn)樗窃谔幚頂?shù)據(jù)時(shí)才對(duì)數(shù)據(jù)進(jìn)行解釋的,這種模式不僅靈活而且避免了關(guān)系型數(shù)據(jù)庫管理系統(tǒng)在數(shù)據(jù)加載階段帶來的高開銷,因此可以說 MapReduce 是關(guān)系型數(shù)據(jù)庫管理系統(tǒng)的補(bǔ)充。MapReduce 的處理流程如圖 2-3 所示。[Combine]Shuffle
【參考文獻(xiàn)】:
期刊論文
[1]鐵路信號(hào)設(shè)備設(shè)施技術(shù)狀態(tài)大數(shù)據(jù)平臺(tái)的研究[J]. 李斌,陳姝. 鐵路通信信號(hào)工程技術(shù). 2019(04)
[2]使用虛擬機(jī)搭建Hadoop3.0集群安裝環(huán)境[J]. 楊云海,章芬芬. 現(xiàn)代信息科技. 2018(10)
[3]Hadoop研究及挑戰(zhàn)綜述[J]. 何思佑,王亞強(qiáng). 信息通信. 2018(10)
[4]開放互聯(lián)網(wǎng)中的學(xué)者畫像技術(shù)綜述[J]. 袁莎,唐杰,顧曉韜. 計(jì)算機(jī)研究與發(fā)展. 2018(09)
[5]基于Hadoop云計(jì)算平臺(tái)的數(shù)據(jù)處理研究[J]. 朱曉麗,鄧惠俊,陳小虎. 科技經(jīng)濟(jì)市場(chǎng). 2018(07)
[6]一種潛在投訴用戶畫像及智能優(yōu)化系統(tǒng)[J]. 王勝,劉滿. 信息通信. 2018(07)
[7]基于用戶軌跡數(shù)據(jù)的移動(dòng)推薦系統(tǒng)研究[J]. 孟祥武,李瑞昌,張玉潔,紀(jì)威宇. 軟件學(xué)報(bào). 2018(10)
[8]應(yīng)用數(shù)據(jù)挖掘技術(shù)在高校數(shù)字化校園建設(shè)中的研究[J]. 葉頔. 數(shù)碼世界. 2018(05)
[9]數(shù)據(jù)挖掘技術(shù)及其在醫(yī)療質(zhì)量管理中的應(yīng)用[J]. 鄭娟,許建強(qiáng). 醫(yī)學(xué)信息學(xué)雜志. 2018(03)
[10]數(shù)據(jù)挖掘常用算法及其在醫(yī)學(xué)大數(shù)據(jù)研究中的應(yīng)用[J]. 孫雪松,王曉麗. 中國數(shù)字醫(yī)學(xué). 2018(03)
碩士論文
[1]基于聚類技術(shù)的校園網(wǎng)絡(luò)用戶行為數(shù)據(jù)分析研究[D]. 李旭.山東師范大學(xué) 2016
[2]校園無線局域網(wǎng)用戶行為分析研究[D]. 堯婷娟.山東大學(xué) 2014
本文編號(hào):3410114
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3410114.html
最近更新
教材專著