【摘要】:近幾年,云計(jì)算飛速發(fā)展,大數(shù)據(jù)處理技術(shù)也在不斷成熟。與此同時(shí),隨著國(guó)內(nèi)移動(dòng)互聯(lián)網(wǎng)市場(chǎng)規(guī)模不斷擴(kuò)大,用戶(hù)數(shù)量也隨之快速增長(zhǎng),并帶來(lái)了海量的移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)。但大部分?jǐn)?shù)據(jù)仍處于沉睡狀態(tài),基于此,如何利用大數(shù)據(jù)處理技術(shù)來(lái)承載海量網(wǎng)絡(luò)數(shù)據(jù)處理業(yè)務(wù),挖掘其潛在的應(yīng)用價(jià)值,為用戶(hù)提供個(gè)性化的服務(wù),成為亟需解決的問(wèn)題。針對(duì)網(wǎng)絡(luò)海量數(shù)據(jù)處于待開(kāi)發(fā)的狀態(tài),該技術(shù)主要面向應(yīng)用開(kāi)發(fā)商,對(duì)其產(chǎn)品在各種不同終端設(shè)備上用戶(hù)產(chǎn)生的行為數(shù)據(jù),利用大數(shù)據(jù)處理技術(shù)對(duì)其進(jìn)行收集、清洗、過(guò)濾出有價(jià)值的信息,統(tǒng)計(jì)分析用戶(hù)所需的各種信息,對(duì)應(yīng)用開(kāi)發(fā)商的一些決策提供比較可靠的數(shù)據(jù)支持。為了解決與日俱增的應(yīng)用訪問(wèn)日志的存儲(chǔ)與處理的問(wèn)題,該平臺(tái)采用“分布式”的框架,利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)系統(tǒng)的功能。該分析技術(shù)主要包括數(shù)據(jù)采集落地模塊,通過(guò)自主開(kāi)發(fā)的SDK實(shí)時(shí)采集數(shù)據(jù)+Nginx服務(wù)器實(shí)現(xiàn)數(shù)據(jù)落地的處理;數(shù)據(jù)收集和聚合模塊模塊,通過(guò)Flume的二次開(kāi)發(fā)實(shí)現(xiàn)數(shù)據(jù)的非重復(fù)、無(wú)丟失收集到Kafka,進(jìn)而將數(shù)據(jù)存儲(chǔ)在HDFS上;hive數(shù)據(jù)清洗模塊,自定義UDTF函數(shù)實(shí)現(xiàn)日志聚合體的拆分,中間結(jié)果通過(guò)Sqoop導(dǎo)出到MySql中;數(shù)據(jù)分析,Hive和Spark結(jié)合實(shí)現(xiàn)數(shù)據(jù)的離線分析、spark streaming實(shí)現(xiàn)準(zhǔn)實(shí)時(shí)分析;azkaban job調(diào)度模塊實(shí)現(xiàn)作業(yè)的定期調(diào)度等。本文所介紹的基于聚類(lèi)的網(wǎng)站訪問(wèn)數(shù)據(jù)分析技術(shù)及實(shí)現(xiàn)已經(jīng)經(jīng)過(guò)詳盡的系統(tǒng)測(cè)試,包含硬件、軟件環(huán)境和功能性的測(cè)試,現(xiàn)在已正式投入使用。
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:TP311.13;TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 董春濤;李文婷;沈晴霓;吳中海;;Hadoop YARN大數(shù)據(jù)計(jì)算框架及其資源調(diào)度機(jī)制研究[J];信息通信技術(shù);2015年01期
2 何非;何克清;;大數(shù)據(jù)及其科學(xué)問(wèn)題與方法的探討[J];武漢大學(xué)學(xué)報(bào)(理學(xué)版);2014年01期
3 李建江;崔健;王聃;嚴(yán)林;黃義雙;;MapReduce并行編程模型研究綜述[J];電子學(xué)報(bào);2011年11期
4 薛潔;劉希玉;;數(shù)據(jù)挖掘技術(shù)與網(wǎng)上購(gòu)物推薦系統(tǒng)[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2011年03期
5 楊道衡;;數(shù)據(jù)挖掘與數(shù)據(jù)挖掘服務(wù)實(shí)現(xiàn)研究[J];現(xiàn)代商貿(mào)工業(yè);2010年17期
6 趙瑩瑩;韓元杰;;Web日志數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理模型的研究與建立[J];現(xiàn)代電子技術(shù);2007年04期
7 王凱;渠芳;王輝;;利用Web挖掘技術(shù)實(shí)現(xiàn)個(gè)性化推送服務(wù)[J];情報(bào)雜志;2006年11期
8 張春紅;;淺談頁(yè)面置換算法之LRU算法[J];廊坊師范學(xué)院學(xué)報(bào);2006年04期
,
本文編號(hào):
2620641
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2620641.html