天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于大數(shù)據(jù)平臺的電信用戶行為日志分析研究

發(fā)布時間:2019-01-24 13:48
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)不斷快速深入發(fā)展,許多大型企業(yè)、機構(gòu)及政府部門持續(xù)獲得了各種海量Web日志數(shù)據(jù),而Web日志中記錄了用戶的行為及具體的消費情況,對網(wǎng)站的建設(shè)及特定商品的推廣并提供精確的服務(wù)具有非常重要的指導(dǎo)意義。當(dāng)今對Web日志分析的要求是持續(xù)變化和增加的,同時在分析Web日志時也要求具有一定的快捷性和準(zhǔn)確性,然而如何預(yù)處理海量日志,如何存儲海量數(shù)據(jù),如何獲取有效的信息成為學(xué)術(shù)界和商業(yè)界重點研究的內(nèi)容,F(xiàn)今,人們的生活離不開網(wǎng)絡(luò),而生活中的各種需求基本上都是通過訪問網(wǎng)站來實現(xiàn),因此各個企業(yè)為了獲得用戶的顯性需求和隱性需求,深入挖掘用戶的網(wǎng)絡(luò)行為習(xí)慣已形成一門重點關(guān)注的學(xué)科。因為訪問網(wǎng)站的用戶越來越多,所產(chǎn)生的數(shù)據(jù)也迅速增長,如何預(yù)處理和存儲海量數(shù)據(jù),并從中獲取有效的數(shù)據(jù)成為了另一個挑戰(zhàn)。根據(jù)人們的研究成果,目前基于Hadoop的相關(guān)技術(shù)是解決大數(shù)據(jù)問題最適合的方法和工具。原始Web日志中的數(shù)據(jù)是不一致的、缺陷的、含有大量臟數(shù)據(jù)和噪聲,假如不通過數(shù)據(jù)采集和預(yù)處理過程對其進(jìn)行過濾和篩選,會使數(shù)據(jù)分析階段的工作量增大,甚至可能造成錯誤的結(jié)果。所以,在對數(shù)據(jù)進(jìn)行分析之前應(yīng)先對Web日志實行采集和預(yù)處理操作。每天電信系統(tǒng)都會產(chǎn)生海量的Web日志數(shù)據(jù),單節(jié)點數(shù)據(jù)處理和傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已不能滿足其需求,對于怎樣存儲海量電信數(shù)據(jù)成為必要的研究課題。Web日志的挖掘需要通過算法來實現(xiàn),因此算法的選取和設(shè)計也是關(guān)鍵之處。本文對基于電信系統(tǒng)的Web日志進(jìn)行研究,其內(nèi)容主要包含以下幾點:1)Web日志的采集預(yù)處理Web日志采集和預(yù)處理是Web日志挖掘的前提條件,其作用是為后續(xù)數(shù)據(jù)分析提供準(zhǔn)確的日志文件。而原有的Web日志中存在大量噪聲和不一致的信息,因此對其進(jìn)行采集和預(yù)處理操作是很有必要的。然而,隨著用戶訪問數(shù)量的急劇增長,大量高并發(fā)的數(shù)據(jù)給Web預(yù)處理操作帶來了巨大的挑戰(zhàn)。本文提出了一種基于MapReduce的Web日志預(yù)處理機制,能更好的提高日志數(shù)據(jù)采集預(yù)處理階段的效率,并最大限度的利用計算機硬件資源,從而降低不必要的資源浪費。2)Web日志的數(shù)據(jù)存儲由于電信用戶和網(wǎng)站的訪問量在不斷增加,Web日志也在每日劇增,傳統(tǒng)的數(shù)據(jù)存儲技術(shù)存在成本高、運行繁雜、擴展性極低等諸多不足。本文將采用HDFS和Hbase的組合來實現(xiàn),并充分利用Hadoop集群的分布式存儲優(yōu)勢。3)電信系統(tǒng)日志挖掘及聚類算法的改進(jìn)數(shù)據(jù)挖掘作為大數(shù)據(jù)技術(shù)的核心問題之一,面臨著計算復(fù)雜度高和計算能力不足等問題,本系統(tǒng)中應(yīng)用了一種基于Hadoop的分布式改進(jìn)聚類算法即CFK-means聚類算法。本算法是對K-means聚類算法的一種改進(jìn),本文通過實驗結(jié)果闡明該聚類算法具有良好的可移植性和準(zhǔn)確性。本文通過搭建一個模擬電信系統(tǒng)日志分析大數(shù)據(jù)平臺,驗證MapReduce并行化在Web日志采集和預(yù)處理階段的高效性,HDFS和Hbase組合在數(shù)據(jù)存儲中的高擴展性,通過多次對比實驗結(jié)果分析,驗證本文中CFK-means聚類算法的準(zhǔn)確性和快捷性。本文通過對電信系統(tǒng)的日志分析,挖掘出用戶的行為信息,通過分析用戶訪問網(wǎng)站的行為特點,幫助電信運營商制定合理的套餐和推薦信息。
[Abstract]:......
【學(xué)位授予單位】:成都理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:F626;TP311.13

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 周潤物;李智勇;陳少淼;陳京;李仁發(fā);;面向大數(shù)據(jù)處理的并行優(yōu)化抽樣聚類K-means算法[J];計算機應(yīng)用;2016年02期

2 吳韶鴻;;信息通信領(lǐng)先廠商多管齊下發(fā)展大數(shù)據(jù)[J];世界電信;2014年Z1期

3 毛嚴(yán)奇;彭沛夫;;基于MapReduce的Web日志挖掘預(yù)處理[J];計算機與現(xiàn)代化;2013年09期

4 周峰;李龍澍;;結(jié)合蟻群聚類算法的模糊C均值聚類[J];計算機技術(shù)與發(fā)展;2012年07期

5 李建江;崔健;王聃;嚴(yán)林;黃義雙;;MapReduce并行編程模型研究綜述[J];電子學(xué)報;2011年11期

6 劉永增;張曉景;李先毅;;基于Hadoop/Hive的web日志分析系統(tǒng)的設(shè)計[J];廣西大學(xué)學(xué)報(自然科學(xué)版);2011年S1期

7 仝雪姣;孟凡榮;王志曉;;對k-means初始聚類中心的優(yōu)化[J];計算機工程與設(shè)計;2011年08期

8 李喬;鄭嘯;;云計算研究現(xiàn)狀綜述[J];計算機科學(xué);2011年04期

9 張建勛;古志民;鄭超;;云計算研究進(jìn)展綜述[J];計算機應(yīng)用研究;2010年02期

10 吳海燕;朱靖君;程志銳;戚麗;;Web日志集中管理系統(tǒng)的研究與實現(xiàn)[J];實驗技術(shù)與管理;2008年07期

相關(guān)碩士學(xué)位論文 前6條

1 宋園園;基于Hadoop的Web日志存儲及預(yù)處理優(yōu)化研究[D];河北工程大學(xué);2016年

2 周海靖;日志大數(shù)據(jù)分析平臺技術(shù)研究[D];山東大學(xué);2015年

3 婁乾;用電計量裝置在線監(jiān)測與診斷系統(tǒng)的研究與開發(fā)[D];華北電力大學(xué);2015年

4 肖俊良;基于云計算的WEB日志分析系統(tǒng)的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年

5 李榮榮;基于Hadoop平臺的日志分析系統(tǒng)[D];復(fù)旦大學(xué);2013年

6 孫寅林;基于分布式計算平臺的海量日志分析系統(tǒng)的設(shè)計與實現(xiàn)[D];西安電子科技大學(xué);2012年



本文編號:2414534

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/xxjj/2414534.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7d7b1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com