天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于Hadoop平臺的分布式web日志分析系統(tǒng)的研究與實現(xiàn)

發(fā)布時間:2018-11-04 14:52
【摘要】:伴隨科技進步以及互聯(lián)網(wǎng)日新月異的發(fā)展,互聯(lián)網(wǎng)與人們的生活聯(lián)系的越來越緊密。運行于互聯(lián)網(wǎng)的網(wǎng)站每天會產(chǎn)生大量日志信息,人們的訪問記錄都保存在web日志中。分析日志數(shù)據(jù)成為了解網(wǎng)站運營情況、用戶訪問規(guī)律等信息的重要手段,挖掘其中有價值的信息有利于企業(yè)為用戶提供更好更方便的服務(wù)。目前多數(shù)日志分析系統(tǒng)還是單機的,面對海量web日志數(shù)據(jù),無論是性能還是存儲容量都無法勝任。為了滿足大數(shù)據(jù)分析的需求,涌現(xiàn)了很多的數(shù)據(jù)處理方案,尤其是以Hadoop為代表的云計算技術(shù),強大的分布式存儲及計算能力,為海量web日志的存儲及分析提供了很好平臺。本文首先介紹了分布式技術(shù)的發(fā)展狀況,同時對當前web日志挖掘的背景做了描述。然后對Hadoop核心組件HDFS和MapReduce,Hive數(shù)據(jù)倉庫進行研究。深入研究了 HDFS分布式文件系統(tǒng)下數(shù)據(jù)的存儲原理,數(shù)據(jù)的訪問模式和系統(tǒng)的容錯機制和MapReduee并行計算框架的編程模型。然后為web日志分析系統(tǒng)建立合適的業(yè)務(wù)數(shù)據(jù)處理模型,并在Hadoop平臺上設(shè)計高效的web日志分析系統(tǒng)。系統(tǒng)主要包括日志存儲、日志收集、日志預處理、關(guān)鍵指標統(tǒng)計、日志挖掘五個模塊。日志存儲采用HDFS與MySQL相結(jié)合的方式,HDFS存儲原始日志以及清洗后的日志。日志的預處理采用MapReduce并行化的方式對包含噪聲的數(shù)據(jù)清洗標準化。指標統(tǒng)計使用Hive數(shù)據(jù)倉庫的HQL腳本對網(wǎng)站運營情況進行分析。日志挖掘使用在MapReduce平臺改進的K-means算法對注冊用戶聚類分析,提高了算法在處理海量數(shù)據(jù)時的效率。最后通過系統(tǒng)測試證明,基于Hadoop的web日志分析系統(tǒng)在收集、處理、存儲、挖掘方面相比傳統(tǒng)單機處理有很大改進,不僅減少了開發(fā)人員工作量同時還提高了系統(tǒng)效率。
[Abstract]:With the progress of science and technology and the rapid development of the Internet, the Internet and people's lives are more and more closely linked. Web sites running on the Internet generate a lot of log information every day, and people's access records are kept in web logs. The analysis of log data becomes an important means to understand the website operation, user access rules and other information, mining valuable information is conducive to enterprises to provide users with better and more convenient services. At present, most log analysis systems are single machine. In the face of massive web log data, both performance and storage capacity are not competent. In order to meet the needs of big data's analysis, many data processing schemes have emerged, especially the cloud computing technology represented by Hadoop, and the powerful distributed storage and computing ability, which provides a good platform for the storage and analysis of massive web logs. This paper first introduces the development of distributed technology and describes the background of current web log mining. Then the HDFS and MapReduce,Hive data warehouse, the core components of Hadoop, are studied. The principle of data storage in HDFS distributed file system, the access mode of data, the fault-tolerant mechanism of the system and the programming model of MapReduee parallel computing framework are studied in detail. Then a suitable business data processing model is established for the web log analysis system, and an efficient web log analysis system is designed on the Hadoop platform. The system mainly includes five modules: log storage, log collection, log preprocessing, key index statistics and log mining. Log storage adopts the combination of HDFS and MySQL, and HDFS stores the original log and the cleaned log. Log preprocessing uses MapReduce parallelization to standardize data cleaning with noise. Index statistics using Hive data warehouse HQL script to analyze the operation of the site. Log mining uses the improved K-means algorithm in MapReduce platform to analyze the clustering of registered users, which improves the efficiency of the algorithm in dealing with massive data. Finally, it is proved by system test that the web log analysis system based on Hadoop has great improvement in collection, processing, storage and mining, which not only reduces the workload of developers, but also improves the efficiency of the system.
【學位授予單位】:西南石油大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP311.13

【參考文獻】

相關(guān)期刊論文 前10條

1 何非;何克清;;大數(shù)據(jù)及其科學問題與方法的探討[J];武漢大學學報(理學版);2014年01期

2 余琦;凌捷;;基于HDFS的云存儲安全技術(shù)研究[J];計算機工程與設(shè)計;2013年08期

3 高洪;楊慶平;黃震江;;基于Hadoop平臺的大數(shù)據(jù)分析關(guān)鍵技術(shù)標準化探討[J];信息技術(shù)與標準化;2013年05期

4 周婷;張君瑛;羅成;;基于Hadoop的K-means聚類算法的實現(xiàn)[J];計算機技術(shù)與發(fā)展;2013年07期

5 孟小峰;慈祥;;大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J];計算機研究與發(fā)展;2013年01期

6 李國杰;程學旗;;大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學思考[J];中國科學院院刊;2012年06期

7 李超;梁阿磊;管海兵;李小勇;;海量存儲系統(tǒng)的性能管理與監(jiān)測方法研究[J];計算機應用與軟件;2012年07期

8 李建江;崔健;王聃;嚴林;黃義雙;;MapReduce并行編程模型研究綜述[J];電子學報;2011年11期

9 劉永增;張曉景;李先毅;;基于Hadoop/Hive的web日志分析系統(tǒng)的設(shè)計[J];廣西大學學報(自然科學版);2011年S1期

10 張世樂;魏芳;費仲超;;基于代理的互聯(lián)網(wǎng)用戶行為分析研究[J];計算機應用與軟件;2011年08期

相關(guān)碩士學位論文 前10條

1 蔡大威;基于Hadoop和Hama平臺的并行算法研究[D];浙江大學;2013年

2 李鑫;Hadoop框架的擴展和性能調(diào)優(yōu)[D];西安建筑科技大學;2012年

3 周津;互聯(lián)網(wǎng)中的海量用戶行為挖掘算法研究[D];中國科學技術(shù)大學;2011年

4 白云龍;基于Hadoop的數(shù)據(jù)挖掘算法研究與實現(xiàn)[D];北京郵電大學;2011年

5 楊宸鑄;基于HADOOP的數(shù)據(jù)挖掘研究[D];重慶大學;2010年

6 李應安;基于MapReduce的聚類算法的并行化研究[D];中山大學;2010年

7 曾理;Hadoop的重復數(shù)據(jù)清理模型研究與實現(xiàn)[D];南華大學;2010年

8 張密密;MapReduce模型在Hadoop實現(xiàn)中的性能分析及改進優(yōu)化[D];電子科技大學;2010年

9 李亭楓;面向網(wǎng)絡(luò)用戶行為模式發(fā)現(xiàn)的數(shù)據(jù)挖掘技術(shù)探索[D];電子科技大學;2010年

10 鄭韞e,

本文編號:2310163


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2310163.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶528df***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产在线不卡中文字幕| 中文久久乱码一区二区| 精品少妇一区二区视频| 亚洲欧美黑人一区二区| 区一区二区三中文字幕| 久热99中文字幕视频在线| 国产在线一区二区三区不卡| 精品亚洲一区二区三区w竹菊| 精品人妻一区二区三区四在线| 91精品欧美综合在ⅹ| 日韩精品成区中文字幕| 国产午夜精品福利免费不| 成人精品欧美一级乱黄| 在线中文字幕亚洲欧美一区| 亚洲免费视频中文字幕在线观看| 麻豆看片麻豆免费视频| 日韩和欧美的一区二区三区 | 日本 一区二区 在线| 免费精品国产日韩热久久| 色婷婷视频在线精品免费观看| 国产精品流白浆无遮挡| 日韩在线免费看中文字幕| 亚洲一区二区三区av高清| 日本黄色录像韩国黄色录像| 免费人妻精品一区二区三区久久久| 国产高清在线不卡一区| 高清国产日韩欧美熟女| 中文字幕一区二区免费| 欧美国产日本免费不卡| 欧美一区二区三区五月婷婷| 日韩中文高清在线专区| 国产免费一区二区不卡| 激情五月综五月综合网| 人妻久久这里只有精品| 成人欧美一区二区三区视频| 人人妻人人澡人人夜夜| 国产精品不卡免费视频| 国产一区二区三区不卡| 大香蕉伊人一区二区三区| 亚洲国产精品久久综合网| 欧美人妻少妇精品久久性色|