基于Hadoop的用戶搜索行為分析系統(tǒng)的研究與實現(xiàn)
發(fā)布時間:2021-02-01 17:01
當(dāng)下我們處在科技創(chuàng)新的DT時代,網(wǎng)絡(luò)用戶的數(shù)量暴增,用戶每天訪問互聯(lián)網(wǎng)產(chǎn)生的信息量巨大,其中主要為用戶搜索時產(chǎn)生的信息。據(jù)統(tǒng)計移動互聯(lián)網(wǎng)每分鐘增加217名新用戶,Google每分鐘產(chǎn)生240萬新的搜索請求,如何處理這些海量的搜索日志信息,如何從獲得的搜索日志信息中根據(jù)用戶的行為數(shù)據(jù),挖掘出一些潛在的有商業(yè)價值的信息,吸引著許多公司,許多企業(yè)。目前用戶搜索行為分析面臨兩方面的挑戰(zhàn)。一方面是如何快速有效的處理和存儲海量的日志信息,另一方面就是如何為商家提供合適的平臺,使之通過該平臺能夠滿足公司和企業(yè)的需求,抓住用戶的心理特征,興趣特點,制定更為精準(zhǔn)的營銷策略。基于以上現(xiàn)狀分析總結(jié)后,本文設(shè)計了一個用戶搜索行為分析平臺,此平臺使用分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop與并行計算模型MapReduce,結(jié)合相關(guān)聚類算法實現(xiàn)了對海量日志數(shù)據(jù)的行為規(guī)律的深度挖掘。本文的主要工作如下:(1)通過與傳統(tǒng)方式對海量日志數(shù)據(jù)的處理比較,本文采用以Hadoop為平臺,以MapReduce為計算框架,使用HDFS分布式文件系統(tǒng)來存儲海量日志數(shù)據(jù),解決了海量數(shù)據(jù)的存儲問題。(2)根據(jù)系統(tǒng)的業(yè)務(wù)需求,本文按照Web文本挖...
【文章來源】:遼寧大學(xué)遼寧省 211工程院校
【文章頁數(shù)】:84 頁
【學(xué)位級別】:碩士
【部分圖文】:
012-2018年上半年中國搜索用戶規(guī)模及占比走勢圖
第 2 章 相關(guān)技術(shù)介紹第 2 章 相關(guān)技術(shù)介紹2.1 Hadoop 框架Apache Hadoop 是一款開源框架,可以搭建服務(wù)器集群環(huán)境,把運行在單臺機(jī)器上的程序擴(kuò)展到多臺機(jī)器上,實現(xiàn)程序的并行運行,同時,海量數(shù)據(jù)的分布式處理在這個框架上得以實現(xiàn)?梢宰層脩魧崿F(xiàn)跨平臺運算,可以運行在Linux 和 Windows 系統(tǒng)上,Hadoop 的構(gòu)成較為復(fù)雜,HDFS 和 MapReduce 屬于核心部分。MapReduce(分布式計算模型)引擎位于 Hive(數(shù)據(jù)倉庫)和 Pig(數(shù)據(jù)流處理)下層,可對數(shù)據(jù)提供計算功能。它的下一層是 HDFS(分布式文件系統(tǒng))提供對海量數(shù)據(jù)的存儲功能。MapReduce 的過程主要是對整個大的任務(wù)切分,分成多個小任務(wù),分配到多個節(jié)點上運行。Hadoop 生態(tài)圈還包含很多內(nèi)容,如圖 2-1 所示:
圖 2-2 MapReduce 過程流程圖2.1.3 HDFSHDFS(Hadoop Distributed FileSystem)分布式文件系統(tǒng),它是一個可以對文件進(jìn)行分塊存儲的系統(tǒng),給客戶端提供了一個統(tǒng)一的抽象目錄樹,目錄樹是它的命名空間。HDFS 作為 Hadoop 的子項目,繼承了 Hadoop 的分布式特點,被設(shè)計用于大吞吐量數(shù)據(jù),它設(shè)計的本質(zhì)就是為了大量的數(shù)據(jù)能夠橫跨成千上萬臺機(jī)器存儲,但是對于用戶來說看到的是一個文件系統(tǒng)而不是許多文件系統(tǒng)。比如說你要獲取 /hdfs/tmp/aaa 的數(shù)據(jù),雖然使用的是一個路徑,但找個文件的數(shù)據(jù)可能存放在很多臺不同的機(jī)器上。作為用戶來說不需要知道數(shù)據(jù)到底存儲在哪兒,就像你在單機(jī)上并不關(guān)心到底存儲在磁盤那個扇區(qū)一樣,這些數(shù)據(jù)交由 HDFS 管理,用戶則應(yīng)該更加關(guān)注于數(shù)據(jù)的使用和處理。HDFS 的工作原理:HDFS 集群分為 NameNode 和 DataNode(SecondnaryNamenode)兩個角色,前者是管理節(jié)點,用來存儲元數(shù)據(jù),文件按照指定規(guī)模的
【參考文獻(xiàn)】:
期刊論文
[1]聚類算法綜述[J]. 章永來,周耀鑒. 計算機(jī)應(yīng)用. 2019(07)
[2]搜索日志分析研究述評[J]. 王淼. 電腦知識與技術(shù). 2018(32)
[3]電商企業(yè)基于大數(shù)據(jù)精準(zhǔn)營銷的策略研討[J]. 王利冬. 中外企業(yè)家. 2018(25)
[4]基于大數(shù)據(jù)技術(shù)的制造企業(yè)商業(yè)模式創(chuàng)新[J]. 陳學(xué)武,肖港. 經(jīng)貿(mào)實踐. 2018(08)
[5]大數(shù)據(jù)日志分析平臺應(yīng)用探索與實踐[J]. 胡沐創(chuàng). 金融科技時代. 2018(01)
[6]基于云計算平臺Hadoop的并行k-means聚類算法設(shè)計研究[J]. 李莉. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2017(12)
[7]大規(guī)模查詢?nèi)罩痉治瞿P蜆?gòu)建機(jī)制[J]. 王逸兮,馮浩,劉芬. 數(shù)字通信世界. 2017(11)
[8]大數(shù)據(jù)時代下商業(yè)模式創(chuàng)新探究[J]. 張金忠. 中國市場. 2016(46)
[9]基于數(shù)據(jù)挖掘技術(shù)的電子商務(wù)推薦系統(tǒng)研究[J]. 郭鵬. 黑龍江科學(xué). 2016(08)
[10]基于Hadoop云計算平臺的文本處理算法的研究與改進(jìn)[J]. 陳靜. 天津科技. 2016(01)
本文編號:3013122
【文章來源】:遼寧大學(xué)遼寧省 211工程院校
【文章頁數(shù)】:84 頁
【學(xué)位級別】:碩士
【部分圖文】:
012-2018年上半年中國搜索用戶規(guī)模及占比走勢圖
第 2 章 相關(guān)技術(shù)介紹第 2 章 相關(guān)技術(shù)介紹2.1 Hadoop 框架Apache Hadoop 是一款開源框架,可以搭建服務(wù)器集群環(huán)境,把運行在單臺機(jī)器上的程序擴(kuò)展到多臺機(jī)器上,實現(xiàn)程序的并行運行,同時,海量數(shù)據(jù)的分布式處理在這個框架上得以實現(xiàn)?梢宰層脩魧崿F(xiàn)跨平臺運算,可以運行在Linux 和 Windows 系統(tǒng)上,Hadoop 的構(gòu)成較為復(fù)雜,HDFS 和 MapReduce 屬于核心部分。MapReduce(分布式計算模型)引擎位于 Hive(數(shù)據(jù)倉庫)和 Pig(數(shù)據(jù)流處理)下層,可對數(shù)據(jù)提供計算功能。它的下一層是 HDFS(分布式文件系統(tǒng))提供對海量數(shù)據(jù)的存儲功能。MapReduce 的過程主要是對整個大的任務(wù)切分,分成多個小任務(wù),分配到多個節(jié)點上運行。Hadoop 生態(tài)圈還包含很多內(nèi)容,如圖 2-1 所示:
圖 2-2 MapReduce 過程流程圖2.1.3 HDFSHDFS(Hadoop Distributed FileSystem)分布式文件系統(tǒng),它是一個可以對文件進(jìn)行分塊存儲的系統(tǒng),給客戶端提供了一個統(tǒng)一的抽象目錄樹,目錄樹是它的命名空間。HDFS 作為 Hadoop 的子項目,繼承了 Hadoop 的分布式特點,被設(shè)計用于大吞吐量數(shù)據(jù),它設(shè)計的本質(zhì)就是為了大量的數(shù)據(jù)能夠橫跨成千上萬臺機(jī)器存儲,但是對于用戶來說看到的是一個文件系統(tǒng)而不是許多文件系統(tǒng)。比如說你要獲取 /hdfs/tmp/aaa 的數(shù)據(jù),雖然使用的是一個路徑,但找個文件的數(shù)據(jù)可能存放在很多臺不同的機(jī)器上。作為用戶來說不需要知道數(shù)據(jù)到底存儲在哪兒,就像你在單機(jī)上并不關(guān)心到底存儲在磁盤那個扇區(qū)一樣,這些數(shù)據(jù)交由 HDFS 管理,用戶則應(yīng)該更加關(guān)注于數(shù)據(jù)的使用和處理。HDFS 的工作原理:HDFS 集群分為 NameNode 和 DataNode(SecondnaryNamenode)兩個角色,前者是管理節(jié)點,用來存儲元數(shù)據(jù),文件按照指定規(guī)模的
【參考文獻(xiàn)】:
期刊論文
[1]聚類算法綜述[J]. 章永來,周耀鑒. 計算機(jī)應(yīng)用. 2019(07)
[2]搜索日志分析研究述評[J]. 王淼. 電腦知識與技術(shù). 2018(32)
[3]電商企業(yè)基于大數(shù)據(jù)精準(zhǔn)營銷的策略研討[J]. 王利冬. 中外企業(yè)家. 2018(25)
[4]基于大數(shù)據(jù)技術(shù)的制造企業(yè)商業(yè)模式創(chuàng)新[J]. 陳學(xué)武,肖港. 經(jīng)貿(mào)實踐. 2018(08)
[5]大數(shù)據(jù)日志分析平臺應(yīng)用探索與實踐[J]. 胡沐創(chuàng). 金融科技時代. 2018(01)
[6]基于云計算平臺Hadoop的并行k-means聚類算法設(shè)計研究[J]. 李莉. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2017(12)
[7]大規(guī)模查詢?nèi)罩痉治瞿P蜆?gòu)建機(jī)制[J]. 王逸兮,馮浩,劉芬. 數(shù)字通信世界. 2017(11)
[8]大數(shù)據(jù)時代下商業(yè)模式創(chuàng)新探究[J]. 張金忠. 中國市場. 2016(46)
[9]基于數(shù)據(jù)挖掘技術(shù)的電子商務(wù)推薦系統(tǒng)研究[J]. 郭鵬. 黑龍江科學(xué). 2016(08)
[10]基于Hadoop云計算平臺的文本處理算法的研究與改進(jìn)[J]. 陳靜. 天津科技. 2016(01)
本文編號:3013122
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3013122.html
最近更新
教材專著