基于Hadoop的云平臺(tái)在海量Web數(shù)據(jù)分析中的應(yīng)用研究
發(fā)布時(shí)間:2022-01-10 05:49
隨著社會(huì)的進(jìn)步和Internet技術(shù)的發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)規(guī)模日漸龐大,Web已成為全球最大的數(shù)據(jù)倉(cāng)庫(kù),無(wú)論是企業(yè)還是個(gè)人都面臨如何有效管理海量Web數(shù)據(jù)的難題。傳統(tǒng)數(shù)據(jù)處理方法存在成本過(guò)高、可靠性較低、編寫(xiě)并行處理程序困難等諸多缺點(diǎn)�;陂_(kāi)放源代碼的Hadoop并行處理框架能夠有效、可靠、智能的管理海量Web數(shù)據(jù)。為了提高傳統(tǒng)單一節(jié)點(diǎn)在海量Web數(shù)據(jù)分析和挖掘中存在時(shí)間和空間效率,通過(guò)分析Hadoop云計(jì)算開(kāi)源平臺(tái)技術(shù)的國(guó)內(nèi)外研究現(xiàn)狀和發(fā)展趨勢(shì),基于Hadoop開(kāi)源框架分布式文件系統(tǒng)(HDFS)和Map/Reduce編程模型,研究了海量Web日志性能指標(biāo)和一種Web挖掘算法的Map/Reduce化過(guò)程,設(shè)計(jì)了海量Web數(shù)據(jù)分析系統(tǒng)架構(gòu),搭建了Hadoop開(kāi)發(fā)平臺(tái),實(shí)現(xiàn)了一個(gè)分布式的海量Web數(shù)據(jù)分析系統(tǒng)的開(kāi)發(fā)。該系統(tǒng)集成了數(shù)據(jù)和應(yīng)用,并通過(guò)Hadoop的應(yīng)用程序編程接口(API)連接到Eclipse中,利用Maven管理和構(gòu)建Hadoop項(xiàng)目,實(shí)現(xiàn)任務(wù)之間的共享操作。通過(guò)在虛擬機(jī)搭建了4個(gè)節(jié)點(diǎn)的Hadoop集群環(huán)境系統(tǒng)測(cè)試平臺(tái),測(cè)試分析了該系統(tǒng)和傳統(tǒng)系統(tǒng)的Shell腳本處理,統(tǒng)計(jì)分析了Ha...
【文章來(lái)源】:西安科技大學(xué)陜西省
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 選題的背景及研究的意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 云計(jì)算
1.2.2 Hadoop
1.2.3 海量數(shù)據(jù)分析
1.3 研究的目的和主要內(nèi)容
1.3.1 研究目的及意義
1.3.2 研究的主要內(nèi)容
1.4 論文組織結(jié)構(gòu)
2 相關(guān)理論與關(guān)鍵技術(shù)
2.1 分布式文件系統(tǒng)(HDFS)
2.2 Map/Reduce 計(jì)算框架
2.2.1 Map/Reduce 編程模型
2.2.2 Shuffle 過(guò)程
2.3 Hadoop 與其它數(shù)據(jù)處理模型的比較
2.3.1 Hadoop 與關(guān)系型數(shù)據(jù)庫(kù)的比較
2.3.2 Hadoop 與網(wǎng)格計(jì)算比較
2.4 本章小結(jié)
3 海量 Web 數(shù)據(jù)分析系統(tǒng)分析與設(shè)計(jì)
3.1 需求分析
3.1.1 背景分析
3.1.2 常見(jiàn)日志數(shù)據(jù)格式及 KPI 功能需求分析
3.1.3 Web 數(shù)據(jù)挖掘分析
3.2 數(shù)據(jù)集成方案選型
3.3 系統(tǒng)的架構(gòu)設(shè)計(jì)
3.4 Map-Reduce 并行算法模型設(shè)計(jì)
3.4.1 KPI 指標(biāo)的 Map/Reduce 化模型
3.4.2 協(xié)同過(guò)濾算法的 Map/Reduce 化模型
3.5 本章小結(jié)
4 海量 Web 數(shù)據(jù)分析系統(tǒng)的實(shí)現(xiàn)與測(cè)試
4.1 開(kāi)發(fā)環(huán)境介紹
4.2 基于 Hadoop 的云平臺(tái)搭建
4.2.1 總體設(shè)計(jì)
4.2.2 實(shí)際布局
4.2.3 分布式數(shù)據(jù)管理的實(shí)施
4.2.4 運(yùn)行測(cè)試
4.3 用 Maven 構(gòu)建 hadoop 項(xiàng)目環(huán)境
4.4 MapReduce 程序開(kāi)發(fā)
4.4.1 KPI 指標(biāo)分析程序開(kāi)發(fā)
4.4.2 協(xié)同過(guò)濾算法程序開(kāi)發(fā)
4.5 系統(tǒng)測(cè)試與結(jié)果分析
4.5.1 KPI 指標(biāo)分析測(cè)試與結(jié)果分析
4.5.2 基于物品的協(xié)同過(guò)濾算法并行程序測(cè)試
4.5.3 日志數(shù)據(jù)處理性能對(duì)比測(cè)試
4.6 本章小結(jié)
5 總結(jié)與展望
5.1 本文總結(jié)
5.2 進(jìn)一步展望
致謝
圖表清單
參考文獻(xiàn)
附錄
【參考文獻(xiàn)】:
期刊論文
[1]我國(guó)云計(jì)算發(fā)展研究綜述[J]. 龔強(qiáng). 信息技術(shù). 2013(07)
[2]一種大數(shù)據(jù)時(shí)代海量數(shù)據(jù)抽取的開(kāi)發(fā)模型研究[J]. 羅恩韜,胡志剛,林華. 計(jì)算機(jī)應(yīng)用研究. 2013(11)
[3]國(guó)外云計(jì)算發(fā)展現(xiàn)狀綜述[J]. 龔強(qiáng). 信息技術(shù). 2013(06)
[4]MapReduce并行編程模型研究綜述[J]. 李建江,崔健,王聃,嚴(yán)林,黃義雙. 電子學(xué)報(bào). 2011(11)
[5]Maven在企業(yè)Java軟件產(chǎn)品中的應(yīng)用[J]. 李俊杰. 電腦知識(shí)與技術(shù). 2011(07)
[6]基于Hadoop的移動(dòng)學(xué)習(xí)模型研究[J]. 高宏卿,翟炎杰. 中國(guó)電化教育. 2011(01)
[7]Hadoop分布式文件系統(tǒng)的模型分析[J]. 王峰,雷葆華. 電信科學(xué). 2010(12)
[8]基于Hadoop及關(guān)系型數(shù)據(jù)庫(kù)的海量數(shù)據(jù)分析研究[J]. 程瑩,張?jiān)朴?徐雷,房秉毅. 電信科學(xué). 2010(11)
博士論文
[1]并行計(jì)算普適編程模型及系統(tǒng)架構(gòu)研究[D]. 金晶.北京郵電大學(xué) 2012
[2]云計(jì)算數(shù)據(jù)中心結(jié)構(gòu)及其調(diào)度機(jī)制研究[D]. 劉曉茜.中國(guó)科學(xué)技術(shù)大學(xué) 2011
碩士論文
[1]Hadoop平臺(tái)中作業(yè)調(diào)度算法分析與改進(jìn)研究[D]. 楊倩茹.海南大學(xué) 2013
[2]基于Hadoop的分布式文件系統(tǒng)優(yōu)化技術(shù)研究[D]. 張得震.蘭州交通大學(xué) 2013
[3]基于Hadoop平臺(tái)的海量數(shù)據(jù)處理應(yīng)用[D]. 陳娜.吉林大學(xué) 2012
[4]基于Hadoop的大型網(wǎng)站海量數(shù)據(jù)的統(tǒng)計(jì)與應(yīng)用[D]. 吳金虎.南京大學(xué) 2012
[5]協(xié)同過(guò)濾算法及其并行化研究[D]. 金龑.南京大學(xué) 2012
[6]基于Hadoop的云計(jì)算模型研究與應(yīng)用[D]. 曹風(fēng)兵.重慶大學(xué) 2011
[7]面向校園網(wǎng)日志分析的Web數(shù)據(jù)挖掘技術(shù)研究[D]. 尚蓉蓉.西安電子科技大學(xué) 2011
[8]基于粗糙集的網(wǎng)格海量數(shù)據(jù)挖掘若干關(guān)鍵技術(shù)研究[D]. 夏奇思.南京郵電大學(xué) 2011
[9]內(nèi)容管理系統(tǒng)存儲(chǔ)層的設(shè)計(jì)與實(shí)現(xiàn)[D]. 賓莉金.北京郵電大學(xué) 2011
[10]基于Hadoop平臺(tái)的數(shù)據(jù)分析和應(yīng)用[D]. 姜文.北京郵電大學(xué) 2011
本文編號(hào):3580165
【文章來(lái)源】:西安科技大學(xué)陜西省
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 選題的背景及研究的意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 云計(jì)算
1.2.2 Hadoop
1.2.3 海量數(shù)據(jù)分析
1.3 研究的目的和主要內(nèi)容
1.3.1 研究目的及意義
1.3.2 研究的主要內(nèi)容
1.4 論文組織結(jié)構(gòu)
2 相關(guān)理論與關(guān)鍵技術(shù)
2.1 分布式文件系統(tǒng)(HDFS)
2.2 Map/Reduce 計(jì)算框架
2.2.1 Map/Reduce 編程模型
2.2.2 Shuffle 過(guò)程
2.3 Hadoop 與其它數(shù)據(jù)處理模型的比較
2.3.1 Hadoop 與關(guān)系型數(shù)據(jù)庫(kù)的比較
2.3.2 Hadoop 與網(wǎng)格計(jì)算比較
2.4 本章小結(jié)
3 海量 Web 數(shù)據(jù)分析系統(tǒng)分析與設(shè)計(jì)
3.1 需求分析
3.1.1 背景分析
3.1.2 常見(jiàn)日志數(shù)據(jù)格式及 KPI 功能需求分析
3.1.3 Web 數(shù)據(jù)挖掘分析
3.2 數(shù)據(jù)集成方案選型
3.3 系統(tǒng)的架構(gòu)設(shè)計(jì)
3.4 Map-Reduce 并行算法模型設(shè)計(jì)
3.4.1 KPI 指標(biāo)的 Map/Reduce 化模型
3.4.2 協(xié)同過(guò)濾算法的 Map/Reduce 化模型
3.5 本章小結(jié)
4 海量 Web 數(shù)據(jù)分析系統(tǒng)的實(shí)現(xiàn)與測(cè)試
4.1 開(kāi)發(fā)環(huán)境介紹
4.2 基于 Hadoop 的云平臺(tái)搭建
4.2.1 總體設(shè)計(jì)
4.2.2 實(shí)際布局
4.2.3 分布式數(shù)據(jù)管理的實(shí)施
4.2.4 運(yùn)行測(cè)試
4.3 用 Maven 構(gòu)建 hadoop 項(xiàng)目環(huán)境
4.4 MapReduce 程序開(kāi)發(fā)
4.4.1 KPI 指標(biāo)分析程序開(kāi)發(fā)
4.4.2 協(xié)同過(guò)濾算法程序開(kāi)發(fā)
4.5 系統(tǒng)測(cè)試與結(jié)果分析
4.5.1 KPI 指標(biāo)分析測(cè)試與結(jié)果分析
4.5.2 基于物品的協(xié)同過(guò)濾算法并行程序測(cè)試
4.5.3 日志數(shù)據(jù)處理性能對(duì)比測(cè)試
4.6 本章小結(jié)
5 總結(jié)與展望
5.1 本文總結(jié)
5.2 進(jìn)一步展望
致謝
圖表清單
參考文獻(xiàn)
附錄
【參考文獻(xiàn)】:
期刊論文
[1]我國(guó)云計(jì)算發(fā)展研究綜述[J]. 龔強(qiáng). 信息技術(shù). 2013(07)
[2]一種大數(shù)據(jù)時(shí)代海量數(shù)據(jù)抽取的開(kāi)發(fā)模型研究[J]. 羅恩韜,胡志剛,林華. 計(jì)算機(jī)應(yīng)用研究. 2013(11)
[3]國(guó)外云計(jì)算發(fā)展現(xiàn)狀綜述[J]. 龔強(qiáng). 信息技術(shù). 2013(06)
[4]MapReduce并行編程模型研究綜述[J]. 李建江,崔健,王聃,嚴(yán)林,黃義雙. 電子學(xué)報(bào). 2011(11)
[5]Maven在企業(yè)Java軟件產(chǎn)品中的應(yīng)用[J]. 李俊杰. 電腦知識(shí)與技術(shù). 2011(07)
[6]基于Hadoop的移動(dòng)學(xué)習(xí)模型研究[J]. 高宏卿,翟炎杰. 中國(guó)電化教育. 2011(01)
[7]Hadoop分布式文件系統(tǒng)的模型分析[J]. 王峰,雷葆華. 電信科學(xué). 2010(12)
[8]基于Hadoop及關(guān)系型數(shù)據(jù)庫(kù)的海量數(shù)據(jù)分析研究[J]. 程瑩,張?jiān)朴?徐雷,房秉毅. 電信科學(xué). 2010(11)
博士論文
[1]并行計(jì)算普適編程模型及系統(tǒng)架構(gòu)研究[D]. 金晶.北京郵電大學(xué) 2012
[2]云計(jì)算數(shù)據(jù)中心結(jié)構(gòu)及其調(diào)度機(jī)制研究[D]. 劉曉茜.中國(guó)科學(xué)技術(shù)大學(xué) 2011
碩士論文
[1]Hadoop平臺(tái)中作業(yè)調(diào)度算法分析與改進(jìn)研究[D]. 楊倩茹.海南大學(xué) 2013
[2]基于Hadoop的分布式文件系統(tǒng)優(yōu)化技術(shù)研究[D]. 張得震.蘭州交通大學(xué) 2013
[3]基于Hadoop平臺(tái)的海量數(shù)據(jù)處理應(yīng)用[D]. 陳娜.吉林大學(xué) 2012
[4]基于Hadoop的大型網(wǎng)站海量數(shù)據(jù)的統(tǒng)計(jì)與應(yīng)用[D]. 吳金虎.南京大學(xué) 2012
[5]協(xié)同過(guò)濾算法及其并行化研究[D]. 金龑.南京大學(xué) 2012
[6]基于Hadoop的云計(jì)算模型研究與應(yīng)用[D]. 曹風(fēng)兵.重慶大學(xué) 2011
[7]面向校園網(wǎng)日志分析的Web數(shù)據(jù)挖掘技術(shù)研究[D]. 尚蓉蓉.西安電子科技大學(xué) 2011
[8]基于粗糙集的網(wǎng)格海量數(shù)據(jù)挖掘若干關(guān)鍵技術(shù)研究[D]. 夏奇思.南京郵電大學(xué) 2011
[9]內(nèi)容管理系統(tǒng)存儲(chǔ)層的設(shè)計(jì)與實(shí)現(xiàn)[D]. 賓莉金.北京郵電大學(xué) 2011
[10]基于Hadoop平臺(tái)的數(shù)據(jù)分析和應(yīng)用[D]. 姜文.北京郵電大學(xué) 2011
本文編號(hào):3580165
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3580165.html
最近更新
教材專(zhuān)著