當(dāng)前位置：主頁 > 管理論文 > 移動(dòng)網(wǎng)絡(luò)論文 >

基于Hadoop的云平臺(tái)在海量Web數(shù)據(jù)分析中的應(yīng)用研究

發(fā)布時(shí)間：2022-01-10 05:49

　　隨著社會(huì)的進(jìn)步和Internet技術(shù)的發(fā)展，網(wǎng)絡(luò)數(shù)據(jù)規(guī)模日漸龐大，Web已成為全球最大的數(shù)據(jù)倉庫，無論是企業(yè)還是個(gè)人都面臨如何有效管理海量Web數(shù)據(jù)的難題。傳統(tǒng)數(shù)據(jù)處理方法存在成本過高、可靠性較低、編寫并行處理程序困難等諸多缺點(diǎn)�；陂_放源代碼的Hadoop并行處理框架能夠有效、可靠、智能的管理海量Web數(shù)據(jù)。為了提高傳統(tǒng)單一節(jié)點(diǎn)在海量Web數(shù)據(jù)分析和挖掘中存在時(shí)間和空間效率，通過分析Hadoop云計(jì)算開源平臺(tái)技術(shù)的國內(nèi)外研究現(xiàn)狀和發(fā)展趨勢，基于Hadoop開源框架分布式文件系統(tǒng)（HDFS）和Map/Reduce編程模型，研究了海量Web日志性能指標(biāo)和一種Web挖掘算法的Map/Reduce化過程，設(shè)計(jì)了海量Web數(shù)據(jù)分析系統(tǒng)架構(gòu)，搭建了Hadoop開發(fā)平臺(tái)，實(shí)現(xiàn)了一個(gè)分布式的海量Web數(shù)據(jù)分析系統(tǒng)的開發(fā)。該系統(tǒng)集成了數(shù)據(jù)和應(yīng)用，并通過Hadoop的應(yīng)用程序編程接口（API）連接到Eclipse中，利用Maven管理和構(gòu)建Hadoop項(xiàng)目，實(shí)現(xiàn)任務(wù)之間的共享操作。通過在虛擬機(jī)搭建了4個(gè)節(jié)點(diǎn)的Hadoop集群環(huán)境系統(tǒng)測試平臺(tái)，測試分析了該系統(tǒng)和傳統(tǒng)系統(tǒng)的Shell腳本處理，統(tǒng)計(jì)分析了Ha...

【文章來源】：西安科技大學(xué)陜西省

【文章頁數(shù)】：64 頁

【學(xué)位級別】：碩士

【文章目錄】：
摘要
ABSTRACT
1 緒論
    1.1 選題的背景及研究的意義
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 云計(jì)算
        1.2.2 Hadoop
        1.2.3 海量數(shù)據(jù)分析
    1.3 研究的目的和主要內(nèi)容
        1.3.1 研究目的及意義
        1.3.2 研究的主要內(nèi)容
    1.4 論文組織結(jié)構(gòu)
2 相關(guān)理論與關(guān)鍵技術(shù)
    2.1 分布式文件系統(tǒng)（HDFS）
    2.2 Map/Reduce 計(jì)算框架
        2.2.1 Map/Reduce 編程模型
        2.2.2 Shuffle 過程
    2.3 Hadoop 與其它數(shù)據(jù)處理模型的比較
        2.3.1 Hadoop 與關(guān)系型數(shù)據(jù)庫的比較
        2.3.2 Hadoop 與網(wǎng)格計(jì)算比較
    2.4 本章小結(jié)
3 海量 Web 數(shù)據(jù)分析系統(tǒng)分析與設(shè)計(jì)
    3.1 需求分析
        3.1.1 背景分析
        3.1.2 常見日志數(shù)據(jù)格式及 KPI 功能需求分析
        3.1.3 Web 數(shù)據(jù)挖掘分析
    3.2 數(shù)據(jù)集成方案選型
    3.3 系統(tǒng)的架構(gòu)設(shè)計(jì)
    3.4 Map-Reduce 并行算法模型設(shè)計(jì)
        3.4.1 KPI 指標(biāo)的 Map/Reduce 化模型
        3.4.2 協(xié)同過濾算法的 Map/Reduce 化模型
    3.5 本章小結(jié)
4 海量 Web 數(shù)據(jù)分析系統(tǒng)的實(shí)現(xiàn)與測試
    4.1 開發(fā)環(huán)境介紹
    4.2 基于 Hadoop 的云平臺(tái)搭建
        4.2.1 總體設(shè)計(jì)
        4.2.2 實(shí)際布局
        4.2.3 分布式數(shù)據(jù)管理的實(shí)施
        4.2.4 運(yùn)行測試
    4.3 用 Maven 構(gòu)建 hadoop 項(xiàng)目環(huán)境
    4.4 MapReduce 程序開發(fā)
        4.4.1 KPI 指標(biāo)分析程序開發(fā)
        4.4.2 協(xié)同過濾算法程序開發(fā)
    4.5 系統(tǒng)測試與結(jié)果分析
        4.5.1 KPI 指標(biāo)分析測試與結(jié)果分析
        4.5.2 基于物品的協(xié)同過濾算法并行程序測試
        4.5.3 日志數(shù)據(jù)處理性能對比測試
    4.6 本章小結(jié)
5 總結(jié)與展望
    5.1 本文總結(jié)
    5.2 進(jìn)一步展望
致謝
圖表清單
參考文獻(xiàn)
附錄

【參考文獻(xiàn)】：
期刊論文
[1]我國云計(jì)算發(fā)展研究綜述[J]. 龔強(qiáng).  信息技術(shù). 2013(07)
[2]一種大數(shù)據(jù)時(shí)代海量數(shù)據(jù)抽取的開發(fā)模型研究[J]. 羅恩韜,胡志剛,林華.  計(jì)算機(jī)應(yīng)用研究. 2013(11)
[3]國外云計(jì)算發(fā)展現(xiàn)狀綜述[J]. 龔強(qiáng).  信息技術(shù). 2013(06)
[4]MapReduce并行編程模型研究綜述[J]. 李建江,崔健,王聃,嚴(yán)林,黃義雙.  電子學(xué)報(bào). 2011(11)
[5]Maven在企業(yè)Java軟件產(chǎn)品中的應(yīng)用[J]. 李俊杰.  電腦知識與技術(shù). 2011(07)
[6]基于Hadoop的移動(dòng)學(xué)習(xí)模型研究[J]. 高宏卿,翟炎杰.  中國電化教育. 2011(01)
[7]Hadoop分布式文件系統(tǒng)的模型分析[J]. 王峰,雷葆華.  電信科學(xué). 2010(12)
[8]基于Hadoop及關(guān)系型數(shù)據(jù)庫的海量數(shù)據(jù)分析研究[J]. 程瑩,張?jiān)朴?徐雷,房秉毅.  電信科學(xué). 2010(11)

博士論文
[1]并行計(jì)算普適編程模型及系統(tǒng)架構(gòu)研究[D]. 金晶.北京郵電大學(xué) 2012
[2]云計(jì)算數(shù)據(jù)中心結(jié)構(gòu)及其調(diào)度機(jī)制研究[D]. 劉曉茜.中國科學(xué)技術(shù)大學(xué) 2011

碩士論文
[1]Hadoop平臺(tái)中作業(yè)調(diào)度算法分析與改進(jìn)研究[D]. 楊倩茹.海南大學(xué) 2013
[2]基于Hadoop的分布式文件系統(tǒng)優(yōu)化技術(shù)研究[D]. 張得震.蘭州交通大學(xué) 2013
[3]基于Hadoop平臺(tái)的海量數(shù)據(jù)處理應(yīng)用[D]. 陳娜.吉林大學(xué) 2012
[4]基于Hadoop的大型網(wǎng)站海量數(shù)據(jù)的統(tǒng)計(jì)與應(yīng)用[D]. 吳金虎.南京大學(xué) 2012
[5]協(xié)同過濾算法及其并行化研究[D]. 金龑.南京大學(xué) 2012
[6]基于Hadoop的云計(jì)算模型研究與應(yīng)用[D]. 曹風(fēng)兵.重慶大學(xué) 2011
[7]面向校園網(wǎng)日志分析的Web數(shù)據(jù)挖掘技術(shù)研究[D]. 尚蓉蓉.西安電子科技大學(xué) 2011
[8]基于粗糙集的網(wǎng)格海量數(shù)據(jù)挖掘若干關(guān)鍵技術(shù)研究[D]. 夏奇思.南京郵電大學(xué) 2011
[9]內(nèi)容管理系統(tǒng)存儲(chǔ)層的設(shè)計(jì)與實(shí)現(xiàn)[D]. 賓莉金.北京郵電大學(xué) 2011
[10]基于Hadoop平臺(tái)的數(shù)據(jù)分析和應(yīng)用[D]. 姜文.北京郵電大學(xué) 2011

本文編號：3580165

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/3580165.html

上一篇：改進(jìn)逆向習(xí)得推理的網(wǎng)絡(luò)異常行為檢測模型
下一篇：國外網(wǎng)絡(luò)身份管理發(fā)展跟蹤研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的云平臺(tái)在海量Web數(shù)據(jù)分析中的應(yīng)用研究