基于Spark的實(shí)時(shí)高效處理算法在互聯(lián)網(wǎng)用戶行為分析平臺中的應(yīng)用
發(fā)布時(shí)間:2020-06-14 23:26
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的普及和飛速發(fā)展,人們的日常生活已經(jīng)逐步走入電子化、輕量化和高效化�;ヂ�(lián)網(wǎng)技術(shù)定義了新型的工作方式和娛樂模式,并隨著衍生的用戶行為和需求,不斷進(jìn)步,不斷超越,強(qiáng)有力地推動(dòng)了當(dāng)前時(shí)代的發(fā)展。互聯(lián)網(wǎng)的用戶行為分析中,涵蓋了人類學(xué)、社會學(xué)及心理學(xué)等知識,若能夠充分高效地使用這些龐大的用戶行為數(shù)據(jù),對其進(jìn)行有序化、標(biāo)量化地挖掘和分析,則可以讓企業(yè)更加詳細(xì)地了解用戶的行為習(xí)慣、更精準(zhǔn)地判斷出企業(yè)運(yùn)營、營銷環(huán)境等問題,讓企業(yè)對自身政策的決斷更加準(zhǔn)確和高效,進(jìn)而為用戶提供更優(yōu)良的服務(wù)。本文首先介紹了互聯(lián)網(wǎng)用戶行為分析平臺的概念及一些相關(guān)的理論基礎(chǔ),包括Spark體系架構(gòu)和計(jì)算模式、Spark圖計(jì)算框架、譜聚類算法、Hive的原理及DubboRPC框架。其次,在互聯(lián)網(wǎng)用戶行為分析平臺的基礎(chǔ)上,解決了一系列現(xiàn)實(shí)生活中的實(shí)際問題,具體如下:針對于用戶上網(wǎng)終端類型識別問題,本文利用Spark大數(shù)據(jù)處理技術(shù),并基于用戶上網(wǎng)數(shù)據(jù)中的OUI、廠商信息、終端型號等特征數(shù)據(jù),提出了終端識別算法,實(shí)現(xiàn)了對用戶上網(wǎng)終端類型的識別;針對于用戶上網(wǎng)流量采集設(shè)備的區(qū)域歸類問題,本文通過SparkGraphx圖計(jì)算組件和SparkCore技術(shù),實(shí)現(xiàn)了兩種比對歸并算法并進(jìn)行了性能分析;針對于智慧機(jī)場調(diào)度車的分析問題,本文利用Hive數(shù)據(jù)倉庫技術(shù)及SparkSQL的結(jié)合,實(shí)現(xiàn)了對智慧機(jī)場被調(diào)度人群軌跡數(shù)據(jù)的分析與轉(zhuǎn)換,為應(yīng)用展現(xiàn)提供了一系列指標(biāo);本文在最后,通過DubboRPC框架,利用參數(shù)傳輸?shù)姆绞?為互聯(lián)網(wǎng)用戶行為分析平臺搭建了一個(gè)靈活通用的監(jiān)測系統(tǒng),來實(shí)現(xiàn)平臺的實(shí)時(shí)狀態(tài)監(jiān)測與異常告警。
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP311.13;TP393.0
【圖文】:
組件具體說明如下:逡逑1)數(shù)據(jù)存儲:RDD中文名為彈性分布式數(shù)據(jù)集,是Spark實(shí)現(xiàn)數(shù)據(jù)存儲鍵概念。RDD通過HDFS文件系統(tǒng)來實(shí)現(xiàn)數(shù)據(jù)的存儲,分布在集群上,可視作為一"1、規(guī)模較為龐大的數(shù)組。RDD也可以通過Hive,邋HBase,邋Cassanda實(shí)現(xiàn)數(shù)據(jù)存儲。逡逑2)邐API:邋Spark是由Scala語言開發(fā)完成的,對夕卜提供了邋Scala、Java、Pytho種編程語言的API,用來滿足各類開發(fā)人員的編程需求。與HadoopapReduce編程模型相比較,Spark的RDD算子提供了更多種類的數(shù)據(jù)操作,包括flatMap、reduce等操作,而基于MapReduce執(zhí)行的多個(gè)串行任務(wù)也通過一個(gè)Spark邋Application下的RDD算子的多步驟操作來實(shí)現(xiàn),這從一定上縮減了開發(fā)人員的編程難度,縮短了編程時(shí)間。逡逑3)資源管理:Spark既可以部署在Yam集群上,使用Yarn集群的資源管調(diào)度功能,也可以部署在分布式計(jì)算框架如Mesos上。逡逑.1.3彈性分布式數(shù)據(jù)集RDD逡逑RDD是Sark體系架構(gòu)中的重要組成概念,其中文名稱為彈性分布式數(shù)
第二章相關(guān)理論基礎(chǔ)邐逡逑隨著流動(dòng)計(jì)算架構(gòu)支持的服務(wù)越發(fā)龐大時(shí),各種資源浪費(fèi)問題、容量評估問逡逑漸出現(xiàn),此時(shí)迫切需要一個(gè)基于訪問壓力實(shí)時(shí)管理集群容量的調(diào)度中心,來逡逑整體集群的使用率,解決方案則是提高機(jī)器利用率的資源調(diào)度和治理中心逡逑A)。如圖2-8即為利用Dubbo實(shí)現(xiàn)服務(wù)治理的架構(gòu)圖。逡逑Dubbo服務(wù)治理逡逑
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP311.13;TP393.0
【圖文】:
組件具體說明如下:逡逑1)數(shù)據(jù)存儲:RDD中文名為彈性分布式數(shù)據(jù)集,是Spark實(shí)現(xiàn)數(shù)據(jù)存儲鍵概念。RDD通過HDFS文件系統(tǒng)來實(shí)現(xiàn)數(shù)據(jù)的存儲,分布在集群上,可視作為一"1、規(guī)模較為龐大的數(shù)組。RDD也可以通過Hive,邋HBase,邋Cassanda實(shí)現(xiàn)數(shù)據(jù)存儲。逡逑2)邐API:邋Spark是由Scala語言開發(fā)完成的,對夕卜提供了邋Scala、Java、Pytho種編程語言的API,用來滿足各類開發(fā)人員的編程需求。與HadoopapReduce編程模型相比較,Spark的RDD算子提供了更多種類的數(shù)據(jù)操作,包括flatMap、reduce等操作,而基于MapReduce執(zhí)行的多個(gè)串行任務(wù)也通過一個(gè)Spark邋Application下的RDD算子的多步驟操作來實(shí)現(xiàn),這從一定上縮減了開發(fā)人員的編程難度,縮短了編程時(shí)間。逡逑3)資源管理:Spark既可以部署在Yam集群上,使用Yarn集群的資源管調(diào)度功能,也可以部署在分布式計(jì)算框架如Mesos上。逡逑.1.3彈性分布式數(shù)據(jù)集RDD逡逑RDD是Sark體系架構(gòu)中的重要組成概念,其中文名稱為彈性分布式數(shù)
第二章相關(guān)理論基礎(chǔ)邐逡逑隨著流動(dòng)計(jì)算架構(gòu)支持的服務(wù)越發(fā)龐大時(shí),各種資源浪費(fèi)問題、容量評估問逡逑漸出現(xiàn),此時(shí)迫切需要一個(gè)基于訪問壓力實(shí)時(shí)管理集群容量的調(diào)度中心,來逡逑整體集群的使用率,解決方案則是提高機(jī)器利用率的資源調(diào)度和治理中心逡逑A)。如圖2-8即為利用Dubbo實(shí)現(xiàn)服務(wù)治理的架構(gòu)圖。逡逑Dubbo服務(wù)治理逡逑
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 袁帥;;社交網(wǎng)絡(luò)用戶行為分析[J];通訊世界;2017年01期
2 張治宇;;互聯(lián)網(wǎng)寬帶用戶行為分析系統(tǒng)的設(shè)計(jì)與應(yīng)用研究[J];數(shù)字通信世界;2017年08期
3 唐箭;;基于用戶行為分析的云計(jì)算計(jì)費(fèi)系統(tǒng)的分析與設(shè)計(jì)[J];遼寧經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院(遼寧經(jīng)濟(jì)管理干部學(xué)院學(xué)報(bào));2009年05期
4 吳愷;蘇新寧;鄧三鴻;;大數(shù)據(jù)、云計(jì)算與用戶行為分析[J];數(shù)字圖書館論壇;2013年06期
5 張國權(quán);顏燕紅;;基于用戶行為分析的交流充電樁設(shè)計(jì)研究[J];大眾文藝;2017年04期
6 丁筱;;網(wǎng)絡(luò)用戶行為分析專利技術(shù)[J];中國新通信;2016年04期
7 鄧博存;陳s
本文編號:2713519
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2713519.html
最近更新
教材專著