天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于大數(shù)據(jù)平臺(tái)的惡意IP分類(lèi)算法研究

發(fā)布時(shí)間:2020-05-23 22:35
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,在鐵路售票系統(tǒng)中,網(wǎng)絡(luò)售票量遠(yuǎn)遠(yuǎn)超過(guò)了車(chē)站窗口、全國(guó)代售點(diǎn)等售票渠道,網(wǎng)絡(luò)購(gòu)票成為了大眾出行購(gòu)票的首要選擇。同時(shí)受利益驅(qū)動(dòng),互聯(lián)網(wǎng)售票行業(yè)也面臨著灰色產(chǎn)業(yè)的威脅。研究發(fā)現(xiàn),在春運(yùn)、節(jié)假日等售票高峰期,頻頻存在惡意刷票的現(xiàn)象,嚴(yán)重影響了用戶正常的購(gòu)票體驗(yàn)。為了對(duì)一些惡意數(shù)據(jù)請(qǐng)求進(jìn)行攔截和實(shí)時(shí)處理,開(kāi)發(fā)了基于大數(shù)據(jù)平臺(tái)的風(fēng)控系統(tǒng)。在該系統(tǒng)的策略分析環(huán)節(jié),由于無(wú)法有效的區(qū)分當(dāng)前請(qǐng)求IP的來(lái)源,影響了策略閾值的選取,存在著誤傷的風(fēng)險(xiǎn)。此外售票系統(tǒng)面臨著每天上千萬(wàn)的訪問(wèn)量,產(chǎn)生了海量的數(shù)據(jù)集,如何高效的進(jìn)行數(shù)據(jù)分類(lèi)也成為了問(wèn)題的關(guān)鍵。本論文針對(duì)以上問(wèn)題,結(jié)合數(shù)據(jù)挖掘相關(guān)知識(shí)開(kāi)展了研究,提出了基于大數(shù)據(jù)平臺(tái)的惡意IP分類(lèi)算法。本論文的主要貢獻(xiàn)包括以下方面:1.在惡意IP分類(lèi)問(wèn)題上,本文介紹了常用的分類(lèi)算法,通過(guò)仿真實(shí)驗(yàn),分析了已有算法的優(yōu)缺點(diǎn),篩選出更適合當(dāng)前應(yīng)用場(chǎng)景的隨機(jī)森林算法RF。為提高分類(lèi)精度,提出了基于隨機(jī)森林的惡意IP分類(lèi)算法IPRF。IPRF算法主要是改進(jìn)了特征選取步驟,采用了 Bagging與Forest-RI相結(jié)合的特征選取方法,增加樣本特征選擇的隨機(jī)性,構(gòu)建分類(lèi)器時(shí),引入了基于OOB估計(jì)的權(quán)重計(jì)算。通過(guò)五組數(shù)據(jù)集的對(duì)比實(shí)驗(yàn),表明IPRF算法有效的提高了分類(lèi)準(zhǔn)確率,提高了分類(lèi)器的性能。2.在數(shù)據(jù)分類(lèi)效率問(wèn)題中,針對(duì)海量的數(shù)據(jù)量,提出了基于MapReduce框架的并行化思想,結(jié)合IPRF算法,提出了基于大數(shù)據(jù)平臺(tái)的惡意IP分類(lèi)算法,研究并設(shè)計(jì)了并行化流程;诖髷(shù)據(jù)平臺(tái),通過(guò)三組不同數(shù)量的數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證了算法的可行性,縮短了算法執(zhí)行時(shí)間,有效的提高了數(shù)據(jù)處理的效率;诖髷(shù)據(jù)平臺(tái)的惡意IP分類(lèi)算法的實(shí)現(xiàn)能夠使得在風(fēng)控系統(tǒng)的策略分析環(huán)節(jié)更加完善,有效的避免對(duì)正常用戶的誤傷,從而促使策略的閾值選取更合理化,從而更好地完善風(fēng)控系統(tǒng),有效的加強(qiáng)對(duì)異常購(gòu)票行為識(shí)別。
【圖文】:

架構(gòu)圖,架構(gòu),平臺(tái)


2基礎(chǔ)理論和相關(guān)技術(shù)逡逑隨著計(jì)算機(jī)和互聯(lián)網(wǎng)等技術(shù)的快速發(fā)展,大量的數(shù)據(jù)不斷涌現(xiàn)。對(duì)于售,每天都有大量的訪問(wèn)量,隨即會(huì)產(chǎn)生大量的日志數(shù)據(jù),那么如何分析如何在海量數(shù)據(jù)面前充分利用數(shù)據(jù)的價(jià)值,就成為互聯(lián)網(wǎng)公司在優(yōu)化企可避免的問(wèn)題。高性能的Hadoop平臺(tái)的產(chǎn)生,,有效的促進(jìn)了大數(shù)據(jù)處展。針對(duì)惡意IP的問(wèn)題,本文提出了基于Hadoop平臺(tái)的惡意IP分傳統(tǒng)的分類(lèi)方法進(jìn)行比較。本章將對(duì)Hadoop平臺(tái)的主要架構(gòu)、MapRed型、HDFS分布式文件存儲(chǔ)系統(tǒng)等內(nèi)容和實(shí)驗(yàn)過(guò)程中涉及到的概念、算行介紹。逡逑Hadoop平臺(tái)框架逡逑

架構(gòu)圖,架構(gòu),邏輯


基礎(chǔ)理論和相關(guān)技術(shù)逡逑以Hadoop集群為核心的大數(shù)據(jù)平臺(tái),自形成之日起就不斷地進(jìn)行著功能的完逡逑善和性能的提升。如圖2-1所示,Hadoop平臺(tái)的主要組件有HDFS分布式文件存逡逑儲(chǔ)系統(tǒng)、MapReduce并行化計(jì)算框架、Hbase實(shí)時(shí)分布式數(shù)據(jù)庫(kù)、Hive分布式數(shù)據(jù)逡逑倉(cāng)庫(kù)、Zookeeper分布式協(xié)調(diào)系統(tǒng)、Pig海量數(shù)據(jù)流處理系統(tǒng)、Spark內(nèi)存分布式計(jì)逡逑算框架、Storm分布式實(shí)時(shí)大數(shù)據(jù)處理系統(tǒng)、Kafka分布式發(fā)布訂閱消息系統(tǒng)、Flume逡逑海量日志采集聚合傳輸系統(tǒng)、Mahout海量數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)算法庫(kù)等構(gòu)成。目逡逑前,為了便捷、高效的處理數(shù)據(jù)挖掘相關(guān)工作,已經(jīng)有很多互聯(lián)網(wǎng)公司搭建了他們逡逑自己的基于Hadoop的大數(shù)據(jù)平臺(tái)。隨著互聯(lián)網(wǎng)的快速發(fā)展,Hadoop也逐漸被電逡逑子商務(wù)業(yè)、制造業(yè)、教育機(jī)構(gòu)以及科研機(jī)構(gòu)等行業(yè)學(xué)習(xí)、改進(jìn)和使用,Hadoop己逡逑經(jīng)成為在數(shù)據(jù)處理領(lǐng)域應(yīng)用最廣泛的大數(shù)據(jù)處理平臺(tái)。逡逑基于Hadoop平臺(tái)的機(jī)器學(xué)習(xí)分類(lèi)算法有著廣闊的應(yīng)用和研宄前景,機(jī)器學(xué)逡逑習(xí)分類(lèi)算法處理分析海量數(shù)據(jù)這一廣泛且重要的應(yīng)用場(chǎng)景,以及Hadoop這一穩(wěn)逡逑定的、擴(kuò)展性強(qiáng)的分布式基礎(chǔ)架構(gòu)系統(tǒng),吸引了眾多領(lǐng)域內(nèi)的專(zhuān)家學(xué)者對(duì)其開(kāi)展了逡逑深入的研究。逡逑2.2邋HDFS分布式文件系統(tǒng)逡逑HDFS邋(Hadoop邋Distributed邋File邋System)是一種分布式文件系統(tǒng),也是邋Hadoop逡逑平臺(tái)中的核心組件。HDFS源于Google在2003年發(fā)表的GFS(GoogleFileSystem)逡逑論文
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類(lèi)號(hào)】:F49;TP18;TP311.13

【參考文獻(xiàn)】

相關(guān)期刊論文 前4條

1 楊柳;于劍;景麗萍;;一種自適應(yīng)的大間隔近鄰分類(lèi)算法[J];計(jì)算機(jī)研究與發(fā)展;2013年11期

2 王鑫;汪晉寬;劉志剛;龔志恒;;基于隨機(jī)森林的認(rèn)知網(wǎng)絡(luò)頻譜感知算法[J];儀器儀表學(xué)報(bào);2013年11期

3 方匡南;吳見(jiàn)彬;朱建平;謝邦昌;;隨機(jī)森林方法研究綜述[J];統(tǒng)計(jì)與信息論壇;2011年03期

4 魏進(jìn)武;張?jiān)朴?陳清金;;云計(jì)算推動(dòng)IDC向VDC轉(zhuǎn)型的研究[J];電信科學(xué);2010年11期

相關(guān)碩士學(xué)位論文 前9條

1 張?chǎng)?隨機(jī)森林算法的優(yōu)化研究及在文本并行分類(lèi)上的應(yīng)用[D];南京郵電大學(xué);2018年

2 陳潔;數(shù)據(jù)挖掘分類(lèi)算法的改進(jìn)研究[D];南京郵電大學(xué);2018年

3 魏先雙;邏輯回歸在個(gè)人信用評(píng)級(jí)的應(yīng)用[D];重慶大學(xué);2018年

4 張永潘;基于大數(shù)據(jù)平臺(tái)的決策樹(shù)分類(lèi)算法及并行化研究[D];南京郵電大學(xué);2017年

5 申洲;基于流行為特征IDC識(shí)別方法研究[D];電子科技大學(xué);2017年

6 張艷華;基于Hadoop的IP用戶訪問(wèn)行為動(dòng)機(jī)分析研究[D];北京信息科技大學(xué);2017年

7 陳陽(yáng)雪;基于大數(shù)據(jù)平臺(tái)的MOOC混合推薦算法的研究及應(yīng)用[D];杭州電子科技大學(xué);2017年

8 方洪鷹;數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的方法研究[D];西南大學(xué);2009年

9 李曉菲;數(shù)據(jù)預(yù)處理算法的研究與應(yīng)用[D];西南交通大學(xué);2006年



本文編號(hào):2678053

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2678053.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶60782***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com