天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于集成學習的異常電話識別分析與建模

發(fā)布時間:2021-11-22 02:14
  通信以及網(wǎng)絡(luò)技術(shù)的高速發(fā)展極大的豐富了人們的生活。但網(wǎng)絡(luò)安全的漏洞造成了大量的個人信息泄漏,進而導致騷擾和詐騙電話等異常電話像病毒一樣蔓延在人們的日常生活中。為了降低由異常電話帶來的財產(chǎn)損失和困擾,許多研究人員提出了一些異常電話檢測的解決方案。但是現(xiàn)有的工作更多的是關(guān)注人群的數(shù)據(jù)標注,忽略了特征挖掘的有效性和數(shù)據(jù)分布帶來的影響。這些檢測方法大多數(shù)為被動的檢測,不能及時、主動的給出準確的預測。電信運營商通過構(gòu)建數(shù)據(jù)中心存儲了海量的電信用戶行為記錄,這些大數(shù)據(jù)為主動識別異常電話提供了新的機會。如何從海量數(shù)據(jù)中準確的獲取能代表用戶類別的用戶行為特征、構(gòu)建異常電話識別模型進而主動的識別異常電話,成為通信運營商和研究人員迫切關(guān)注的問題。本文研究了一種基于特征挖掘和集成學習技術(shù)相結(jié)合的異常電話檢測模型,主要工作如下:1、提出一種電信數(shù)據(jù)預處理和特征提取分析方法(Data preprocessing and Feature extraction analysis,簡稱DF)來處理電信數(shù)據(jù),并對用戶歷史行為數(shù)據(jù)進行特征提取、分析與特征降維。首先對電信樣本數(shù)據(jù)進行預處理,并從七個大的維度充分挖掘電信用戶... 

【文章來源】:濟南大學山東省

【文章頁數(shù)】:79 頁

【學位級別】:碩士

【部分圖文】:

基于集成學習的異常電話識別分析與建模


整體研究框架

流程圖,流程圖,電話,電信


基于集成學習的異常電話識別分析與建模16全下實現(xiàn)多源異構(gòu)電信數(shù)據(jù)的獲取與融合,從而擴展了傳統(tǒng)單一數(shù)據(jù)源分析方法,如圖3.1所示。圖3.1獲取數(shù)據(jù)流程圖項目的核心目標是以電信運營商數(shù)據(jù)中心為依托,以移動安全應用為重要補充,基于時間窗口內(nèi)積累的電信大數(shù)據(jù),探究異常電信用戶的行為特征與通信機制。在前期多源異構(gòu)數(shù)據(jù)接入與用戶身份保護等數(shù)據(jù)基礎(chǔ)工作完成下我們從運營商數(shù)據(jù)平臺中獲取了包括300000條的正常用戶和520條確定的異常電話數(shù)據(jù),數(shù)據(jù)樣本分布如表3.1。本文將根據(jù)此數(shù)據(jù)展開一系列的研究和探索。表3.1電信數(shù)據(jù)集樣本分布正常用戶異常用戶樣本數(shù)量3000005203.2.2數(shù)據(jù)分析在運營商提供給我們的300000條正常用戶中存在著一些不確定性。在用戶數(shù)據(jù)中一些用戶具備一些異常行為的屬性但沒有被發(fā)現(xiàn)被誤當成了正常電話,另外有一些正常用戶可能突變?yōu)楫惓k娫挼菦]有被正確歸類,我們將這種數(shù)據(jù)統(tǒng)一稱為臟數(shù)據(jù)。因此,在研究中如何克服數(shù)據(jù)的不確定性,構(gòu)建魯棒性強、分類精準的異常電話模型是一個關(guān)鍵的問題。在獲取的數(shù)據(jù)中有另外一個顯著的特點為不平衡性。在運營商平臺中有大量

流程圖,數(shù)據(jù)集,流程圖,電信


基于集成學習的異常電話識別分析與建模18()0DiN=Lph(3-1)()1DiP=Lph(3-2)為了最大程度降低用戶隱私泄露的風險,實驗采用小樣本的數(shù)據(jù)進行研究。由于真實電信樣本中往往存在一些不能確定類別的“臟數(shù)據(jù)”,我們通過構(gòu)建混合數(shù)據(jù)集的方式更真實的還原樣本分布情況、構(gòu)建抗干擾能力強的異常電話識別模型。從原始數(shù)據(jù)的300000條DN中隨機抽取3000條dN放入新的數(shù)據(jù)集D中,從DP的520條數(shù)據(jù)樣本中隨機抽取100條混入dN中作為正常電信用戶數(shù)據(jù),混合后的正常電信用戶表示為d"N,最后將剩下的420條DP放入數(shù)據(jù)集D中。具體的混合方式如圖3.3所示。圖3.3混合數(shù)據(jù)集流程圖經(jīng)過混合后的混合數(shù)據(jù)集D中有3100條Nd’,420條PD,如表3.2所示。通過混合數(shù)據(jù)集來更好的還原真實數(shù)據(jù)中正常用戶數(shù)據(jù)中的“臟數(shù)據(jù)”的情況,訓練異常電話識別模型,來增加模型的抗干擾能力以及魯棒性。表3.2電信混合數(shù)據(jù)集樣本分布DNd’PD樣本數(shù)量31004203.2.4數(shù)據(jù)規(guī)范在構(gòu)建混合集后,分析數(shù)據(jù)內(nèi)容,整理重復和缺失數(shù)據(jù),對數(shù)據(jù)特征缺失值進行填充。在本文所研究的異常電話識別中,對于電信用戶,單一的指標不能夠合理的評價用戶類別,需要全面的多指標的來考慮。由于各個維度的指標的性質(zhì)不同,通常具有不同的數(shù)據(jù)范圍和數(shù)量級。在特征數(shù)據(jù)值水平范圍相差較大的情況下,直接進行分析時數(shù)值


本文編號:3510726

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3510726.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶47de6***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com