天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

不平衡網(wǎng)絡(luò)異常數(shù)據(jù)代價敏感特征及實例選擇

發(fā)布時間:2018-06-19 01:39

  本文選題:網(wǎng)絡(luò)異常數(shù)據(jù) + 類不平衡; 參考:《太原理工大學(xué)》2016年博士論文


【摘要】:隨著通訊技術(shù)的發(fā)展及異構(gòu)網(wǎng)絡(luò)的廣泛融合,網(wǎng)絡(luò)數(shù)據(jù)呈現(xiàn)爆炸式增長態(tài)勢。雖然其中的異常事件屬于稀有類,但仍會對國家、企業(yè)及個人造成嚴重打擊和損失。如何提高稀有類識別率已成為網(wǎng)絡(luò)安全領(lǐng)域亟待解決的問題。本文以網(wǎng)絡(luò)異常數(shù)據(jù)中的稀有類為研究對象,以稀有類的分類問題為切入點,以代價敏感學(xué)習(xí)為支撐,以概率論、混沌理論、信息論、統(tǒng)計學(xué)為理論基礎(chǔ),首先從數(shù)據(jù)特征入手,提出一種基于混沌遺傳的代價敏感特征選擇方法,設(shè)計了基于文化基因構(gòu)架的高效代價敏感特征選擇方法;之后從數(shù)據(jù)實例角度出發(fā),并提出適用于不平衡數(shù)據(jù)集的雙向?qū)嵗x擇分層策略。通過上述策略及方法的使用,能夠?qū)^大規(guī)模不平衡網(wǎng)絡(luò)異常數(shù)據(jù)進行分類前的綜合優(yōu)化處理,從而有效提升后續(xù)異常分類識別的效果。本文主要工作及所取得研究成果包括以下三個方面:(1)提出一種基于混沌遺傳的代價敏感特征選擇算法針對網(wǎng)絡(luò)異常數(shù)據(jù)類不平衡問題,引入代價敏感學(xué)習(xí)理論到特征選擇方法,聚焦于特征選擇階段的代價因素,設(shè)計出一種代價敏感特征選擇算法CSFSG,應(yīng)用于網(wǎng)絡(luò)異常數(shù)據(jù)分類。綜合考慮網(wǎng)絡(luò)異常事件識別過程中誤分類代價及測試代價,借鑒貝葉斯理論,基于最近鄰規(guī)則構(gòu)造代價敏感適應(yīng)度函數(shù),利用混沌運動系統(tǒng)固有特性改進基于Tent混沌映射優(yōu)化的遺傳搜索策略,改善遺傳搜索后期的收斂問題,以提高搜索速度。CSFSG注意兩種代價均衡關(guān)系,以最小化總代價為目標。實驗表明,CSFSG能夠有效簡化特征選擇過程得到有助于稀有類異常數(shù)據(jù)識別的特征子集,進而達到可以降低算法運行成本,提高異常攻擊識別精度的目標。(2)提出基于文化基因構(gòu)架的高效代價敏感特征選擇算法針對大數(shù)據(jù)在資源受限環(huán)境中分析成本高、效率低的問題,改進基于文化基因構(gòu)架的傳統(tǒng)特征選擇方法,引進貝葉斯理論構(gòu)造代價矩陣,提出了一種以降低總誤分類成本并提高分類性能為目標的高效代價敏感特征選擇算法CFSM。該算法使用遺傳算法進行全局搜索,引入誤分類代價因子的總成本函數(shù)構(gòu)造適應(yīng)度函數(shù),通過使用近似馬爾科夫毯以信息相關(guān)系數(shù)為評價指標,微調(diào)增加相關(guān)特征,移除冗余或不相關(guān)特征,以提高最優(yōu)子集尋優(yōu)收斂速度。實驗結(jié)果表明,CFSM在稀有類識別上表現(xiàn)出較好的性能。與基于遺傳算法的傳統(tǒng)文化基因架構(gòu)下特征選擇算法及代價敏感特征選擇算法相比,該算法更加高效且能以更少的特征及誤分類代價獲得更高的分類精度。(3)提出基于稀有類拓展的雙向?qū)嵗x擇分層策略當(dāng)不平衡的網(wǎng)絡(luò)數(shù)據(jù)遇到大規(guī);瘑栴},往往會造成網(wǎng)絡(luò)異常攻擊識別率降低,甚至失效。本文基于經(jīng)典分層理論,提出基于稀有類拓展的雙向?qū)嵗x擇分層策略。該策略根據(jù)實例類別選擇多數(shù)類,然后借助屬性與均勻分布隨機點定理構(gòu)造隨機數(shù)表達式的方式將其拓展為iSMOTE稀有類,并使得數(shù)據(jù)集趨于平衡。實驗結(jié)果表明該策略可以有效提高稀有類別實例數(shù)量和分類效果,尤其在處理數(shù)量特別稀少的稀有類及數(shù)據(jù)量整體規(guī)模較大的數(shù)據(jù)集時,其效果更加顯著。
[Abstract]:With the development of communication technology and the extensive integration of heterogeneous networks, network data presents an explosive growth trend. Although abnormal events belong to rare classes, it will still cause serious attacks and losses to the country, enterprises and individuals. How to improve the recognition rate of rare classes has become an urgent problem in the field of network security. This paper is based on the network The rare class in abnormal data is the research object, taking the classification of rare classes as the breakthrough point, taking the cost sensitive learning as the support, taking the probability theory, chaos theory, information theory and statistics as the theoretical basis. First, starting with the data characteristics, a method based on the chaotic genetic based generation valence sensitive feature selection is proposed, and a cultural genetic structure based on the cultural genetic structure is designed. The high efficient cost sensitive feature selection method of the frame, and then from the point of view of the data instance, and proposes a two way instance selection stratification strategy for unbalanced data sets. Through the use of the above strategy and method, the comprehensive optimization of the abnormal data of large scale unbalance network can be optimized before classification, which can effectively improve the subsequent exception. The main work and achievements of this paper include the following three aspects: (1) a cost sensitive feature selection algorithm based on chaos genetic algorithm is proposed for the network anomaly data imbalance problem, the cost sensitive learning theory is introduced to the feature selection method, and the cost factors focusing on the feature selection stage are designed. A cost sensitive feature selection algorithm, CSFSG, is applied to network anomaly data classification. Considering the cost of misclassification and testing cost in the process of network anomaly recognition, we use Bayesian theory to construct a cost sensitive fitness function based on the nearest neighbor rule, and improve the Tent chaos mapping optimization based on the inherent characteristics of the chaotic transport system. The genetic search strategy is used to improve the convergence problem of the late genetic search, to improve the search speed.CSFSG to pay attention to two cost equilibrium relations and minimize the total cost. The experiment shows that CSFSG can effectively simplify the feature selection process to help the rare class abnormal data recognition of other feature subsets, and thus can reduce the algorithm transport. (2) a high efficient and cost sensitive feature selection algorithm based on cultural genetic architecture is proposed to analyze the high cost and low efficiency of large data in the resource constrained environment, improve the traditional feature selection method based on the cultural genetic framework and introduce the Bayesian theory to construct the cost matrix. An efficient cost sensitive feature selection algorithm for reducing the total error classification cost and improving the classification performance CFSM., the algorithm uses the genetic algorithm for global search, and constructs the fitness function by introducing the total cost function of the misclassified cost factor. By using the approximate Malcov blanket, the information correlation coefficient is used as the evaluation index. The correlation features are added to remove redundant or unrelated features to improve the optimal convergence rate. The experimental results show that CFSM shows good performance in the recognition of rare classes. Compared with the traditional cultural genetic algorithm based feature selection algorithm and the cost sensitive feature selection algorithm based on the genetic algorithm, the algorithm is more efficient and can be used. Higher classification accuracy is obtained with fewer features and misclassification costs. (3) a hierarchical strategy of two-way case selection based on rare class expansion is proposed. When the imbalance of network data meets large-scale problems, the recognition rate of network anomaly attacks will often be reduced and even invalid. Based on the classical stratification theory, this paper proposes a rare class expansion. This strategy chooses most classes according to the class of instances, and then extends it to iSMOTE rare class by means of attribute and uniform distribution random point theorem, and makes the data set balanced. The experimental results show that the strategy can effectively improve the number and classification of rare class instances. The effect is especially significant when dealing with rare classes and data sets of large scale.
【學(xué)位授予單位】:太原理工大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2016
【分類號】:TP393.08

【相似文獻】

相關(guān)期刊論文 前10條

1 何勁松,施澤生;特征選擇方法中的信號分析方法研究[J];中國科學(xué)技術(shù)大學(xué)學(xué)報;2001年01期

2 孫霞;鄭慶華;;一種面向非平衡數(shù)據(jù)的鄰居詞特征選擇方法[J];小型微型計算機系統(tǒng);2008年12期

3 蔣盛益;鄭琪;張倩生;;基于聚類的特征選擇方法[J];電子學(xué)報;2008年S1期

4 王加龍;朱顥東;;結(jié)合類別相關(guān)性和辨識集的特征選擇方法[J];微型機與應(yīng)用;2009年23期

5 朱顥東;周姝;鐘勇;;結(jié)合差別對象對集的綜合性特征選擇方法[J];計算機工程與設(shè)計;2010年03期

6 姜慧研;柴天佑;;基于可信間隔的特征選擇方法研究[J];控制與決策;2011年08期

7 姚旭;王曉丹;張玉璽;權(quán)文;;特征選擇方法綜述[J];控制與決策;2012年02期

8 王志昊;王中卿;李壽山;李培峰;;不平衡情感分類中的特征選擇方法研究[J];中文信息學(xué)報;2013年04期

9 張玉紅;周全;胡學(xué)鋼;;面向跨領(lǐng)域情感分類的特征選擇方法[J];模式識別與人工智能;2013年11期

10 李敏;卡米力·木依丁;;特征選擇方法與算法的研究[J];計算機技術(shù)與發(fā)展;2013年12期

相關(guān)會議論文 前6條

1 徐燕;王斌;李錦濤;孫春明;;知識增益:文本分類中一種新的特征選擇方法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

2 肖婷;唐雁;;文本分類中特征選擇方法及應(yīng)用[A];2008年計算機應(yīng)用技術(shù)交流會論文集[C];2008年

3 徐燕;孫春明;王斌;李錦濤;;基于詞條頻率的特征選擇算法研究[A];中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年

4 陳慶軒;鄭德權(quán);鄭博文;趙鐵軍;李生;;中文文本分類中基于文檔頻度分布的特征選擇方法[A];黑龍江省計算機學(xué)會2009年學(xué)術(shù)交流年會論文集[C];2010年

5 顧成杰;張順頤;劉凱;黃河;;基于粗糙集和禁忌搜索的特征選擇方法[A];江蘇省電子學(xué)會2010年學(xué)術(shù)年會論文集[C];2010年

6 王秀娟;郭軍;鄭康鋒;;基于互信息可信度的特征選擇方法[A];2006通信理論與技術(shù)新進展——第十一屆全國青年通信學(xué)術(shù)會議論文集[C];2006年

相關(guān)博士學(xué)位論文 前6條

1 張逸石;基于冗余—互補散度及特征包絡(luò)前沿的數(shù)據(jù)驅(qū)動特征選擇方法研究[D];華中科技大學(xué);2016年

2 邊婧;不平衡網(wǎng)絡(luò)異常數(shù)據(jù)代價敏感特征及實例選擇[D];太原理工大學(xué);2016年

3 毛勇;基于支持向量機的特征選擇方法的研究與應(yīng)用[D];浙江大學(xué);2006年

4 尹留志;關(guān)于非平衡數(shù)據(jù)特征問題的研究[D];中國科學(xué)技術(shù)大學(xué);2014年

5 裴志利;數(shù)據(jù)挖掘技術(shù)在文本分類和生物信息學(xué)中的應(yīng)用[D];吉林大學(xué);2008年

6 劉明霞;屬性學(xué)習(xí)若干重要問題的研究及應(yīng)用[D];南京航空航天大學(xué);2015年

相關(guān)碩士學(xué)位論文 前10條

1 曹晉;基于SVDD的特征選擇方法研究及其應(yīng)用[D];蘇州大學(xué);2015年

2 張強;靜態(tài)圖像上的行人檢測方法研究[D];中國科學(xué)技術(shù)大學(xué);2015年

3 張曉梅;基于融合特征的微博主客觀分類方法研究[D];山西大學(xué);2014年

4 王君;基于SVM-RFE的特征選擇方法研究[D];大連理工大學(xué);2015年

5 于海珠;面向文本聚類的特征選擇方法及應(yīng)用研究[D];大連理工大學(xué);2015年

6 趙世琛;文本分類中特征選擇方法研究[D];山西大學(xué);2014年

7 王丹;特征選擇算法研究及其在異常檢測中的應(yīng)用[D];電子科技大學(xué);2014年

8 林艷峰;中文文本分類特征選擇方法的研究與實現(xiàn)[D];西安電子科技大學(xué);2014年

9 盧志浩;基于GEP的kNN算法改進研究[D];廣西師范學(xué)院;2015年

10 王立鵬;面向圖數(shù)據(jù)的特征選擇方法及其應(yīng)用研究[D];南京航空航天大學(xué);2015年



本文編號:2037763

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2037763.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶33d79***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com