不平衡網(wǎng)絡(luò)異常數(shù)據(jù)代價(jià)敏感特征及實(shí)例選擇
本文選題:網(wǎng)絡(luò)異常數(shù)據(jù) + 類不平衡; 參考:《太原理工大學(xué)》2016年博士論文
【摘要】:隨著通訊技術(shù)的發(fā)展及異構(gòu)網(wǎng)絡(luò)的廣泛融合,網(wǎng)絡(luò)數(shù)據(jù)呈現(xiàn)爆炸式增長態(tài)勢。雖然其中的異常事件屬于稀有類,但仍會(huì)對國家、企業(yè)及個(gè)人造成嚴(yán)重打擊和損失。如何提高稀有類識(shí)別率已成為網(wǎng)絡(luò)安全領(lǐng)域亟待解決的問題。本文以網(wǎng)絡(luò)異常數(shù)據(jù)中的稀有類為研究對象,以稀有類的分類問題為切入點(diǎn),以代價(jià)敏感學(xué)習(xí)為支撐,以概率論、混沌理論、信息論、統(tǒng)計(jì)學(xué)為理論基礎(chǔ),首先從數(shù)據(jù)特征入手,提出一種基于混沌遺傳的代價(jià)敏感特征選擇方法,設(shè)計(jì)了基于文化基因構(gòu)架的高效代價(jià)敏感特征選擇方法;之后從數(shù)據(jù)實(shí)例角度出發(fā),并提出適用于不平衡數(shù)據(jù)集的雙向?qū)嵗x擇分層策略。通過上述策略及方法的使用,能夠?qū)^大規(guī)模不平衡網(wǎng)絡(luò)異常數(shù)據(jù)進(jìn)行分類前的綜合優(yōu)化處理,從而有效提升后續(xù)異常分類識(shí)別的效果。本文主要工作及所取得研究成果包括以下三個(gè)方面:(1)提出一種基于混沌遺傳的代價(jià)敏感特征選擇算法針對網(wǎng)絡(luò)異常數(shù)據(jù)類不平衡問題,引入代價(jià)敏感學(xué)習(xí)理論到特征選擇方法,聚焦于特征選擇階段的代價(jià)因素,設(shè)計(jì)出一種代價(jià)敏感特征選擇算法CSFSG,應(yīng)用于網(wǎng)絡(luò)異常數(shù)據(jù)分類。綜合考慮網(wǎng)絡(luò)異常事件識(shí)別過程中誤分類代價(jià)及測試代價(jià),借鑒貝葉斯理論,基于最近鄰規(guī)則構(gòu)造代價(jià)敏感適應(yīng)度函數(shù),利用混沌運(yùn)動(dòng)系統(tǒng)固有特性改進(jìn)基于Tent混沌映射優(yōu)化的遺傳搜索策略,改善遺傳搜索后期的收斂問題,以提高搜索速度。CSFSG注意兩種代價(jià)均衡關(guān)系,以最小化總代價(jià)為目標(biāo)。實(shí)驗(yàn)表明,CSFSG能夠有效簡化特征選擇過程得到有助于稀有類異常數(shù)據(jù)識(shí)別的特征子集,進(jìn)而達(dá)到可以降低算法運(yùn)行成本,提高異常攻擊識(shí)別精度的目標(biāo)。(2)提出基于文化基因構(gòu)架的高效代價(jià)敏感特征選擇算法針對大數(shù)據(jù)在資源受限環(huán)境中分析成本高、效率低的問題,改進(jìn)基于文化基因構(gòu)架的傳統(tǒng)特征選擇方法,引進(jìn)貝葉斯理論構(gòu)造代價(jià)矩陣,提出了一種以降低總誤分類成本并提高分類性能為目標(biāo)的高效代價(jià)敏感特征選擇算法CFSM。該算法使用遺傳算法進(jìn)行全局搜索,引入誤分類代價(jià)因子的總成本函數(shù)構(gòu)造適應(yīng)度函數(shù),通過使用近似馬爾科夫毯以信息相關(guān)系數(shù)為評價(jià)指標(biāo),微調(diào)增加相關(guān)特征,移除冗余或不相關(guān)特征,以提高最優(yōu)子集尋優(yōu)收斂速度。實(shí)驗(yàn)結(jié)果表明,CFSM在稀有類識(shí)別上表現(xiàn)出較好的性能。與基于遺傳算法的傳統(tǒng)文化基因架構(gòu)下特征選擇算法及代價(jià)敏感特征選擇算法相比,該算法更加高效且能以更少的特征及誤分類代價(jià)獲得更高的分類精度。(3)提出基于稀有類拓展的雙向?qū)嵗x擇分層策略當(dāng)不平衡的網(wǎng)絡(luò)數(shù)據(jù)遇到大規(guī);瘑栴},往往會(huì)造成網(wǎng)絡(luò)異常攻擊識(shí)別率降低,甚至失效。本文基于經(jīng)典分層理論,提出基于稀有類拓展的雙向?qū)嵗x擇分層策略。該策略根據(jù)實(shí)例類別選擇多數(shù)類,然后借助屬性與均勻分布隨機(jī)點(diǎn)定理構(gòu)造隨機(jī)數(shù)表達(dá)式的方式將其拓展為iSMOTE稀有類,并使得數(shù)據(jù)集趨于平衡。實(shí)驗(yàn)結(jié)果表明該策略可以有效提高稀有類別實(shí)例數(shù)量和分類效果,尤其在處理數(shù)量特別稀少的稀有類及數(shù)據(jù)量整體規(guī)模較大的數(shù)據(jù)集時(shí),其效果更加顯著。
[Abstract]:With the development of communication technology and the extensive integration of heterogeneous networks, network data presents an explosive growth trend. Although abnormal events belong to rare classes, it will still cause serious attacks and losses to the country, enterprises and individuals. How to improve the recognition rate of rare classes has become an urgent problem in the field of network security. This paper is based on the network The rare class in abnormal data is the research object, taking the classification of rare classes as the breakthrough point, taking the cost sensitive learning as the support, taking the probability theory, chaos theory, information theory and statistics as the theoretical basis. First, starting with the data characteristics, a method based on the chaotic genetic based generation valence sensitive feature selection is proposed, and a cultural genetic structure based on the cultural genetic structure is designed. The high efficient cost sensitive feature selection method of the frame, and then from the point of view of the data instance, and proposes a two way instance selection stratification strategy for unbalanced data sets. Through the use of the above strategy and method, the comprehensive optimization of the abnormal data of large scale unbalance network can be optimized before classification, which can effectively improve the subsequent exception. The main work and achievements of this paper include the following three aspects: (1) a cost sensitive feature selection algorithm based on chaos genetic algorithm is proposed for the network anomaly data imbalance problem, the cost sensitive learning theory is introduced to the feature selection method, and the cost factors focusing on the feature selection stage are designed. A cost sensitive feature selection algorithm, CSFSG, is applied to network anomaly data classification. Considering the cost of misclassification and testing cost in the process of network anomaly recognition, we use Bayesian theory to construct a cost sensitive fitness function based on the nearest neighbor rule, and improve the Tent chaos mapping optimization based on the inherent characteristics of the chaotic transport system. The genetic search strategy is used to improve the convergence problem of the late genetic search, to improve the search speed.CSFSG to pay attention to two cost equilibrium relations and minimize the total cost. The experiment shows that CSFSG can effectively simplify the feature selection process to help the rare class abnormal data recognition of other feature subsets, and thus can reduce the algorithm transport. (2) a high efficient and cost sensitive feature selection algorithm based on cultural genetic architecture is proposed to analyze the high cost and low efficiency of large data in the resource constrained environment, improve the traditional feature selection method based on the cultural genetic framework and introduce the Bayesian theory to construct the cost matrix. An efficient cost sensitive feature selection algorithm for reducing the total error classification cost and improving the classification performance CFSM., the algorithm uses the genetic algorithm for global search, and constructs the fitness function by introducing the total cost function of the misclassified cost factor. By using the approximate Malcov blanket, the information correlation coefficient is used as the evaluation index. The correlation features are added to remove redundant or unrelated features to improve the optimal convergence rate. The experimental results show that CFSM shows good performance in the recognition of rare classes. Compared with the traditional cultural genetic algorithm based feature selection algorithm and the cost sensitive feature selection algorithm based on the genetic algorithm, the algorithm is more efficient and can be used. Higher classification accuracy is obtained with fewer features and misclassification costs. (3) a hierarchical strategy of two-way case selection based on rare class expansion is proposed. When the imbalance of network data meets large-scale problems, the recognition rate of network anomaly attacks will often be reduced and even invalid. Based on the classical stratification theory, this paper proposes a rare class expansion. This strategy chooses most classes according to the class of instances, and then extends it to iSMOTE rare class by means of attribute and uniform distribution random point theorem, and makes the data set balanced. The experimental results show that the strategy can effectively improve the number and classification of rare class instances. The effect is especially significant when dealing with rare classes and data sets of large scale.
【學(xué)位授予單位】:太原理工大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP393.08
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 何勁松,施澤生;特征選擇方法中的信號(hào)分析方法研究[J];中國科學(xué)技術(shù)大學(xué)學(xué)報(bào);2001年01期
2 孫霞;鄭慶華;;一種面向非平衡數(shù)據(jù)的鄰居詞特征選擇方法[J];小型微型計(jì)算機(jī)系統(tǒng);2008年12期
3 蔣盛益;鄭琪;張倩生;;基于聚類的特征選擇方法[J];電子學(xué)報(bào);2008年S1期
4 王加龍;朱顥東;;結(jié)合類別相關(guān)性和辨識(shí)集的特征選擇方法[J];微型機(jī)與應(yīng)用;2009年23期
5 朱顥東;周姝;鐘勇;;結(jié)合差別對象對集的綜合性特征選擇方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年03期
6 姜慧研;柴天佑;;基于可信間隔的特征選擇方法研究[J];控制與決策;2011年08期
7 姚旭;王曉丹;張玉璽;權(quán)文;;特征選擇方法綜述[J];控制與決策;2012年02期
8 王志昊;王中卿;李壽山;李培峰;;不平衡情感分類中的特征選擇方法研究[J];中文信息學(xué)報(bào);2013年04期
9 張玉紅;周全;胡學(xué)鋼;;面向跨領(lǐng)域情感分類的特征選擇方法[J];模式識(shí)別與人工智能;2013年11期
10 李敏;卡米力·木依丁;;特征選擇方法與算法的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年12期
相關(guān)會(huì)議論文 前6條
1 徐燕;王斌;李錦濤;孫春明;;知識(shí)增益:文本分類中一種新的特征選擇方法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
2 肖婷;唐雁;;文本分類中特征選擇方法及應(yīng)用[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年
3 徐燕;孫春明;王斌;李錦濤;;基于詞條頻率的特征選擇算法研究[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
4 陳慶軒;鄭德權(quán);鄭博文;趙鐵軍;李生;;中文文本分類中基于文檔頻度分布的特征選擇方法[A];黑龍江省計(jì)算機(jī)學(xué)會(huì)2009年學(xué)術(shù)交流年會(huì)論文集[C];2010年
5 顧成杰;張順頤;劉凱;黃河;;基于粗糙集和禁忌搜索的特征選擇方法[A];江蘇省電子學(xué)會(huì)2010年學(xué)術(shù)年會(huì)論文集[C];2010年
6 王秀娟;郭軍;鄭康鋒;;基于互信息可信度的特征選擇方法[A];2006通信理論與技術(shù)新進(jìn)展——第十一屆全國青年通信學(xué)術(shù)會(huì)議論文集[C];2006年
相關(guān)博士學(xué)位論文 前6條
1 張逸石;基于冗余—互補(bǔ)散度及特征包絡(luò)前沿的數(shù)據(jù)驅(qū)動(dòng)特征選擇方法研究[D];華中科技大學(xué);2016年
2 邊婧;不平衡網(wǎng)絡(luò)異常數(shù)據(jù)代價(jià)敏感特征及實(shí)例選擇[D];太原理工大學(xué);2016年
3 毛勇;基于支持向量機(jī)的特征選擇方法的研究與應(yīng)用[D];浙江大學(xué);2006年
4 尹留志;關(guān)于非平衡數(shù)據(jù)特征問題的研究[D];中國科學(xué)技術(shù)大學(xué);2014年
5 裴志利;數(shù)據(jù)挖掘技術(shù)在文本分類和生物信息學(xué)中的應(yīng)用[D];吉林大學(xué);2008年
6 劉明霞;屬性學(xué)習(xí)若干重要問題的研究及應(yīng)用[D];南京航空航天大學(xué);2015年
相關(guān)碩士學(xué)位論文 前10條
1 曹晉;基于SVDD的特征選擇方法研究及其應(yīng)用[D];蘇州大學(xué);2015年
2 張強(qiáng);靜態(tài)圖像上的行人檢測方法研究[D];中國科學(xué)技術(shù)大學(xué);2015年
3 張曉梅;基于融合特征的微博主客觀分類方法研究[D];山西大學(xué);2014年
4 王君;基于SVM-RFE的特征選擇方法研究[D];大連理工大學(xué);2015年
5 于海珠;面向文本聚類的特征選擇方法及應(yīng)用研究[D];大連理工大學(xué);2015年
6 趙世琛;文本分類中特征選擇方法研究[D];山西大學(xué);2014年
7 王丹;特征選擇算法研究及其在異常檢測中的應(yīng)用[D];電子科技大學(xué);2014年
8 林艷峰;中文文本分類特征選擇方法的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2014年
9 盧志浩;基于GEP的kNN算法改進(jìn)研究[D];廣西師范學(xué)院;2015年
10 王立鵬;面向圖數(shù)據(jù)的特征選擇方法及其應(yīng)用研究[D];南京航空航天大學(xué);2015年
,本文編號(hào):2037764
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2037764.html