天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于AdaBoost算法的網(wǎng)絡(luò)釣魚(yú)檢測(cè)系統(tǒng)的研究

發(fā)布時(shí)間:2017-09-14 05:42

  本文關(guān)鍵詞:基于AdaBoost算法的網(wǎng)絡(luò)釣魚(yú)檢測(cè)系統(tǒng)的研究


  更多相關(guān)文章: 網(wǎng)絡(luò)釣魚(yú) 特征 機(jī)器學(xué)習(xí) AdaBoost 代價(jià)


【摘要】:網(wǎng)絡(luò)釣魚(yú)通常利用郵件或者高度模仿的網(wǎng)頁(yè)對(duì)用戶進(jìn)行欺詐犯罪。如今,網(wǎng)絡(luò)釣魚(yú)的攻擊形式更加多元化,使得釣魚(yú)攻擊的防范和檢測(cè)變得更加困難。據(jù)統(tǒng)計(jì),近年來(lái)釣魚(yú)攻擊帶來(lái)的損失呈現(xiàn)翻倍式的上升。因此,網(wǎng)絡(luò)釣魚(yú)已成為危害網(wǎng)絡(luò)安全的最主要因素之一。它不僅降低了網(wǎng)絡(luò)中人與人之間的信任度,而且嚴(yán)重阻礙了電子商務(wù)的發(fā)展。當(dāng)前常見(jiàn)的釣魚(yú)檢測(cè)技術(shù)存在檢測(cè)層面單一,信息獲取不夠全面等問(wèn)題,因此,本文提出了一種URL黑白名單過(guò)濾結(jié)合機(jī)器學(xué)習(xí)(Ada Boost算法)分類(lèi)的檢測(cè)方法。主要工作如下:對(duì)待檢測(cè)的網(wǎng)站首先經(jīng)過(guò)URL黑白名單過(guò)濾,若是匹配成功作為結(jié)果輸出,若是匹配失敗,則進(jìn)行下一步分類(lèi)器的檢測(cè)。通過(guò)這種檢測(cè)方法,可以快速的檢測(cè)出時(shí)效性較差的釣魚(yú)網(wǎng)站。新形式的釣魚(yú)網(wǎng)站可以通過(guò)機(jī)器學(xué)習(xí)的方法進(jìn)行檢測(cè)。分類(lèi)器檢測(cè)關(guān)鍵之處在于特征的如何提取。為了獲得釣魚(yú)網(wǎng)站足夠的信息,本文從URL中提取了14個(gè)特征,從網(wǎng)頁(yè)結(jié)構(gòu)中提取了5個(gè)特征,從網(wǎng)頁(yè)內(nèi)容中提取了大量的特征用于分類(lèi)器的訓(xùn)練和檢測(cè)。特征中可能參雜著大量的噪聲,以及維度較高等問(wèn)題,因此,加入數(shù)據(jù)預(yù)處理模塊進(jìn)行降維和去除噪聲。通過(guò)比較K-近鄰算法、樸素貝葉斯算法、邏輯回歸和Ada Boost算法的檢測(cè)性能,最終選取Ada Boost算法作為本文的檢測(cè)方法。由于釣魚(yú)網(wǎng)站檢測(cè)存在非平衡代價(jià)問(wèn)題,提出一種改進(jìn)算法Ada Cost Boost,實(shí)驗(yàn)結(jié)果表明,改進(jìn)的算法在保證檢測(cè)精準(zhǔn)性的同時(shí)降低了正規(guī)網(wǎng)站的誤判率,減小了誤判帶來(lái)的影響,提高了其在實(shí)際應(yīng)用中的可能性。
【關(guān)鍵詞】:網(wǎng)絡(luò)釣魚(yú) 特征 機(jī)器學(xué)習(xí) AdaBoost 代價(jià)
【學(xué)位授予單位】:江西理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP393.08
【目錄】:
  • 摘要4-5
  • Abstract5-8
  • 第一章 緒論8-14
  • 1.1 研究的背景和意義8-9
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-12
  • 1.2.1 基于黑白名單檢測(cè)機(jī)制10
  • 1.2.2 基于網(wǎng)站鏈接檢測(cè)機(jī)制10-11
  • 1.2.3 基于頁(yè)面相似度檢測(cè)機(jī)制11-12
  • 1.2.4 身份認(rèn)證機(jī)制12
  • 1.3 研究?jī)?nèi)容和目的12-13
  • 1.4 本文組織結(jié)構(gòu)13-14
  • 第二章 相關(guān)技術(shù)研究14-19
  • 2.1 網(wǎng)絡(luò)釣魚(yú)攻擊技術(shù)14-16
  • 2.2 機(jī)器學(xué)習(xí)簡(jiǎn)介16
  • 2.3 AdaBoost算法原理16-17
  • 2.4 分詞技術(shù)17-18
  • 2.4.1 正向最大匹配法17-18
  • 2.4.2 逆向最大匹配法18
  • 2.4.3 雙向最大匹配法18
  • 2.5 本章小結(jié)18-19
  • 第三章 網(wǎng)絡(luò)釣魚(yú)檢測(cè)系統(tǒng)的設(shè)計(jì)19-37
  • 3.1 當(dāng)前網(wǎng)絡(luò)釣魚(yú)檢測(cè)技術(shù)比較19-20
  • 3.2 系統(tǒng)設(shè)計(jì)流程20-21
  • 3.3 黑白名單過(guò)濾21
  • 3.4 URL中特征提取21-26
  • 3.5 網(wǎng)頁(yè)結(jié)構(gòu)中提取特征26-29
  • 3.6 網(wǎng)頁(yè)內(nèi)容中提取特征29-33
  • 3.6.1 分詞處理流程30-31
  • 3.6.2 TF-IDF與特征值計(jì)算31-33
  • 3.7 數(shù)據(jù)預(yù)處理33-36
  • 3.7.1 矩陣、特征值基礎(chǔ)知識(shí)33-34
  • 3.7.2 矩陣分解34-35
  • 3.7.3 低階近似35-36
  • 3.8 分類(lèi)器檢測(cè)36
  • 3.9 人工審核36
  • 3.10 本章小結(jié)36-37
  • 第四章 分類(lèi)器模型的選取37-50
  • 4.1 K-近鄰算法模型37
  • 4.2 樸素貝葉斯模型37-39
  • 4.3 邏輯回歸39-41
  • 4.4 分類(lèi)器檢測(cè)性能比較41-45
  • 4.4.1 檢測(cè)主要指標(biāo)42-43
  • 4.4.2 實(shí)驗(yàn)樣本集43-44
  • 4.4.3 實(shí)驗(yàn)結(jié)果44-45
  • 4.5 AdaBoost算法的改進(jìn)45-46
  • 4.6 實(shí)驗(yàn)結(jié)果與分析46-49
  • 4.6.1 非均衡性指標(biāo)評(píng)價(jià)46-47
  • 4.6.2 實(shí)驗(yàn)數(shù)據(jù)的選取47
  • 4.6.3 訓(xùn)練樣本集中正負(fù)樣本的比例47-48
  • 4.6.4 實(shí)驗(yàn)結(jié)果48-49
  • 4.7 本章小結(jié)49-50
  • 第五章 總結(jié)和展望50-52
  • 5.1 論文工作總結(jié)50
  • 5.2 研究展望50-52
  • 參考文獻(xiàn)52-55
  • 致謝55-56
  • 攻讀學(xué)位期間的研究成果56-57

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 陳好剛;王運(yùn)瓊;馮喬生;王樹(shù)峰;王培涌;;一種基于2DPCA和LDA的人臉表情識(shí)別算法[J];微計(jì)算機(jī)信息;2010年25期

2 劉q,

本文編號(hào):848222


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/848222.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5ec48***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com