基于免疫克隆選擇的垃圾網(wǎng)頁(yè)檢測(cè)技術(shù)研究
發(fā)布時(shí)間:2017-12-19 17:22
本文關(guān)鍵詞:基于免疫克隆選擇的垃圾網(wǎng)頁(yè)檢測(cè)技術(shù)研究 出處:《西南交通大學(xué)》2014年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 搜索引擎作弊 垃圾網(wǎng)頁(yè) 人工免疫系統(tǒng) 克隆選擇 分類 集成學(xué)習(xí)
【摘要】:垃圾網(wǎng)頁(yè)是指一些網(wǎng)頁(yè)通過不正當(dāng)?shù)氖侄蝸碚`導(dǎo)搜索引擎,使網(wǎng)頁(yè)獲得高于其應(yīng)有的排名,從而獲得更多的訪問量,而它自身的質(zhì)量并沒有提高。垃圾網(wǎng)頁(yè)的出現(xiàn)破壞了搜索引擎排名的公正性,損害了用戶的搜索體驗(yàn),更為Web信息帶來嚴(yán)重的安全隱患。如何有效地檢測(cè)出垃圾網(wǎng)頁(yè),保障用戶的合法權(quán)益,成為搜索引擎面臨的巨大挑戰(zhàn)之一。因此,研究有效的垃圾網(wǎng)頁(yè)的檢測(cè)技術(shù)具有重要的意義及應(yīng)用價(jià)值。 本文首先介紹了搜索引擎對(duì)網(wǎng)頁(yè)排序的原理,分析了垃圾網(wǎng)頁(yè)的采用的作弊技術(shù)的類型及其原理與特點(diǎn),描述了相應(yīng)的垃圾網(wǎng)頁(yè)的檢測(cè)技術(shù)及研究現(xiàn)狀。接著介紹了人工免疫系統(tǒng)的原理及常用算法,以及人工免疫系統(tǒng)的特點(diǎn),重點(diǎn)分析了基于免疫克隆選擇的分類算法,這是一種新興的機(jī)器學(xué)習(xí)方法,在解決分類問題上非常有效。本文利用免疫克隆選擇來檢測(cè)垃圾網(wǎng)頁(yè),為垃圾網(wǎng)頁(yè)的檢測(cè)提供了一種新的研究方法和技術(shù)。 然后設(shè)計(jì)了基于免疫克隆選擇算法的垃圾網(wǎng)頁(yè)檢測(cè)系統(tǒng)框架,免疫克隆選擇算法是人工免疫系統(tǒng)中常用的算法,具有自學(xué)習(xí)、自適應(yīng)及區(qū)分自我與非我等能力,在本文中使用基于免疫克隆選擇的算法來檢測(cè)垃圾網(wǎng)頁(yè),同時(shí)加入特征選擇以去掉冗余和無效的特征來提高檢測(cè)效率及實(shí)用性。通過在數(shù)據(jù)集WEBSPAM-UK2006上的實(shí)驗(yàn),分析驗(yàn)證了算法在對(duì)不平衡數(shù)據(jù)集分類時(shí)的不足,通過加入抗體抑制機(jī)制并控制不同類別的抗體數(shù)目來改進(jìn)了免疫克隆選擇分類算法,使之在數(shù)據(jù)集不平衡的情況下也能有很好的檢測(cè)效果。并通過實(shí)驗(yàn)驗(yàn)證及與其他算法的實(shí)驗(yàn)對(duì)比,表明本文的基于改進(jìn)免疫克隆選擇算法的垃圾網(wǎng)頁(yè)檢測(cè)方法在數(shù)據(jù)集不平衡時(shí)對(duì)垃圾網(wǎng)頁(yè)也有非常好的檢測(cè)效果。 最后通過使用集成學(xué)習(xí)的方法,進(jìn)一步提升了算法的性能,通過實(shí)驗(yàn)驗(yàn)證使用Bagging集成方法構(gòu)造的基于改進(jìn)免疫克隆選擇的組合分類器在對(duì)Spam檢測(cè)及Normal檢測(cè)的各項(xiàng)指標(biāo)均有提高,比使用單一的基于改進(jìn)免疫克隆選擇的分類器取得了更好的檢測(cè)效果。
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 方賢進(jìn);李龍澍;;一般克隆選擇算法的收斂性證明[J];計(jì)算機(jī)應(yīng)用研究;2010年05期
2 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學(xué)報(bào);2007年01期
,本文編號(hào):1308788
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1308788.html
最近更新
教材專著