基于決策樹的搜索引擎惡意網(wǎng)頁(yè)檢測(cè)研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于決策樹的搜索引擎惡意網(wǎng)頁(yè)檢測(cè)研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
《湖南大學(xué)》 2013年
基于決策樹的搜索引擎惡意網(wǎng)頁(yè)檢測(cè)研究與實(shí)現(xiàn)
周浩
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息呈爆炸式的增長(zhǎng),具有資源整合功能的搜索引擎已經(jīng)成為人們獲取信息的首要途徑。然而大量釣魚網(wǎng)頁(yè)、惡意代碼鏈接充斥其中,給用戶帶來(lái)極大的安全隱患,避免用戶訪問(wèn)惡意的搜索鏈接具有深遠(yuǎn)而現(xiàn)實(shí)的意義。然而,現(xiàn)有的搜索引擎安全防御工具檢測(cè)范圍有限。本文力圖改善搜索引擎網(wǎng)頁(yè)檢測(cè)的覆蓋面,利用機(jī)器學(xué)習(xí)具有處理同類事物的泛化能力,讓檢測(cè)系統(tǒng)更加智能化。 為了正確而迅速地判定搜索引擎網(wǎng)頁(yè)的安全性,將網(wǎng)頁(yè)分為正常網(wǎng)頁(yè)和惡意網(wǎng)頁(yè),判定規(guī)則通過(guò)機(jī)器學(xué)習(xí)中的分類模型來(lái)獲得。 首先,對(duì)大量的惡意網(wǎng)頁(yè)與正常網(wǎng)頁(yè)進(jìn)行深入分析,,除了考慮網(wǎng)頁(yè)自身特征之外,選取了多種新的特征來(lái)檢測(cè)惡意網(wǎng)頁(yè),包括Google PageRank值及搜索結(jié)果數(shù)、Alexa流量信息、域名信息、WOT聲譽(yù)值等。相對(duì)于以往檢測(cè)網(wǎng)頁(yè)所選擇的特征而言,本文得到的網(wǎng)頁(yè)特征更具有健壯性、權(quán)威性,能夠更好的區(qū)分惡意網(wǎng)頁(yè)與正常網(wǎng)頁(yè),使得網(wǎng)頁(yè)檢測(cè)更具真實(shí)性、可靠性。 其次,采用多種提取技術(shù)獲得所選的網(wǎng)頁(yè)特征,利用機(jī)器學(xué)習(xí)中的分類算法,如樸素貝葉斯、支持向量機(jī)、K最近鄰、決策樹算法等從網(wǎng)頁(yè)特征集中生成分類模型。對(duì)分類性能優(yōu)越且判決復(fù)雜度低的J48決策樹模型加權(quán)疊加后,分類精度達(dá)到95.19%,能有效的評(píng)估網(wǎng)頁(yè)的安全性,適合用來(lái)對(duì)搜索引擎網(wǎng)頁(yè)進(jìn)行快速分類。 最后,擴(kuò)展了Chrome瀏覽器的功能,將機(jī)器學(xué)習(xí)生成的決策樹模型應(yīng)用到搜索引擎網(wǎng)頁(yè)檢測(cè)中。當(dāng)瀏覽器擴(kuò)展探測(cè)到用戶通過(guò)搜索引擎進(jìn)行查詢后,對(duì)于每個(gè)搜索引擎網(wǎng)頁(yè),利用異步的XMLHttpRequest從網(wǎng)絡(luò)中提取分類模型中的特征,將檢測(cè)的結(jié)果通過(guò)圖標(biāo)的形式及時(shí)反饋到搜索引擎網(wǎng)頁(yè)旁邊。通過(guò)在多款主流搜索引擎的大量搜索測(cè)試表明,所開發(fā)的擴(kuò)展能夠非常準(zhǔn)確且有效的對(duì)任意搜索引擎網(wǎng)頁(yè)進(jìn)行檢測(cè)。
【關(guān)鍵詞】:
【學(xué)位授予單位】:湖南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP393.08;TP391.3
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王爾丹;人群運(yùn)動(dòng)與密度估計(jì)技術(shù)研究[J];安全;2005年03期
2 馮學(xué)軍;;最小二乘支持向量機(jī)的研究與應(yīng)用[J];安慶師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2009年01期
3 周德強(qiáng);馮建中;;建筑物沉降預(yù)測(cè)的改進(jìn)Verhulst模型研究[J];地下空間與工程學(xué)報(bào);2011年01期
4 王立平;孔小梅;付夢(mèng)印;王美玲;張甲文;姜明;;Temperature Drift Modeling of FOG Based on LS-WSVM[J];Journal of China Ordnance;2008年03期
5 王亮;胡靜濤;;基于LS-SVM的光刻過(guò)程R2R預(yù)測(cè)控制方法[J];半導(dǎo)體技術(shù);2012年06期
6 田盛豐;基于核函數(shù)的學(xué)習(xí)算法[J];北方交通大學(xué)學(xué)報(bào);2003年02期
7 薛彥軼;劉曉東;;基于最小二乘支持向量機(jī)的航材備件需求建模[J];兵工自動(dòng)化;2007年06期
8 高博;譚永紅;張新良;;基于在線LSSVM的超聲波電機(jī)轉(zhuǎn)速預(yù)測(cè)器[J];兵工自動(dòng)化;2007年09期
9 張麗葉;鄭紹鈺;;基于LS-SVM的裝備研制費(fèi)用建模與分析[J];兵工自動(dòng)化;2009年02期
10 紀(jì)鳳珠;王長(zhǎng)龍;王瑾;孫欽蕾;;基于稀疏化LS-SVM的漏磁缺陷三維輪廓重構(gòu)[J];兵工學(xué)報(bào);2008年05期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 宋海鷹;桂衛(wèi)華;陽(yáng)春華;;基于核偏最小二乘的簡(jiǎn)約最小二乘支持向量機(jī)及其應(yīng)用研究[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年
2 宋海鷹;桂衛(wèi)華;陽(yáng)春華;;基于最小二乘支持向量機(jī)的Hammerstein-Wiener模型辨識(shí)[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年
3 ;Inverse System Control of Nonlinear Systems Using LS-SVM[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年
4 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年
5 ;A CDMA Signal Receiver Based on LS-SVM[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年
6 ;LS-SVM Based Stable Generalized Predictive Control[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
7 閻綱;梁昔明;龍祖強(qiáng);李翔;;一種新的提前一步預(yù)測(cè)控制算法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
8 孫玉坤;王博;丁慎平;;基于模糊支持向量機(jī)的賴氨酸發(fā)酵軟測(cè)量[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
9 ;GA Based LS-SVM Classifier for Waste Water Treatment Process[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
10 柴偉;孫先仿;喬俊飛;;有監(jiān)督的等距映射和k近鄰分類結(jié)合用于集員辨識(shí)[A];第二十九屆中國(guó)控制會(huì)議論文集[C];2010年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 趙瑩;半監(jiān)督支持向量機(jī)學(xué)習(xí)算法研究[D];哈爾濱工程大學(xué);2010年
2 李書艷;單點(diǎn)氨基酸多態(tài)性與疾病相關(guān)關(guān)系的預(yù)測(cè)及其機(jī)制研究[D];蘭州大學(xué);2010年
3 張明;電能質(zhì)量擾動(dòng)相關(guān)問(wèn)題研究[D];華中科技大學(xué);2010年
4 許偉;基于進(jìn)化算法的復(fù)雜化工過(guò)程智能建模方法及其應(yīng)用[D];華東理工大學(xué);2011年
5 向國(guó)齊;支持向量回歸機(jī)代理模型設(shè)計(jì)優(yōu)化及應(yīng)用研究[D];電子科技大學(xué);2010年
6 桑永勝;空間數(shù)據(jù)分析的神經(jīng)計(jì)算方法[D];電子科技大學(xué);2010年
7 渠瑜;基于SVM的高不平衡分類技術(shù)研究及其在電信業(yè)的應(yīng)用[D];浙江大學(xué);2010年
8 包鑫;穩(wěn)健回歸技術(shù)及其在光譜分析中的應(yīng)用[D];浙江大學(xué);2010年
9 甘良志;核學(xué)習(xí)算法與集成方法研究[D];浙江大學(xué);2010年
10 邵詠妮;水稻生長(zhǎng)生理特征信息快速無(wú)損獲取技術(shù)的研究[D];浙江大學(xué);2010年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 曾傳華;基于顏色和紋理特征的竹條分級(jí)方法研究[D];華中農(nóng)業(yè)大學(xué);2010年
2 田文娟;基于支持向量機(jī)的人民幣序列號(hào)識(shí)別方法的研究[D];山東科技大學(xué);2010年
3 孟培培;基于3S的土地督察信息系統(tǒng)研究[D];山東科技大學(xué);2010年
4 李海清;支持向量機(jī)在金融市場(chǎng)預(yù)測(cè)中的應(yīng)用[D];遼寧師范大學(xué);2010年
5 李光遠(yuǎn);基于在線聚類和最小二乘支持向量機(jī)的模糊建模方法研究[D];鄭州大學(xué);2010年
6 王巧立;微生物發(fā)酵過(guò)程的建模與優(yōu)化控制研究[D];鄭州大學(xué);2010年
7 曲昆鵬;基于支持向量機(jī)的雜草識(shí)別研究[D];哈爾濱工程大學(xué);2010年
8 田向偉;基于參數(shù)優(yōu)化LSSVM在轉(zhuǎn)爐煤氣系統(tǒng)預(yù)測(cè)中的應(yīng)用[D];大連理工大學(xué);2010年
9 穆大蕓;多變量時(shí)間序列預(yù)測(cè)與儲(chǔ)備池優(yōu)化方法研究[D];大連理工大學(xué);2010年
10 高和東;GPU并行計(jì)算在LSSVM建模中的研究與應(yīng)用[D];大連理工大學(xué);2010年
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 張曉宇;吳向前;張平洋;;農(nóng)業(yè)網(wǎng)站中垃圾網(wǎng)頁(yè)過(guò)濾方法的研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2011年01期
2 張繼剛;搜索引擎使用技巧[J];網(wǎng)絡(luò)與信息;1999年09期
3 ;關(guān)鍵詞搜索[J];每周電腦報(bào);2000年38期
4 陳冰;;餓狼一樣的網(wǎng)站提交工具——“提交餓狼”[J];科學(xué)之友;2000年07期
5 許斗;從Google看新一代搜索引擎的發(fā)展趨向[J];蕪湖職業(yè)技術(shù)學(xué)院學(xué)報(bào);2001年01期
6 周毅華;從搜索引擎的分類看其應(yīng)用技巧[J];圖書館理論與實(shí)踐;2002年06期
7 鄒小筑;搜索引擎的選擇與使用技巧[J];圖書館學(xué)研究;2002年05期
8 林燕;Google搜索引擎的搜索功能與使用技巧[J];河北科技圖苑;2003年05期
9 林中;GOOGLE搜索引擎的關(guān)鍵詞檢索[J];中國(guó)信息導(dǎo)報(bào);2003年03期
10 封劍待封喉;吸星大法“搜”天下 笑傲網(wǎng)絡(luò)任我行——搜索引擎絕對(duì)專題[J];網(wǎng)絡(luò)與信息;2003年07期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年
2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國(guó)中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年
3 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁(yè)爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
5 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計(jì)算機(jī)學(xué)會(huì)2008年年會(huì)論文集[C];2008年
6 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國(guó)開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年
7 倪俊峰;;基于黃頁(yè)搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2005年
8 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2010年
9 陳援非;何哲;朱珍民;;基于普適計(jì)算的個(gè)性化搜索技術(shù)[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2006)——第2屆中國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC'06)論文集[C];2006年
10 楊萌;李春麗;朱明;;網(wǎng)絡(luò)搜索技術(shù)下的編輯工作[A];學(xué)報(bào)編輯論叢(第十一集)[C];2003年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 李一鑫;[N];財(cái)經(jīng)時(shí)報(bào);2007年
2 周文林;[N];經(jīng)濟(jì)參考報(bào);2007年
3 惠正一;[N];第一財(cái)經(jīng)日?qǐng)?bào);2005年
4 賽迪顧問(wèn)股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;[N];中國(guó)計(jì)算機(jī)報(bào);2005年
5 陳珊;[N];人民郵電;2005年
6 趙法忠;[N];中國(guó)經(jīng)營(yíng)報(bào);2005年
7 金朝力;[N];北京商報(bào);2006年
8 本報(bào)記者 趙曉輝 孟昭麗;[N];中國(guó)證券報(bào);2006年
9 孫琎;[N];第一財(cái)經(jīng)日?qǐng)?bào);2006年
10 姜蕊;[N];中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2006年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 岑榮偉;基于用戶行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年
2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年
4 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年
5 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年
6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
7 王镠璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年
8 李莎莎;面向搜索引擎的自然語(yǔ)言處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
9 鄭文良;基于簡(jiǎn)單本體的農(nóng)業(yè)P2P搜索引擎關(guān)鍵技術(shù)研究[D];沈陽(yáng)農(nóng)業(yè)大學(xué);2013年
10 白玉琪;空間信息搜索引擎研究[D];中國(guó)科學(xué)院研究生院(遙感應(yīng)用研究所);2003年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 周浩;基于決策樹的搜索引擎惡意網(wǎng)頁(yè)檢測(cè)研究與實(shí)現(xiàn)[D];湖南大學(xué);2013年
2 胡金棟;網(wǎng)頁(yè)正文提取及去重技術(shù)研究[D];浙江大學(xué);2011年
3 張彬;基于lucene的搜索引擎[D];上海師范大學(xué);2010年
4 鄔柏;支持AJAX的分布式爬蟲系統(tǒng)的研究與實(shí)現(xiàn)[D];華中科技大學(xué);2013年
5 薛云;Internet上元搜索引擎的研究與設(shè)計(jì)[D];太原理工大學(xué);2003年
6 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年
7 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實(shí)現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年
8 董晨;基于模糊聚類的個(gè)性化搜索引擎的研究[D];福州大學(xué);2005年
9 封俊;基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)[D];太原理工大學(xué);2010年
10 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實(shí)現(xiàn)[D];華南理工大學(xué);2010年
本文關(guān)鍵詞:基于決策樹的搜索引擎惡意網(wǎng)頁(yè)檢測(cè)研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):126552
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/126552.html