集成Web質(zhì)量的垃圾網(wǎng)頁(yè)分級(jí)檢測(cè)機(jī)制研究
發(fā)布時(shí)間:2018-01-23 22:24
本文關(guān)鍵詞: 垃圾網(wǎng)頁(yè)檢測(cè) Web質(zhì)量特征 分級(jí)檢測(cè)機(jī)制 分類算法 Adaboost算法 出處:《西南交通大學(xué)》2013年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著互聯(lián)網(wǎng)爆炸式的高速發(fā)展,使用搜索引擎獲取信息已成為人們最頻繁使用的Web應(yīng)用之一。垃圾網(wǎng)頁(yè)的出現(xiàn)降低了搜索引擎的效率及名聲,并可能導(dǎo)致用戶遭受惡意攻擊或經(jīng)濟(jì)損失,同時(shí)使正規(guī)合法網(wǎng)站流失大量客戶,蒙受巨大的利益損害。因此,如何有效的檢測(cè)垃圾網(wǎng)頁(yè),保障Web信息安全,已成為互聯(lián)網(wǎng)搜索引擎面臨的一大挑戰(zhàn)。 垃圾網(wǎng)頁(yè)的檢測(cè)是一個(gè)分類問(wèn)題。傳統(tǒng)的垃圾網(wǎng)頁(yè)檢測(cè)方法通過(guò)提取網(wǎng)頁(yè)的特征來(lái)訓(xùn)練分類器,并用生成的分類模型對(duì)未標(biāo)注的網(wǎng)頁(yè)進(jìn)行分類。這個(gè)過(guò)程中有兩個(gè)不足點(diǎn):一是網(wǎng)頁(yè)特征的提取僅僅考慮了網(wǎng)頁(yè)的內(nèi)容特征和鏈接特征,而忽略了網(wǎng)頁(yè)的質(zhì)量特征;二是分類的結(jié)果只給出了網(wǎng)頁(yè)是否是垃圾網(wǎng)頁(yè),而沒(méi)有對(duì)于垃圾網(wǎng)頁(yè)究其內(nèi)容危害程度進(jìn)行分級(jí)。大量調(diào)研表明,權(quán)威性高的網(wǎng)站通常網(wǎng)頁(yè)質(zhì)量較高,而垃圾網(wǎng)站的網(wǎng)頁(yè)質(zhì)量通常較低。另外,按內(nèi)容危害程度對(duì)垃圾網(wǎng)頁(yè)進(jìn)行分級(jí)有助于搜索引擎制定更合理的過(guò)濾策略。因此本文綜合考慮了網(wǎng)頁(yè)的內(nèi)容特征、鏈接特征以及質(zhì)量特征,并對(duì)檢測(cè)出的垃圾網(wǎng)頁(yè)按其內(nèi)容危害程度進(jìn)行分級(jí),設(shè)計(jì)實(shí)現(xiàn)了一個(gè)集成Web質(zhì)量的垃圾網(wǎng)頁(yè)分級(jí)檢測(cè)原型系統(tǒng)。 最后,本文設(shè)計(jì)了多組對(duì)比實(shí)驗(yàn),使用WEBSPAM-UK2007網(wǎng)頁(yè)樣本集和中文網(wǎng)頁(yè)樣本集對(duì)垃圾網(wǎng)頁(yè)分級(jí)檢測(cè)系統(tǒng)進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文提出的分級(jí)檢測(cè)機(jī)制具有令人滿意的效果。
[Abstract]:With the rapid development of Internet explosion , the use of search engine to get information has become one of the most frequently used Web applications . The appearance of spam web pages reduces the efficiency and reputation of the search engine , and may lead to malicious attacks or economic losses . At the same time , it can lead users to suffer malicious attacks or economic losses . Therefore , how to effectively detect spam web pages and secure Web information security has become a major challenge for Internet search engines . The detection of spam web pages is a classification problem . The traditional spam web page detection method trains the classifier by extracting features of the web page , and classifies the untagged web pages by the generated classification model . Finally , a series of comparison experiments are designed , and the classification and detection system of spam web pages is verified by using Web page sample set and Chinese webpage sample set . The experimental results show that the grading detection mechanism proposed in this paper has a satisfactory effect .
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 韓曉紅;胡_g;;K-means聚類算法的研究[J];太原理工大學(xué)學(xué)報(bào);2009年03期
2 徐遠(yuǎn)超;劉江華;劉麗珍;關(guān)永;;基于Web的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];微計(jì)算機(jī)信息;2007年21期
3 朱焱;唐慧佳;馬永強(qiáng);;基于ISO/IEC 9126的Web資源質(zhì)量評(píng)測(cè)系統(tǒng)[J];西南交通大學(xué)學(xué)報(bào);2008年02期
4 鐘寧,尹旭日,陳世福;基于信息增益的最佳屬性集發(fā)現(xiàn)方法[J];小型微型計(jì)算機(jī)系統(tǒng);2002年04期
,本文編號(hào):1458386
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1458386.html
最近更新
教材專著