天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

隱藏型垃圾網(wǎng)頁檢測技術(shù)的研究與實現(xiàn)

發(fā)布時間:2018-03-21 12:46

  本文選題:垃圾網(wǎng)頁 切入點:隱藏型垃圾網(wǎng)頁 出處:《西南交通大學(xué)》2012年碩士論文 論文類型:學(xué)位論文


【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展和普及,Web信息出現(xiàn)了爆炸式的增長,搜索引擎已成為人們從這些海量信息中獲取所需信息不可或缺的工具。但在搜索結(jié)果中,排在前幾位的并不是用戶真正所需的網(wǎng)頁,而是垃圾網(wǎng)頁制造者使用黑帽SEO技術(shù)制造的與搜索不相關(guān)的垃圾網(wǎng)頁,甚至是具有欺詐性的重定向垃圾網(wǎng)頁。從而浪費了搜索引擎用戶的時間,也降低了搜索引擎公司的信譽。在垃圾網(wǎng)頁中,隱藏型垃圾網(wǎng)頁具有隱蔽性、欺騙性和難以檢測等多個特點,已成為垃圾網(wǎng)頁檢測領(lǐng)域,一個亟待解決的問題。 本文綜述了目前國內(nèi)外隱藏型垃圾網(wǎng)頁檢測技術(shù)的研究,詳細(xì)分析了隱藏型垃圾網(wǎng)頁技術(shù)特點和類型,特別研究了其中的重定向垃圾網(wǎng)頁實現(xiàn)技術(shù)。總結(jié)歸納了重定向垃圾網(wǎng)頁類型,詳細(xì)分析了這些現(xiàn)象的特征和成因。 本文根據(jù)已總結(jié)的重定向垃圾現(xiàn)象,提出了一種面向搜索結(jié)果的重定向垃圾網(wǎng)頁檢測算法,設(shè)計了面向搜索結(jié)果的重定向檢測系統(tǒng)框架,能對搜索結(jié)果的重定向垃圾網(wǎng)頁做出有效地檢測。 本文構(gòu)建了一個中文垃圾關(guān)鍵詞庫和中文重定向檢測樣本數(shù)據(jù)集,通過實驗對提出的重定向檢測算法進行了驗證,并從混淆矩陣、關(guān)鍵詞、偽裝網(wǎng)頁類型、重定向類型和垃圾網(wǎng)站等多個方面進行了統(tǒng)計分析,獲得了很有價值的實驗結(jié)果。
[Abstract]:With the development and popularization of the Internet and the explosive growth of Web information, search engines have become an indispensable tool for people to obtain the information they need from these huge amounts of information. At the top of the list are not the pages that users really need, but the spam web pages that spammers use black hat SEO technology to create spam pages that are not related to search. Even fraudulent redirection of spam pages wastes the time of search engine users and reduces the reputation of search engine companies. In spam pages, hidden spam pages are hidden. Deceptive and difficult to detect and other characteristics, has become a spam detection field, a problem to be solved. In this paper, the current research on hidden garbage page detection technology at home and abroad is reviewed, and the characteristics and types of hidden garbage page technology are analyzed in detail. Especially, the realization technology of redirected garbage pages is studied, and the types of redirected garbage pages are summarized, and the characteristics and causes of these phenomena are analyzed in detail. In this paper, according to the phenomenon of redirected garbage, a search result oriented redirection garbage detection algorithm is proposed, and the framework of search result oriented redirection detection system is designed. Search results can be redirected spam pages to make an effective detection. In this paper, we construct a Chinese garbage keyword library and Chinese redirect detection sample data set, and verify the proposed redirection detection algorithm through experiments, and from the confusion matrix, keyword, camouflage page type, The statistical analysis of redirection type and spam website is carried out, and valuable experimental results are obtained.
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP311.52

【參考文獻】

相關(guān)期刊論文 前4條

1 王暾;;基于JavaScript的網(wǎng)頁重定向作弊技術(shù)研究[J];計算機與數(shù)字工程;2012年03期

2 魏小娟;李翠平;陳紅;;Co-Training——內(nèi)容和鏈接的Web Spam檢測方法[J];計算機科學(xué)與探索;2010年10期

3 余慧佳;劉奕群;張敏;馬少平;茹立云;;基于目的分析的作弊頁面分類[J];中文信息學(xué)報;2009年02期

4 李智超;余慧佳;劉奕群;馬少平;;網(wǎng)頁作弊與反作弊技術(shù)綜述[J];山東大學(xué)學(xué)報(理學(xué)版);2011年05期

相關(guān)碩士學(xué)位論文 前4條

1 朱丹梅;搜索引擎作弊檢測方法研究[D];南京郵電大學(xué);2011年

2 茍全登;基于XML的半結(jié)構(gòu)化Web信息提取的研究[D];電子科技大學(xué);2006年

3 王旭東;基于Web的信息抽取技術(shù)研究[D];西南交通大學(xué);2008年

4 石占偉;垃圾頁面檢測及其在垂直搜索引擎中的應(yīng)用[D];燕山大學(xué);2010年

,

本文編號:1643917

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1643917.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a44c6***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com