基于語(yǔ)義分析的垃圾頁(yè)面檢測(cè)算法研究
本文選題:搜索引擎 + 垃圾網(wǎng)頁(yè)檢測(cè) ; 參考:《大連理工大學(xué)》2013年碩士論文
【摘要】:垃圾網(wǎng)頁(yè)是針對(duì)搜索引擎結(jié)果排名設(shè)計(jì)的,而不是為了提高用戶上網(wǎng)體驗(yàn)。為了能使某些頁(yè)面在搜索引擎的檢索排名中比較靠前,垃圾網(wǎng)頁(yè)制作者往往采用欺騙搜索引擎的手段。垃圾網(wǎng)頁(yè)的猖獗使得搜索引擎的檢索排名越來(lái)越不能反映網(wǎng)頁(yè)的真實(shí)價(jià)值,用戶的搜索體驗(yàn)不斷下降,垃圾網(wǎng)頁(yè)已經(jīng)成為搜索引擎面臨的最大挑戰(zhàn)之一。因此,研究有效的垃圾網(wǎng)頁(yè)檢測(cè)算法具有深遠(yuǎn)的意義。 本文首先對(duì)搜索引擎的工作原理進(jìn)行了簡(jiǎn)單描述,并介紹了幾種常用的垃圾網(wǎng)頁(yè)檢測(cè)技術(shù),對(duì)他們的研究狀況做了簡(jiǎn)單的分析。接著說(shuō)明了這些技術(shù)的基本原理以及他們的特點(diǎn),總結(jié)了一系列反搜索引擎技術(shù)。 本文針對(duì)垃圾網(wǎng)頁(yè)的特點(diǎn),圍繞特征提取和分類器設(shè)計(jì)等關(guān)鍵問(wèn)題進(jìn)行了研究,并用機(jī)器學(xué)習(xí)的方法,系統(tǒng)設(shè)計(jì)了垃圾網(wǎng)頁(yè)檢測(cè)框架。核心思想是提取網(wǎng)頁(yè)中具有代表性的內(nèi)容特征,然后用機(jī)器學(xué)習(xí)算法訓(xùn)練這些特征,構(gòu)建檢測(cè)模型,再用生成的檢測(cè)模型對(duì)網(wǎng)頁(yè)進(jìn)行分類。這樣就把垃圾網(wǎng)頁(yè)的檢測(cè)轉(zhuǎn)化成機(jī)器學(xué)習(xí)中的分類問(wèn)題,采用C4.5決策樹(shù)算法,將網(wǎng)頁(yè)分類為正常網(wǎng)頁(yè)和垃圾網(wǎng)頁(yè)。之后又加入了Bagging和Boosting方法,進(jìn)一步提高了分類的準(zhǔn)確度。本文在公開(kāi)的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集WEBSPAM-UK2007上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明用本文的基于語(yǔ)義分析的分類算法可以有效的檢測(cè)垃圾網(wǎng)頁(yè)。
[Abstract]:Spam pages are designed for ranking search engine results, not for improving the user's online experience. In order to make some pages rank higher in search engines, spam web page makers often use the means of cheating search engines. The rampant spam pages make the search ranking of search engines more and more unable to reflect the true value of web pages, and the search experience of users is declining. Spam pages have become one of the biggest challenges facing search engines. Therefore, it is of great significance to study the effective spam detection algorithm. In this paper, the working principle of search engine is briefly described, and several common spam page detection techniques are introduced, and their research status is analyzed briefly. Then it explains the basic principle of these technologies and their characteristics, and summarizes a series of anti-search engine technologies. According to the characteristics of garbage pages, this paper studies the key problems such as feature extraction and classifier design, and designs the detection framework of garbage pages by means of machine learning. The core idea is to extract the representative content features from web pages, then train these features with machine learning algorithm, construct the detection model, and then use the generated detection model to classify the web pages. In this way, the detection of garbage pages is transformed into a classification problem in machine learning, and C4.5 decision tree algorithm is used to classify web pages into normal pages and junk pages. Then Bagging and Boosting methods were added to further improve the accuracy of classification. The experimental results on the open standard test data set (WEBSPAM-UK2007) show that the classification algorithm based on semantic analysis can effectively detect garbage pages.
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王秋;;校園網(wǎng)頁(yè)設(shè)計(jì)[J];中國(guó)教育網(wǎng)絡(luò);2008年12期
2 一號(hào);;Dreamweaver必備網(wǎng)頁(yè)設(shè)計(jì)技巧[J];網(wǎng)絡(luò)與信息;2007年02期
3 ;平面設(shè)計(jì)師生存手冊(cè)(3) 機(jī)會(huì)風(fēng)從網(wǎng)上來(lái)[J];電腦愛(ài)好者;2009年20期
4 阿嘉;;東方網(wǎng)頁(yè)王Ⅲ 網(wǎng)頁(yè)制作一氣呵成[J];電腦采購(gòu)周刊;2001年43期
5 余晶;韓俊;;新聞網(wǎng)站設(shè)計(jì)中的視覺(jué)傳達(dá)[J];新聞前哨;2008年01期
6 劉海桃;;淺談網(wǎng)頁(yè)設(shè)計(jì)[J];科技傳播;2010年21期
7 林文發(fā);;網(wǎng)頁(yè)設(shè)計(jì)中的色彩搭配[J];信息與電腦(理論版);2010年12期
8 段新宇;;淺談網(wǎng)頁(yè)設(shè)計(jì)中的文字運(yùn)用[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2007年01期
9 唐雨薇;;CSS在網(wǎng)頁(yè)編程應(yīng)用[J];中國(guó)商界(下半月);2010年07期
10 鄭文碩;;如何搞好網(wǎng)頁(yè)設(shè)計(jì)的布局[J];China's Foreign Trade;2011年04期
相關(guān)會(huì)議論文 前10條
1 王謹(jǐn);;水墨風(fēng)格在網(wǎng)頁(yè)設(shè)計(jì)中的運(yùn)用[A];城市文化與藝術(shù)審美[C];2008年
2 許文惠;;圖書館網(wǎng)站及網(wǎng)頁(yè)設(shè)計(jì)初探[A];圖書館理論與實(shí)踐[C];2002年
3 王新;滕玉才;李長(zhǎng)富;;淺談船上甚高頻無(wú)線電話使用中的不良現(xiàn)象與管理[A];2002航海實(shí)用新技術(shù)論文集[C];2002年
4 孫宇航;;科技期刊網(wǎng)站的建設(shè)探討[A];第4屆中國(guó)科技期刊青年編輯學(xué)術(shù)研討會(huì)論文集[C];2004年
5 姚秋明;甄莉;;基于NEWS油藏綜合解釋系統(tǒng)的網(wǎng)站建設(shè)[A];油氣地球物理實(shí)用新技術(shù)——中國(guó)石化石油勘探開(kāi)發(fā)研究院南京石油物探研究所2005年學(xué)術(shù)交流會(huì)論文集[C];2005年
6 楊孫超;;縣級(jí)公共圖書館網(wǎng)站建設(shè)的思考[A];福建省圖書館學(xué)會(huì)2006年學(xué)術(shù)年會(huì)論文集[C];2006年
7 曹淮;晁丁丁;;3D元素在網(wǎng)頁(yè)信息傳達(dá)中的應(yīng)用研究[A];2006年中國(guó)機(jī)械工程學(xué)會(huì)年會(huì)暨中國(guó)工程院機(jī)械與運(yùn)載工程學(xué)部首屆年會(huì)論文集[C];2006年
8 時(shí)達(dá)明;林鴻飛;楊志豪;;基于網(wǎng)頁(yè)框架和規(guī)則的網(wǎng)頁(yè)噪音去除方法[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
9 杜玉梅;杜習(xí)英;劉曉云;;中小企業(yè)網(wǎng)站建設(shè)方案[A];計(jì)算機(jī)模擬與信息技術(shù)會(huì)議論文集[C];2001年
10 余嶸華;;大學(xué)物理網(wǎng)上教學(xué)系統(tǒng)的安全設(shè)計(jì)[A];全國(guó)第19屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2008年
相關(guān)重要報(bào)紙文章 前10條
1 本報(bào)記者 黃繼新;反垃圾信息:技術(shù)抑或法律?[N];經(jīng)濟(jì)觀察報(bào);2004年
2 楊永猛;西藏移動(dòng)維護(hù)消費(fèi)者權(quán)益[N];人民郵電;2008年
3 苗莎莎;內(nèi)蒙古移動(dòng)遏制不良信息出新舉[N];人民郵電;2008年
4 何宗卯 本報(bào)特約記者 李典勝;向垃圾信息說(shuō)不[N];解放軍報(bào);2011年
5 本報(bào)記者 劉燕;各大社區(qū)聯(lián)手打響垃圾信息圍殲戰(zhàn)[N];科技日?qǐng)?bào);2011年
6 ;垃圾信息有望繳清[N];中國(guó)電腦教育報(bào);2011年
7 本報(bào)記者 秦國(guó)防;綠色聯(lián)盟能否掃清信息垃圾[N];河南日?qǐng)?bào);2008年
8 記者 周國(guó)勇 實(shí)習(xí)生 金丹;手文明:你會(huì)丟東西嗎?[N];紹興日?qǐng)?bào);2011年
9 張英;權(quán)威調(diào)查:用戶平均每周收到8.29條垃圾短信[N];人民郵電;2006年
10 魏達(dá)嘉;跳出“一企一事” 關(guān)注國(guó)計(jì)民生[N];文匯報(bào);2006年
相關(guān)博士學(xué)位論文 前10條
1 程紅蓉;垃圾圖像特征提取與選擇研究[D];電子科技大學(xué);2011年
2 李輝;移動(dòng)商務(wù)導(dǎo)購(gòu)系統(tǒng)的研究[D];大連理工大學(xué);2008年
3 夏虎;移動(dòng)社交網(wǎng)絡(luò)結(jié)構(gòu)和行為研究及其應(yīng)用[D];電子科技大學(xué);2012年
4 盧湖川;人臉識(shí)別中幾個(gè)關(guān)鍵算法研究[D];大連理工大學(xué);2008年
5 劉衛(wèi)紅;垃圾郵件檢測(cè)與過(guò)濾關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2010年
6 鄧蔚;垃圾郵件過(guò)濾中的敵手分類問(wèn)題研究[D];電子科技大學(xué);2011年
7 張開(kāi)敏;移動(dòng)Web瀏覽系統(tǒng)的若干關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年
8 劉伍穎;面向垃圾信息過(guò)濾的主動(dòng)多域?qū)W習(xí)文本分類方法研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
9 田俊華;基于本體知識(shí)庫(kù)的教學(xué)資源自動(dòng)采集技術(shù)研究[D];南京師范大學(xué);2011年
10 賴布爾(Muhammad Nabeel Talib);語(yǔ)義支持的一種面向盲人使用者的電子商務(wù)語(yǔ)音瀏覽方法研究[D];華中科技大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 彭聰;一種在移動(dòng)網(wǎng)絡(luò)環(huán)境下的網(wǎng)頁(yè)排序算法的研究[D];湖南大學(xué);2010年
2 劉俊榮;基于行為識(shí)別的網(wǎng)頁(yè)文本分類算法研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2010年
3 宋鰲;網(wǎng)頁(yè)去噪在交互電視中的應(yīng)用與研究[D];上海交通大學(xué);2011年
4 任昌;基于多特征融合的網(wǎng)頁(yè)對(duì)象自動(dòng)定位技術(shù)研究[D];中北大學(xué);2011年
5 劉陽(yáng);基于內(nèi)容的搜索引擎網(wǎng)頁(yè)去重研究[D];江蘇大學(xué);2010年
6 陳燁;面向用戶體驗(yàn)的網(wǎng)頁(yè)界面優(yōu)化設(shè)計(jì)方法研究[D];重慶大學(xué);2010年
7 劉典型;多頁(yè)面特殊網(wǎng)頁(yè)文字提取與合并技術(shù)研究[D];湖南大學(xué);2010年
8 董娟;基于頁(yè)面結(jié)構(gòu)分析的網(wǎng)頁(yè)信息抽取方法研究[D];中國(guó)石油大學(xué);2010年
9 李文嬌;基于語(yǔ)義分析的垃圾頁(yè)面檢測(cè)算法研究[D];大連理工大學(xué);2013年
10 宋玲;網(wǎng)頁(yè)交互設(shè)計(jì)的視覺(jué)體驗(yàn)[D];西安美術(shù)學(xué)院;2010年
,本文編號(hào):1849346
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1849346.html