天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

搜索引擎排名算法及作弊檢測(cè)技術(shù)研究

發(fā)布時(shí)間:2016-10-25 10:08

  本文關(guān)鍵詞:搜索引擎排名算法及作弊檢測(cè)技術(shù)研究,,由筆耕文化傳播整理發(fā)布。


《山東大學(xué)》 2010年

搜索引擎排名算法及作弊檢測(cè)技術(shù)研究

王向陽(yáng)  

【摘要】: 隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)成為人們獲取信息的重要來(lái)源。搜索引擎作為互聯(lián)網(wǎng)信息檢索的入口,在信息獲取的過(guò)程中扮演著舉足輕重的角色。搜索引擎排名算法負(fù)責(zé)將最有價(jià)值的網(wǎng)頁(yè)優(yōu)先推薦給用戶,它在提高檢索服務(wù)質(zhì)量方面起著重要作用;阪溄臃治龅呐琶惴(如PageRank)在今天的搜索引擎中取得了巨大的成功,這種排名思想可以應(yīng)用到很多其他的信息檢索系統(tǒng)中。 然而搜索引擎排名算法目前面臨著一個(gè)嚴(yán)重問(wèn)題,那就是搜索引擎作弊。搜索引擎作弊是指通過(guò)不正當(dāng)?shù)氖侄?使某些網(wǎng)頁(yè)在搜索結(jié)果中獲得高于其實(shí)際價(jià)值的排名的欺騙行為。搜索引擎作弊不但會(huì)增加搜索引擎運(yùn)行成本、降低搜索性能,而且嚴(yán)重影響用戶體驗(yàn)。因此進(jìn)行搜索引擎作弊檢測(cè)、剔除互聯(lián)網(wǎng)上的作弊內(nèi)容,不論對(duì)搜索引擎還是對(duì)搜索用戶都具有重要意義。 本文工作主要包括兩個(gè)方面:1.將鏈接分析思想應(yīng)用到文獻(xiàn)檢索系統(tǒng)中,提出了一個(gè)基于PageRank的文獻(xiàn)質(zhì)量評(píng)價(jià)算法;2.提出了一個(gè)利用擴(kuò)展策略和鏈接相似度檢測(cè)搜索引擎作弊的方法。主要內(nèi)容概括如下: 1.首先對(duì)搜索引擎排名算法做了詳細(xì)的總結(jié)分析。在深入研究了搜索引擎排名算法的相關(guān)理論和技術(shù)的基礎(chǔ)上,我們提出了搜索引擎排名算法在文獻(xiàn)檢索系統(tǒng)中的一個(gè)應(yīng)用:基于PageRank的科技文獻(xiàn)質(zhì)量評(píng)價(jià)算法。該算法將PageRank思想引入到引文分析中,并綜合考慮科技文獻(xiàn)發(fā)表機(jī)構(gòu)、作者、被引次數(shù)、發(fā)表時(shí)間等因素,改進(jìn)了傳統(tǒng)的文獻(xiàn)質(zhì)量評(píng)價(jià)方法。實(shí)驗(yàn)證實(shí),該算法的評(píng)價(jià)結(jié)果比傳統(tǒng)方法更符合人們的期望。 2.在對(duì)各類搜索引擎作弊技術(shù)及目前各種作弊檢測(cè)技術(shù)作了研究綜述的基礎(chǔ)上,提出了一個(gè)基于擴(kuò)展策略和鏈接相似度的鏈接作弊檢測(cè)方法。我們的方法從一個(gè)較小的作弊網(wǎng)頁(yè)種子集合開(kāi)始,利用網(wǎng)頁(yè)間的鏈接相似關(guān)系擴(kuò)展種子集合,逐步發(fā)現(xiàn)更多的作弊網(wǎng)頁(yè)。目前網(wǎng)頁(yè)間的鏈接相似度直接沿用引文分析中的度量指標(biāo):Cocitation、Bibcoupling和Amsler。由于忽視了網(wǎng)頁(yè)間鏈接關(guān)系與論文間引文關(guān)系的區(qū)別,用這些指標(biāo)度量網(wǎng)頁(yè)間鏈接相似度會(huì)出現(xiàn)問(wèn)題。我們對(duì)這些指標(biāo)進(jìn)行了修正,提出了三種適用于Web網(wǎng)頁(yè)的新鏈接相似度,并將這三種新鏈接相似度應(yīng)用到基于擴(kuò)展策略的鏈接作弊檢測(cè)方法中。 3.通過(guò)實(shí)驗(yàn)驗(yàn)證了提出的機(jī)遇擴(kuò)展策略和鏈接相似度的作弊檢測(cè)方法。我們?cè)谝粋(gè)公開(kāi)數(shù)據(jù)集WEBSPAM-UK2006上測(cè)試了我們的方法,對(duì)結(jié)果進(jìn)行了比較分析,并與其他檢測(cè)方法做了對(duì)比。首先比較了在基于擴(kuò)展的方法中新提出的鏈接相似度與舊鏈接相似度的檢測(cè)效果,我們發(fā)現(xiàn)新鏈接相似度的檢測(cè)準(zhǔn)確率更高,但檢測(cè)結(jié)果數(shù)量相對(duì)較少。其次比較了三種新鏈接相似度的檢測(cè)效果,結(jié)果顯示三種新鏈接相似度的檢測(cè)性能各有所長(zhǎng)。最后我們將我們的檢測(cè)方法與兩種優(yōu)秀的檢測(cè)算法ATR和BRW做了對(duì)比,結(jié)果表明我們的方法在檢測(cè)準(zhǔn)確率和檢測(cè)結(jié)果數(shù)量方面均優(yōu)于ATR和BRW。

【關(guān)鍵詞】:
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2010
【分類號(hào)】:TP391.3
【目錄】:

  • 摘要8-10
  • ABSTRACT10-12
  • 第一章 緒論12-15
  • 1.1 引言12
  • 1.2 相關(guān)研究進(jìn)展12-13
  • 1.3 本文的工作13-14
  • 1.4 本文的結(jié)構(gòu)14-15
  • 第二章 一個(gè)基于PageRank的科技文獻(xiàn)質(zhì)量評(píng)價(jià)算法15-25
  • 2.1 引言15
  • 2.2 向量空間模型和TF-IDF15-16
  • 2.3 鏈接分析算法16-18
  • 2.3.1 PageRank算法17-18
  • 2.3.2 HITS算法18
  • 2.4 一個(gè)基于PageRank的科技文獻(xiàn)質(zhì)量評(píng)價(jià)算法18-24
  • 2.4.1 背景18-19
  • 2.4.2 鏈接分析與引文分析的比較19
  • 2.4.3 基于PageRank的科技文獻(xiàn)質(zhì)量評(píng)價(jià)算法19-22
  • 2.4.4 實(shí)驗(yàn)及結(jié)論22-24
  • 2.5 本章小結(jié)24-25
  • 第三章 搜索引擎作弊及其檢測(cè)技術(shù)25-42
  • 3.1 引言25
  • 3.2 搜索引擎作弊概述25-28
  • 3.2.1 定義25-26
  • 3.2.2 危害26
  • 3.2.3 現(xiàn)狀26-28
  • 3.3 搜索引擎作弊技術(shù)28-34
  • 3.3.1 內(nèi)容作弊28-30
  • 3.3.1.1 作弊原理28
  • 3.3.1.2 作弊方法28-30
  • 3.3.2 鏈接作弊30-33
  • 3.3.2.1 作弊原理30-31
  • 3.3.2.2 作弊方法31-33
  • 3.3.3 隱藏作弊33-34
  • 3.4 作弊檢測(cè)技術(shù)34-41
  • 3.4.1 內(nèi)容作弊檢測(cè)34-35
  • 3.4.2 鏈接作弊檢測(cè)35-39
  • 3.4.2.1 基于信任值(不信任值)傳播的方法35-38
  • 3.4.2.2 其他方法38-39
  • 3.4.3 隱藏作弊檢測(cè)39-40
  • 3.4.4 其他檢測(cè)技術(shù)40-41
  • 3.5 本章小結(jié)41-42
  • 第四章 基于擴(kuò)展策略和鏈接相似度的鏈接作弊檢測(cè)42-56
  • 4.1 引言42
  • 4.2 鏈接相似度42-46
  • 4.2.1 鏈接相似度42-43
  • 4.2.2 舊鏈接相似度及其缺點(diǎn)43-45
  • 4.2.3 新鏈接相似度45-46
  • 4.3 基于擴(kuò)展策略的檢測(cè)算法46-48
  • 4.3.1 目標(biāo)節(jié)點(diǎn)與支持節(jié)點(diǎn)46
  • 4.3.2 擴(kuò)展策略46-48
  • 4.3.3 擴(kuò)展策略的改進(jìn)48
  • 4.4 實(shí)驗(yàn)及結(jié)果分析48-55
  • 4.4.1 實(shí)驗(yàn)設(shè)置48-49
  • 4.4.1.1 實(shí)驗(yàn)數(shù)據(jù)集48
  • 4.4.1.2 種子集合48-49
  • 4.4.1.3 白名單49
  • 4.4.1.4 閾值的設(shè)置49
  • 4.4.2 實(shí)驗(yàn)結(jié)果和分析49-55
  • 4.4.2.1 舊鏈接相似度與新鏈接相似度比較49-51
  • 4.4.2.2 三種新鏈接相似度比較51-52
  • 4.4.2.3 中心節(jié)點(diǎn)與支持節(jié)點(diǎn)檢測(cè)52-54
  • 4.4.2.4 擴(kuò)展策略與ATR及BRW比較54-55
  • 4.5 本章小結(jié)55-56
  • 第五章 總結(jié)與展望56-58
  • 5.1 總結(jié)56-57
  • 5.2 展望57-58
  • 參考文獻(xiàn)58-64
  • 致謝64-65
  • 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文65-66
  • 學(xué)位論文評(píng)閱及答辯情況表66
  • 下載全文 更多同類文獻(xiàn)

    CAJ全文下載

    (如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【相似文獻(xiàn)】

    中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

    1 楊望;;Web Spam技術(shù)的發(fā)展與防御[J];中國(guó)教育網(wǎng)絡(luò);2011年07期

    2 方亞會(huì);;Google失敗后快速切換搜索引擎[J];電腦迷;2011年11期

    3 李曉鑫;;XiaoQBot網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)[J];硅谷;2011年13期

    4 余光華;;網(wǎng)站優(yōu)化對(duì)搜索引擎的影響[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2011年12期

    5 王福海;;基于PageRank的主題過(guò)濾算法改進(jìn)[J];科技信息;2011年15期

    6 張明蕾;;對(duì)“人肉搜索”的社會(huì)學(xué)解讀[J];電視時(shí)代;2010年04期

    7 馮慶峰;;信息時(shí)代如何獲取信息[J];成功(教育);2011年08期

    8 林麗華;;用好SOSO的微博搜索功能[J];電腦迷;2011年16期

    9 王民川;;Mp3資源下載器的設(shè)計(jì)策略解析[J];教育教學(xué)論壇;2011年21期

    10 ;15條經(jīng)典實(shí)用的網(wǎng)站優(yōu)化技巧[J];計(jì)算機(jī)與網(wǎng)絡(luò);2010年17期

    中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

    1 維尼拉·木沙江;吐?tīng)柡椤の崴韭?;維、哈、柯文搜索引擎中網(wǎng)頁(yè)爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

    2 馮艷卉;洪宇;顏振祥;姚建民;朱巧明;;基于搜索引擎的雙語(yǔ)混合網(wǎng)頁(yè)識(shí)別新方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

    3 白清源;林錦賢;謝麗聰;;信息自動(dòng)獲取系統(tǒng)的研究[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年

    4 彭軻;廖聞劍;;淺析搜索引擎[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年

    5 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國(guó)中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年

    6 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2010年

    7 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

    8 張冠群;杜建清;楊家海;;基于搜索引擎的網(wǎng)站流量估算模型[A];2009年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2009年

    9 石淑華;;利用搜索引擎檢索網(wǎng)絡(luò)生物信息的方法與技巧[A];山西省科學(xué)技術(shù)情報(bào)學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2004年

    10 梁循;何洋波;;企業(yè)內(nèi)嵌搜索引擎的定價(jià)問(wèn)題[A];中國(guó)運(yùn)籌學(xué)會(huì)第八屆學(xué)術(shù)交流會(huì)論文集[C];2006年

    中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

    1 林嘉澍;[N];經(jīng)濟(jì)觀察報(bào);2006年

    2 劉文君;[N];大眾科技報(bào);2007年

    3 主持人 本報(bào)記者 姜晨怡 本報(bào)實(shí)習(xí)生 馮志云;[N];科技日?qǐng)?bào);2011年

    4 本報(bào)記者 朱杰;[N];中國(guó)計(jì)算機(jī)報(bào);2009年

    5 商報(bào)記者 吳辰光;[N];北京商報(bào);2011年

    6 閆輝;[N];計(jì)算機(jī)世界;2005年

    7 何錟坡;[N];珠海特區(qū)報(bào);2008年

    8 本報(bào)記者 符王潤(rùn) 通訊員 湛立;[N];廣東科技報(bào);2009年

    9 本報(bào)記者 張磊;[N];中國(guó)消費(fèi)者報(bào);2010年

    10 記者 李大慶;[N];科技日?qǐng)?bào);2010年

    中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年

    2 岑榮偉;基于用戶行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年

    3 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

    4 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年

    5 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年

    6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年

    7 王镠璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年

    8 劉東飛;智能雙語(yǔ)搜索方法及搜索引擎的研究[D];武漢理工大學(xué);2009年

    9 李莎莎;面向搜索引擎的自然語(yǔ)言處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年

    10 白玉琪;空間信息搜索引擎研究[D];中國(guó)科學(xué)院研究生院(遙感應(yīng)用研究所);2003年

    中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實(shí)現(xiàn)[D];華南理工大學(xué);2010年

    2 陳冰泉;面向農(nóng)產(chǎn)品信息的主題搜索引擎與信息推薦[D];華南理工大學(xué);2010年

    3 時(shí)延軍;基于Nutch的分布式搜索引擎的設(shè)計(jì)與研究[D];長(zhǎng)春理工大學(xué);2010年

    4 張彬;基于lucene的搜索引擎[D];上海師范大學(xué);2010年

    5 王磊;基于Web數(shù)據(jù)挖掘的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];解放軍信息工程大學(xué);2010年

    6 呂韓飛;主題(topical)crawler及其應(yīng)用——主題搜索引擎[D];浙江大學(xué);2005年

    7 劉琨;搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2004年

    8 劉輝;搜索引擎聯(lián)邦算法設(shè)計(jì)與系統(tǒng)實(shí)現(xiàn)[D];清華大學(xué);2004年

    9 薛云;Internet上元搜索引擎的研究與設(shè)計(jì)[D];太原理工大學(xué);2003年

    10 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年


      本文關(guān)鍵詞:搜索引擎排名算法及作弊檢測(cè)技術(shù)研究,由筆耕文化傳播整理發(fā)布。



    本文編號(hào):152612

    資料下載
    論文發(fā)表

    本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/152612.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶3cd1e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com