搜索引擎排名算法及作弊檢測(cè)技術(shù)研究
本文關(guān)鍵詞:搜索引擎排名算法及作弊檢測(cè)技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
《山東大學(xué)》 2010年
搜索引擎排名算法及作弊檢測(cè)技術(shù)研究
王向陽(yáng)
【摘要】: 隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)成為人們獲取信息的重要來(lái)源。搜索引擎作為互聯(lián)網(wǎng)信息檢索的入口,在信息獲取的過(guò)程中扮演著舉足輕重的角色。搜索引擎排名算法負(fù)責(zé)將最有價(jià)值的網(wǎng)頁(yè)優(yōu)先推薦給用戶,它在提高檢索服務(wù)質(zhì)量方面起著重要作用;阪溄臃治龅呐琶惴(如PageRank)在今天的搜索引擎中取得了巨大的成功,這種排名思想可以應(yīng)用到很多其他的信息檢索系統(tǒng)中。 然而搜索引擎排名算法目前面臨著一個(gè)嚴(yán)重問(wèn)題,那就是搜索引擎作弊。搜索引擎作弊是指通過(guò)不正當(dāng)?shù)氖侄?使某些網(wǎng)頁(yè)在搜索結(jié)果中獲得高于其實(shí)際價(jià)值的排名的欺騙行為。搜索引擎作弊不但會(huì)增加搜索引擎運(yùn)行成本、降低搜索性能,而且嚴(yán)重影響用戶體驗(yàn)。因此進(jìn)行搜索引擎作弊檢測(cè)、剔除互聯(lián)網(wǎng)上的作弊內(nèi)容,不論對(duì)搜索引擎還是對(duì)搜索用戶都具有重要意義。 本文工作主要包括兩個(gè)方面:1.將鏈接分析思想應(yīng)用到文獻(xiàn)檢索系統(tǒng)中,提出了一個(gè)基于PageRank的文獻(xiàn)質(zhì)量評(píng)價(jià)算法;2.提出了一個(gè)利用擴(kuò)展策略和鏈接相似度檢測(cè)搜索引擎作弊的方法。主要內(nèi)容概括如下: 1.首先對(duì)搜索引擎排名算法做了詳細(xì)的總結(jié)分析。在深入研究了搜索引擎排名算法的相關(guān)理論和技術(shù)的基礎(chǔ)上,我們提出了搜索引擎排名算法在文獻(xiàn)檢索系統(tǒng)中的一個(gè)應(yīng)用:基于PageRank的科技文獻(xiàn)質(zhì)量評(píng)價(jià)算法。該算法將PageRank思想引入到引文分析中,并綜合考慮科技文獻(xiàn)發(fā)表機(jī)構(gòu)、作者、被引次數(shù)、發(fā)表時(shí)間等因素,改進(jìn)了傳統(tǒng)的文獻(xiàn)質(zhì)量評(píng)價(jià)方法。實(shí)驗(yàn)證實(shí),該算法的評(píng)價(jià)結(jié)果比傳統(tǒng)方法更符合人們的期望。 2.在對(duì)各類搜索引擎作弊技術(shù)及目前各種作弊檢測(cè)技術(shù)作了研究綜述的基礎(chǔ)上,提出了一個(gè)基于擴(kuò)展策略和鏈接相似度的鏈接作弊檢測(cè)方法。我們的方法從一個(gè)較小的作弊網(wǎng)頁(yè)種子集合開(kāi)始,利用網(wǎng)頁(yè)間的鏈接相似關(guān)系擴(kuò)展種子集合,逐步發(fā)現(xiàn)更多的作弊網(wǎng)頁(yè)。目前網(wǎng)頁(yè)間的鏈接相似度直接沿用引文分析中的度量指標(biāo):Cocitation、Bibcoupling和Amsler。由于忽視了網(wǎng)頁(yè)間鏈接關(guān)系與論文間引文關(guān)系的區(qū)別,用這些指標(biāo)度量網(wǎng)頁(yè)間鏈接相似度會(huì)出現(xiàn)問(wèn)題。我們對(duì)這些指標(biāo)進(jìn)行了修正,提出了三種適用于Web網(wǎng)頁(yè)的新鏈接相似度,并將這三種新鏈接相似度應(yīng)用到基于擴(kuò)展策略的鏈接作弊檢測(cè)方法中。 3.通過(guò)實(shí)驗(yàn)驗(yàn)證了提出的機(jī)遇擴(kuò)展策略和鏈接相似度的作弊檢測(cè)方法。我們?cè)谝粋(gè)公開(kāi)數(shù)據(jù)集WEBSPAM-UK2006上測(cè)試了我們的方法,對(duì)結(jié)果進(jìn)行了比較分析,并與其他檢測(cè)方法做了對(duì)比。首先比較了在基于擴(kuò)展的方法中新提出的鏈接相似度與舊鏈接相似度的檢測(cè)效果,我們發(fā)現(xiàn)新鏈接相似度的檢測(cè)準(zhǔn)確率更高,但檢測(cè)結(jié)果數(shù)量相對(duì)較少。其次比較了三種新鏈接相似度的檢測(cè)效果,結(jié)果顯示三種新鏈接相似度的檢測(cè)性能各有所長(zhǎng)。最后我們將我們的檢測(cè)方法與兩種優(yōu)秀的檢測(cè)算法ATR和BRW做了對(duì)比,結(jié)果表明我們的方法在檢測(cè)準(zhǔn)確率和檢測(cè)結(jié)果數(shù)量方面均優(yōu)于ATR和BRW。
【關(guān)鍵詞】:
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2010
【分類號(hào)】:TP391.3
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 楊望;;Web Spam技術(shù)的發(fā)展與防御[J];中國(guó)教育網(wǎng)絡(luò);2011年07期
2 方亞會(huì);;Google失敗后快速切換搜索引擎[J];電腦迷;2011年11期
3 李曉鑫;;XiaoQBot網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)[J];硅谷;2011年13期
4 余光華;;網(wǎng)站優(yōu)化對(duì)搜索引擎的影響[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2011年12期
5 王福海;;基于PageRank的主題過(guò)濾算法改進(jìn)[J];科技信息;2011年15期
6 張明蕾;;對(duì)“人肉搜索”的社會(huì)學(xué)解讀[J];電視時(shí)代;2010年04期
7 馮慶峰;;信息時(shí)代如何獲取信息[J];成功(教育);2011年08期
8 林麗華;;用好SOSO的微博搜索功能[J];電腦迷;2011年16期
9 王民川;;Mp3資源下載器的設(shè)計(jì)策略解析[J];教育教學(xué)論壇;2011年21期
10 ;15條經(jīng)典實(shí)用的網(wǎng)站優(yōu)化技巧[J];計(jì)算機(jī)與網(wǎng)絡(luò);2010年17期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 維尼拉·木沙江;吐?tīng)柡椤の崴韭?;維、哈、柯文搜索引擎中網(wǎng)頁(yè)爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
2 馮艷卉;洪宇;顏振祥;姚建民;朱巧明;;基于搜索引擎的雙語(yǔ)混合網(wǎng)頁(yè)識(shí)別新方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
3 白清源;林錦賢;謝麗聰;;信息自動(dòng)獲取系統(tǒng)的研究[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年
4 彭軻;廖聞劍;;淺析搜索引擎[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年
5 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國(guó)中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年
6 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2010年
7 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
8 張冠群;杜建清;楊家海;;基于搜索引擎的網(wǎng)站流量估算模型[A];2009年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2009年
9 石淑華;;利用搜索引擎檢索網(wǎng)絡(luò)生物信息的方法與技巧[A];山西省科學(xué)技術(shù)情報(bào)學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2004年
10 梁循;何洋波;;企業(yè)內(nèi)嵌搜索引擎的定價(jià)問(wèn)題[A];中國(guó)運(yùn)籌學(xué)會(huì)第八屆學(xué)術(shù)交流會(huì)論文集[C];2006年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 林嘉澍;[N];經(jīng)濟(jì)觀察報(bào);2006年
2 劉文君;[N];大眾科技報(bào);2007年
3 主持人 本報(bào)記者 姜晨怡 本報(bào)實(shí)習(xí)生 馮志云;[N];科技日?qǐng)?bào);2011年
4 本報(bào)記者 朱杰;[N];中國(guó)計(jì)算機(jī)報(bào);2009年
5 商報(bào)記者 吳辰光;[N];北京商報(bào);2011年
6 閆輝;[N];計(jì)算機(jī)世界;2005年
7 何錟坡;[N];珠海特區(qū)報(bào);2008年
8 本報(bào)記者 符王潤(rùn) 通訊員 湛立;[N];廣東科技報(bào);2009年
9 本報(bào)記者 張磊;[N];中國(guó)消費(fèi)者報(bào);2010年
10 記者 李大慶;[N];科技日?qǐng)?bào);2010年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年
2 岑榮偉;基于用戶行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年
3 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
4 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年
5 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年
6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
7 王镠璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年
8 劉東飛;智能雙語(yǔ)搜索方法及搜索引擎的研究[D];武漢理工大學(xué);2009年
9 李莎莎;面向搜索引擎的自然語(yǔ)言處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
10 白玉琪;空間信息搜索引擎研究[D];中國(guó)科學(xué)院研究生院(遙感應(yīng)用研究所);2003年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實(shí)現(xiàn)[D];華南理工大學(xué);2010年
2 陳冰泉;面向農(nóng)產(chǎn)品信息的主題搜索引擎與信息推薦[D];華南理工大學(xué);2010年
3 時(shí)延軍;基于Nutch的分布式搜索引擎的設(shè)計(jì)與研究[D];長(zhǎng)春理工大學(xué);2010年
4 張彬;基于lucene的搜索引擎[D];上海師范大學(xué);2010年
5 王磊;基于Web數(shù)據(jù)挖掘的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];解放軍信息工程大學(xué);2010年
6 呂韓飛;主題(topical)crawler及其應(yīng)用——主題搜索引擎[D];浙江大學(xué);2005年
7 劉琨;搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2004年
8 劉輝;搜索引擎聯(lián)邦算法設(shè)計(jì)與系統(tǒng)實(shí)現(xiàn)[D];清華大學(xué);2004年
9 薛云;Internet上元搜索引擎的研究與設(shè)計(jì)[D];太原理工大學(xué);2003年
10 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年
本文關(guān)鍵詞:搜索引擎排名算法及作弊檢測(cè)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):152612
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/152612.html