搜索引擎中的Pagerank排序算法研究分析
本文關(guān)鍵詞:搜索引擎中的Pagerank排序算法研究分析,,由筆耕文化傳播整理發(fā)布。
《電子科技大學(xué)》 2010年
搜索引擎中的Pagerank排序算法研究分析
劉青偉
【摘要】: Pagerank算法是當(dāng)今網(wǎng)絡(luò)搜索引擎巨匠Google的核心技術(shù)。本文對Google公司的這一算法在當(dāng)今網(wǎng)絡(luò)搜索及其應(yīng)用領(lǐng)域進(jìn)行詳盡全面的分析和拓展。 知識檢索是全新的信息檢索方式,而隨著互聯(lián)網(wǎng)的發(fā)展,文本內(nèi)容數(shù)量迅猛增加,文本知識檢索成為知識檢索重點。搜索引擎基于關(guān)鍵字的檢索成為網(wǎng)頁文本數(shù)據(jù)檢索的主要方法。首先對基本的網(wǎng)頁分析算法進(jìn)行分析綜述:如基于廣度優(yōu)先策略和最佳優(yōu)先策略的網(wǎng)頁抓取方法。頁面分析算法可以大到從網(wǎng)頁以及網(wǎng)頁塊粒度分析甚至網(wǎng)站粒度分析,還有基于內(nèi)容的網(wǎng)頁分析算法。海量網(wǎng)絡(luò)信息以使傳統(tǒng)通用搜索引擎出現(xiàn)各種局限性。 當(dāng)今主流的網(wǎng)頁搜索算法是由引文分析算法發(fā)展而來的Pagerank算法,也需要不斷改進(jìn)。本文首先通過自寫的網(wǎng)絡(luò)爬蟲程序,來提取網(wǎng)頁數(shù)據(jù),供各算法實驗數(shù)據(jù)參考分析使用。通過網(wǎng)絡(luò)鏈接示意圖簡單闡述Pagerank算法的思想核心,本文重點研究計算Pagerank值。首先從傳統(tǒng)的主題偏離現(xiàn)象和頁面相關(guān)性角度來提出一種組合的Pagerank算法,然后從網(wǎng)頁中懸掛節(jié)點問題出發(fā),引入網(wǎng)頁超鏈接矩陣,提出一種基于懸掛節(jié)點的線性系統(tǒng)來計算Pagerank值。然后引入基于乘冪法的外推插值方法計算PR值,它是通過計算齊次方程的特征向量求次大根,來計算Pagerank值,然后從線性系統(tǒng)出發(fā),通過遞歸方式尋找超鏈接矩陣中的全零行來計算Pagerank值。最后分析擴(kuò)展特征值法計算Pagerank和標(biāo)準(zhǔn)乘冪法在實際用例中的收斂速度?梢钥闯鰯U(kuò)展特征值法比標(biāo)準(zhǔn)乘冪法優(yōu)越。 隨著Pagerank不斷成熟,它將在更廣的領(lǐng)域發(fā)揮更大的作用,越來越方面用戶使用快速找到自己需要的信息,剔除更多的冗余信息。
【關(guān)鍵詞】:
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2010
【分類號】:O223
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【引證文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 王文娟;何利力;廖化生;;基于本體的企業(yè)搜索引擎研究[J];工業(yè)控制計算機(jī);2012年02期
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前2條
1 王春紅;劉紫玉;付宏燕;;基于本體和多代理的知識檢索模型研究[J];計算機(jī)工程與設(shè)計;2009年09期
2 沈國海,穆斌,胡學(xué)鋼;語義Web本體及本體庫系統(tǒng)設(shè)計技術(shù)[J];微機(jī)發(fā)展;2004年07期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前5條
1 曹麗英;張曉賢;傘曉輝;陳桂芬;;基于本體的玉米病害知識庫的構(gòu)建與集成實現(xiàn)[J];中國農(nóng)機(jī)化;2012年06期
2 李玲;袁兆山;張敏;;擴(kuò)展UDDI以支持語義信息的研究[J];計算機(jī)技術(shù)與發(fā)展;2008年07期
3 王金環(huán);李寶敏;;基于本體DL的語義推理研究[J];計算機(jī)技術(shù)與發(fā)展;2009年11期
4 羅軍;劉藝茹;;本體和描述邏輯在景點查詢中的應(yīng)用研究[J];計算機(jī)技術(shù)與發(fā)展;2012年06期
5 楊人子;嚴(yán)洪森;;基于知識網(wǎng)的知識表達(dá)度量方法及其應(yīng)用[J];系統(tǒng)工程理論與實踐;2010年06期
【同被引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 馬海波;陳時勇;;基于網(wǎng)頁等級的PageRank算法改進(jìn)[J];大連交通大學(xué)學(xué)報;2010年02期
2 吳漢榮;曾勇軍;;Simply Hired:職位搜索新天地[J];電腦與電信;2009年03期
3 陳桂林,王永成,韓客松,王剛;一種改進(jìn)的快速分詞算法[J];計算機(jī)研究與發(fā)展;2000年04期
4 李振星,徐澤平,唐衛(wèi)清,唐榮錫;全二分最大匹配快速分詞算法[J];計算機(jī)工程與應(yīng)用;2002年11期
5 何國斌;趙晶璐;;Web頁面主題相關(guān)性排序算法的研究[J];計算機(jī)工程與應(yīng)用;2009年23期
6 田甜;倪林;;基于PageRank算法的權(quán)威值不均衡分配問題[J];計算機(jī)工程;2007年18期
7 楊勁松;凌培亮;;搜索引擎PageRank算法的改進(jìn)[J];計算機(jī)工程;2009年22期
8 王德廣;周志剛;梁旭;;PageRank算法的分析及其改進(jìn)[J];計算機(jī)工程;2010年22期
9 陳再良;凌力;周強(qiáng);;dPageRank——一種改進(jìn)的分布式PageRank算法[J];計算機(jī)應(yīng)用;2006年01期
10 李曉明;王韜;劉東;杜江凌;;走進(jìn)多核時代[J];計算機(jī)科學(xué)與探索;2008年06期
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前6條
1 袁文勤;王直杰;張玨;蘇翔;;基于Ontology的網(wǎng)絡(luò)知識管理系統(tǒng)的構(gòu)建[J];計算機(jī)應(yīng)用;2005年S1期
2 劉高勇;汪會玲;;Agent技術(shù)對知識社區(qū)協(xié)同學(xué)習(xí)的支持及其實現(xiàn)[J];情報理論與實踐;2006年03期
3 蔣翠清;幸龍潮;丁勇;;基于多Agent的知識管理系統(tǒng)模型研究[J];情報雜志;2007年02期
4 姜華;;基于本體的多主體網(wǎng)絡(luò)協(xié)作學(xué)習(xí)模型研究[J];計算機(jī)工程與設(shè)計;2007年02期
5 袁新娣;邱桃榮;徐新愛;;基于本體的教學(xué)領(lǐng)域知識庫建模研究[J];計算機(jī)工程與設(shè)計;2007年13期
6 余傳明;;基于J2EE的語義檢索研究[J];計算機(jī)工程與設(shè)計;2007年14期
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李凱,赫楓齡,左萬利;PageRank-Pro——一種改進(jìn)的網(wǎng)頁排序算法[J];吉林大學(xué)學(xué)報(理學(xué)版);2003年02期
2 楊海東,張莉;PageRank技術(shù)分析與搜索引擎檢索效率研究[J];淮陰師范學(xué)院學(xué)報(自然科學(xué)版);2003年03期
3 黎斌;鮮明;;web超鏈分析技術(shù)[J];科技信息(學(xué)術(shù)研究);2008年09期
4 張佳;梁少華;;Web結(jié)構(gòu)挖掘與其基于超鏈接結(jié)構(gòu)的算法[J];科技信息;2007年02期
5 張光年;李茂青;;基于PageRank算法的一種搜索引擎優(yōu)化方法及實現(xiàn)[J];科技信息;2007年04期
6 嚴(yán)宏偉;何俊;;基于房源分析系統(tǒng)的垂直搜索引擎關(guān)鍵技術(shù)的探討[J];中國科技信息;2007年05期
7 徐昭蘇;;網(wǎng)站推廣之SEO[J];科技信息(科學(xué)教研);2008年09期
8 潘大勝;;面向校園網(wǎng)搜索引擎的PageRank改進(jìn)算法[J];湖南文理學(xué)院學(xué)報(自然科學(xué)版);2009年01期
9 王毅;江小玲;;基于PageRank算法的引擎搜索優(yōu)化策略研究[J];科技資訊;2008年11期
10 姜博;;網(wǎng)頁PageRank算法分析及主題相關(guān)性的改進(jìn)策略[J];中國科技信息;2010年22期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 藺繼國;徐錫山;;一種基于用戶點擊數(shù)據(jù)的個性化PageRank算法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
2 陳小飛;王軼彤;馮小軍;;一種基于網(wǎng)頁質(zhì)量的PageRank算法改進(jìn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
3 李文;李淼;張建;朱海;陳雷;;基于混淆網(wǎng)絡(luò)和PageRank的Nbest重排序[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年
4 劉建毅;王菁華;王樅;;基于語言網(wǎng)絡(luò)的關(guān)鍵詞抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
5 劉菁菁;林鴻飛;楊志豪;;基于PageRank和錨文本的網(wǎng)頁排序研究[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
6 陸勇;侯漢清;;基于詞典注釋的漢語同義詞自動識別[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
7 馮迪;李晉宏;曹原;;基于網(wǎng)頁的數(shù)據(jù)挖掘研究[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(上冊)[C];2007年
8 楊磊;束罡;牛振東;;基于引力模型的鏈接分析(英文)[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
9 劉強(qiáng)國;左志宏;董祥千;;基于WEB超鏈接分析算法的研究綜述[A];四川省通信學(xué)會2006年學(xué)術(shù)年會論文集(二)[C];2006年
10 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者 馬文方;[N];中國計算機(jī)報;2008年
2 喻寧;[N];經(jīng)理日報;2004年
3 文/大海;[N];計算機(jī)世界;2004年
4 復(fù)旦大學(xué)國際政治系博士 沈逸;[N];東方早報;2010年
5 清華大學(xué)計算機(jī)系智能技術(shù)與系統(tǒng)國家重點實驗室 張敏 金奕江;[N];計算機(jī)世界;2003年
6 本報記者 王翌;[N];計算機(jī)世界;2004年
7 文/老鬼阿定;[N];計算機(jī)世界;2004年
8 本報實習(xí)記者 田嫻;[N];通信信息報;2004年
9 北京 竇芳芳;[N];電腦報;2001年
10 本報記者 顧洪文;[N];計算機(jī)世界;2003年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王菁華;文本中知識的獲取[D];北京郵電大學(xué);2008年
2 李方濤;基于產(chǎn)品評論的情感分析研究[D];清華大學(xué);2011年
3 張勇實;基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
4 王永剛;以數(shù)據(jù)為中心的在線社會網(wǎng)絡(luò)若干安全問題研究[D];北京大學(xué);2013年
5 于紅;Web結(jié)構(gòu)挖掘與高維數(shù)據(jù)挖掘研究[D];大連理工大學(xué);2012年
6 劉淇;基于用戶興趣建模的推薦方法及應(yīng)用研究[D];中國科學(xué)技術(shù)大學(xué);2013年
7 張金松;基于引文上下文分析的文獻(xiàn)檢索技術(shù)研究[D];大連海事大學(xué);2013年
8 俞唯仁;普適的結(jié)構(gòu)相似度在大規(guī)模網(wǎng)絡(luò)中的計算優(yōu)化技術(shù)研究[D];東華大學(xué);2012年
9 孟佳娜;遷移學(xué)習(xí)在文本分類中的應(yīng)用研究[D];大連理工大學(xué);2011年
10 孫甲申;基于主題模型和隨機(jī)游走的標(biāo)簽技術(shù)研究[D];北京郵電大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 趙波;PageRank算法在非網(wǎng)頁檢索問題中的應(yīng)用[D];復(fù)旦大學(xué);2010年
2 劉先明;基于鏈接分析的PageRank排序算法的改進(jìn)研究[D];湖北工業(yè)大學(xué);2010年
3 姜玥旭;PageRank算法的改進(jìn)及在生物網(wǎng)絡(luò)數(shù)據(jù)上的應(yīng)用[D];吉林大學(xué);2012年
4 李更生;基于時間反饋和分類技術(shù)的PageRank算法改進(jìn)研究[D];北京化工大學(xué);2013年
5 喬紅光;基于改進(jìn)PageRank算法的文獻(xiàn)價值評估方法研究[D];河北大學(xué);2013年
6 袁方;基于改進(jìn)PageRank算法的個性化搜索的研究[D];北京郵電大學(xué);2012年
7 李稚楹;基于網(wǎng)頁內(nèi)容和時間反饋的網(wǎng)頁排序PageRank算法研究[D];重慶理工大學(xué);2012年
8 田浩;基于PageRank值的文本相似度改進(jìn)模型[D];湖北工業(yè)大學(xué);2010年
9 縣小平;搜索引擎PageRank算法研究[D];西北大學(xué);2010年
10 郭慶寶;基于PageRank的搜索引擎優(yōu)化方法研究[D];山東師范大學(xué);2012年
本文關(guān)鍵詞:搜索引擎中的Pagerank排序算法研究分析,由筆耕文化傳播整理發(fā)布。
本文編號:176192
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/176192.html