中文搜索引擎中的PageRank算法及實現(xiàn)
本文關(guān)鍵詞: 搜索引擎 網(wǎng)頁排序 網(wǎng)絡(luò)鏈接圖 稀疏矩陣 匯點 出處:《計算機工程與設(shè)計》2007年07期 論文類型:期刊論文
【摘要】:由于網(wǎng)頁質(zhì)量千差萬別,對網(wǎng)頁進(jìn)行基于網(wǎng)絡(luò)鏈接圖的質(zhì)量排序變成了現(xiàn)代搜索引擎的一個重要部件。分析了對網(wǎng)絡(luò)排序模塊的實現(xiàn)進(jìn)行優(yōu)化時,造成大規(guī)模稀疏矩陣-向量乘法運算低效的原因,并結(jié)合網(wǎng)絡(luò)鏈接圖的實際情況提出了幾種不同的優(yōu)化策略。然后,對幾種優(yōu)化策略做了實驗性能比較,并綜合考慮各種優(yōu)化策略的運算效率和存儲量需求,選擇了適合實際系統(tǒng)的優(yōu)化策略。同時,提出PageRank算法在實現(xiàn)時的一個變通處理——除匯。
[Abstract]:Because the quality of web pages varies widely, the quality sort based on the web link graph becomes an important part of the modern search engine. The optimization of the implementation of the network sorting module is analyzed. The reason for the inefficient operation of large scale sparse matrix-vector multiplication and the actual situation of the network link graph proposed several different optimization strategies. Then the experimental performance of several optimization strategies are compared. Considering the operational efficiency and storage requirements of various optimization strategies, the optimization strategy suitable for the practical system is selected. At the same time, a flexible processing of the PageRank algorithm is proposed, that is, deremittance.
【作者單位】: 浙江大學(xué)
【分類號】:TP391.3
【正文快照】: 0引言Internet正以200%的用戶增長率迅速發(fā)展,成為人們工作和生活不可缺少的信息來源。與此同時,Web文件具有分布、動態(tài)變化、結(jié)構(gòu)復(fù)雜等特點,使得用戶根本無法了解龐大的、瞬息萬變的信息資源。由此,人們在信息海洋中搜索自己所需要的信息的能力顯得愈發(fā)重要。如今,網(wǎng)絡(luò)信息
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 朱征宇,朱慶生,張宏森;基于內(nèi)容模塊化的網(wǎng)頁快速瀏覽技術(shù)[J];計算機工程與應(yīng)用;2002年10期
2 陳燕娜,邵志清;基于全文搜索的中文搜索引擎設(shè)計技術(shù)[J];計算機工程與應(yīng)用;2002年17期
3 陳波,朱慶生;基于ASP.NET的面向?qū)ο缶W(wǎng)頁設(shè)計[J];計算機工程與應(yīng)用;2003年07期
4 張宏森,朱征宇;基于模塊的網(wǎng)頁設(shè)計技術(shù)[J];計算機應(yīng)用研究;2002年02期
5 苗長芬,馮偉華;面向主題Crawler的設(shè)計與實現(xiàn)[J];平原大學(xué)學(xué)報;2005年03期
6 聶哲;基于WEB的面向主題搜索引擎的設(shè)計與實現(xiàn)[J];計算機工程與設(shè)計;2003年02期
7 楊震,鄧貴仕;基于隱含語義的個性化信息檢索[J];計算機工程與設(shè)計;2003年07期
8 何昭青;面向用戶的個性化Agent智能搜索系統(tǒng)的設(shè)計[J];邵陽學(xué)院學(xué)報;2003年02期
9 田凱;搜索引擎AltaVista調(diào)查與測評[J];圖書情報工作;2001年12期
10 霍艷蓉;Web信息檢索的關(guān)鍵技術(shù)[J];現(xiàn)代圖書情報技術(shù);2002年06期
相關(guān)會議論文 前1條
1 董紅斌;蘇中濱;;基于Mobile Agent的信息搜索技術(shù)[A];全國計算機網(wǎng)絡(luò)應(yīng)用年會論文集(2001)[C];2001年
相關(guān)博士學(xué)位論文 前2條
1 吳建平;稀疏線性代數(shù)方程組迭代法中的預(yù)處理技術(shù)研究[D];中國人民解放軍國防科學(xué)技術(shù)大學(xué);2002年
2 朱征宇;Web資源組織與服務(wù)性能研究[D];重慶大學(xué);2003年
相關(guān)碩士學(xué)位論文 前10條
1 孔磊;基于智能體的個性化互聯(lián)網(wǎng)信息搜集系統(tǒng)[D];華中科技大學(xué);2004年
2 盧健;潛在語義分析在文本信息檢索中的應(yīng)用研究[D];華中科技大學(xué);2005年
3 李永喜;基于本體的智能信息檢索研究[D];中國科學(xué)技術(shù)大學(xué);2006年
4 林樂彬;Inar網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2006年
5 張志浩;基于本體論的語義檢索研究[D];西安電子科技大學(xué);2007年
6 敬宗儒;基于SEMANTIC WEB的語義檢索模型的研究[D];華東師范大學(xué);2007年
7 徐東;基于本體的領(lǐng)域智能搜索技術(shù)研究[D];哈爾濱工程大學(xué);2007年
8 余淼;主題搜索引擎的信息抽取和索引的研究[D];重慶大學(xué);2007年
9 韓亮;基于本體的消防信息檢索系統(tǒng)的研究[D];大連海事大學(xué);2008年
10 王樂;基于本體的垂直搜索引擎研究[D];西北大學(xué);2008年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 ;創(chuàng)新工業(yè)搜索引擎[J];中國制造業(yè)信息化;2011年12期
2 胡風(fēng)華;王磊;;基于知識庫系統(tǒng)的智能搜索引擎研究[J];中國新技術(shù)新產(chǎn)品;2011年18期
3 方亞會;;Google失敗后快速切換搜索引擎[J];電腦迷;2011年11期
4 李國鋒;李春偉;;網(wǎng)絡(luò)搜索引擎技術(shù)探析[J];廊坊師范學(xué)院學(xué)報;2005年04期
5 冷國華;;網(wǎng)頁快照幫我快速獲取資料[J];電腦愛好者;2011年10期
6 閆淑紅;;基于搜索引擎的信息查詢技術(shù)研究[J];電腦開發(fā)與應(yīng)用;2011年07期
7 康亞娟;;淺談?wù)緝?nèi)信息搜索系統(tǒng)[J];硅谷;2011年13期
8 孫掌印;;搜索引擎Yahoo與Google的比較分析[J];科技情報開發(fā)與經(jīng)濟(jì);2011年17期
9 馮慶峰;;信息時代如何獲取信息[J];成功(教育);2011年08期
10 王巧玲;彭靜;王春紅;;中文分詞技術(shù)的研究及在Nutch中的實現(xiàn)[J];科技信息;2011年19期
相關(guān)會議論文 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年
2 鄧長壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年
3 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計與實現(xiàn)[A];2005年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2005年
4 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2010年
5 陳援非;何哲;朱珍民;;基于普適計算的個性化搜索技術(shù)[A];第二屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第2屆中國普適計算學(xué)術(shù)會議(PCC'06)論文集[C];2006年
6 楊萌;李春麗;朱明;;網(wǎng)絡(luò)搜索技術(shù)下的編輯工作[A];學(xué)報編輯論叢(第十一集)[C];2003年
7 陳磊;茹立云;馬少平;;基于用戶日志挖掘的搜索引擎廣告效果分析[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年
8 申琪君;;電子地圖搜索引擎比較[A];中國地理學(xué)會2007年學(xué)術(shù)年會論文摘要集[C];2007年
9 岑榮偉;劉奕群;張敏;茹立云;馬少平;;網(wǎng)絡(luò)搜索引擎用戶行為分析和研究[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
10 薩曉靜;;網(wǎng)絡(luò)化生存下的圖書館改革之路[A];福建省圖書館學(xué)會2008年學(xué)術(shù)年會論文集[C];2008年
相關(guān)重要報紙文章 前10條
1 本報記者 朱杰;搜索引擎應(yīng)用性能分析報告[N];中國計算機報;2009年
2 記者 李建偉;第4代搜索引擎在鄭州問世[N];中國知識產(chǎn)權(quán)報;2009年
3 記者 趙志鵬;媒體稱俄擬建國家搜索引擎[N];新華每日電訊;2010年
4 吳前;搜索引擎“碳排量”驚人[N];中國文化報;2010年
5 記者 李大慶;新型搜索引擎能向用戶直接提供所需內(nèi)容[N];科技日報;2010年
6 深圳大學(xué)傳播學(xué)院、傳媒與文化發(fā)展研究中心 周裕瓊;誰動了我的大腦[N];社會科學(xué)報;2010年
7 李大慶;新型搜索引擎直接為用戶提供所需內(nèi)容[N];中國技術(shù)市場報;2010年
8 余建斌;搜索引擎市場“烽煙四起”[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報;2010年
9 邁巴赫 編譯;搜索引擎20年[N];計算機世界;2010年
10 記者 秦羽 通訊員 施銀峰;全球搜索引擎營銷大會在甬舉行[N];寧波日報;2010年
相關(guān)博士學(xué)位論文 前10條
1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學(xué);2010年
2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年
4 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年
5 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學(xué);2011年
6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
7 陳紅濤;基于搜索日志的用戶行為研究及應(yīng)用[D];北京郵電大學(xué);2008年
8 曹歡歡;基于大規(guī)模搜索日志挖掘的上下文感知搜索研究[D];中國科學(xué)技術(shù)大學(xué);2009年
9 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
10 白玉琪;空間信息搜索引擎研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2003年
相關(guān)碩士學(xué)位論文 前10條
1 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年
2 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年
3 董晨;基于模糊聚類的個性化搜索引擎的研究[D];福州大學(xué);2005年
4 閆繼鋼;搜索引擎的研究與實現(xiàn)[D];蘭州大學(xué);2009年
5 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學(xué);2010年
6 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實現(xiàn)[D];華南理工大學(xué);2010年
7 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年
8 尹輝;基于Nutch的搜索系統(tǒng)的研究[D];電子科技大學(xué);2008年
9 歐建斌;基于Web挖掘與信息分類的個性化搜索引擎研究[D];暨南大學(xué);2010年
10 張朝斌;企業(yè)級搜索引擎的優(yōu)化設(shè)計與實現(xiàn)[D];華南理工大學(xué);2010年
,本文編號:1453905
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1453905.html