基于網(wǎng)頁內(nèi)容和時間反饋的網(wǎng)頁排序PageRank算法研究
發(fā)布時間:2022-01-23 01:48
隨著互聯(lián)網(wǎng)的飛速發(fā)展,搜索引擎已經(jīng)成為人們獲得信息的最重要手段之一。面對眾多雜亂無章的網(wǎng)頁信息,以及人們使用搜索引擎瀏覽網(wǎng)頁信息時大多數(shù)只關(guān)注前幾條或前幾頁的習(xí)慣,能否快速、準(zhǔn)確地從互聯(lián)網(wǎng)上獲取有價值的信息是評價一個搜索引擎好壞的關(guān)鍵,返回的網(wǎng)頁結(jié)果的先后順序也變得尤為重要。因此,搜索引擎的網(wǎng)頁排序算法也就成為人們關(guān)注的關(guān)鍵問題之一。本文主要是以搜索引擎的網(wǎng)頁排序算法作為研究背景,分析現(xiàn)有的主流排序算法,深入剖析經(jīng)典的基于鏈接分析的HITS算法、PageRank算法以及現(xiàn)有的PageRank改進(jìn)算法,分析它們存在的優(yōu)缺點;以此為基礎(chǔ)提出了一種基于網(wǎng)頁內(nèi)容和時間反饋的PageRank改進(jìn)算法。改進(jìn)算法主要是針對詞語出現(xiàn)在文檔的不同位置和詞語的不同長度,所能代表的語義特征不同,在傳統(tǒng)TF-IDF公式基礎(chǔ)上,增加詞項位置權(quán)值和詞項長度權(quán)值,進(jìn)而綜合求得詞項權(quán)值,再利用向量空間模型計算有鏈接關(guān)系的網(wǎng)頁間關(guān)于相同特征項的相似度權(quán)值;修正網(wǎng)頁的時間反饋因子,考慮用網(wǎng)頁被搜索引擎搜索到的周期數(shù)目來表示網(wǎng)頁存在的時間長短。通過對這兩方面的改進(jìn)來度量網(wǎng)頁間PageRank值傳遞的大小。為了驗證改進(jìn)算法的...
【文章來源】:重慶理工大學(xué)重慶市
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
系統(tǒng)體系結(jié)構(gòu)圖
網(wǎng)頁搜集模塊運行效果
查詢模塊運行效果
【參考文獻(xiàn)】:
期刊論文
[1]PageRank算法研究綜述[J]. 李稚楹,楊武,謝治軍. 計算機(jī)科學(xué). 2011(S1)
[2]PageRank算法的分析及其改進(jìn)[J]. 王德廣,周志剛,梁旭. 計算機(jī)工程. 2010(22)
[3]一種基于PageRank的頁面排序改進(jìn)算法[J]. 王冬,雷景生. 微電子學(xué)與計算機(jī). 2009(04)
[4]基于主題相似度模型的TS-PageRank算法[J]. 黃德才,戚華春,錢能. 小型微型計算機(jī)系統(tǒng). 2007(03)
[5]PageRank算法研究[J]. 黃德才,戚華春. 計算機(jī)工程. 2006(04)
[6]基于向量空間模型的網(wǎng)頁文本表示改進(jìn)算法[J]. 曾致遠(yuǎn),張莉. 計算機(jī)工程. 2006(03)
[7]搜索引擎技術(shù)研究與發(fā)展[J]. 印鑒,陳憶群,張鋼. 計算機(jī)工程. 2005(14)
[8]搜索引擎的排序技術(shù)研究[J]. 楊思洛. 現(xiàn)代圖書情報技術(shù). 2005(01)
[9]基于改進(jìn)向量空間模型的Web信息檢索技術(shù)研究[J]. 雷景生,林冬雪,符淺淺. 計算機(jī)工程. 2005(01)
[10]加速評估算法:一種提高Web結(jié)構(gòu)挖掘質(zhì)量的新方法[J]. 張嶺,馬范援. 計算機(jī)研究與發(fā)展. 2004(01)
碩士論文
[1]基于時態(tài)信息的主題搜索引擎的研究與實現(xiàn)[D]. 孫逸雪.中國科學(xué)技術(shù)大學(xué) 2009
[2]專業(yè)搜索引擎的排序算法研究[D]. 徐金雷.南京師范大學(xué) 2007
[3]搜索引擎排序算法的研究[D]. 陳潔惠.河海大學(xué) 2007
[4]基于知識庫的中文網(wǎng)絡(luò)檢索工具——經(jīng)濟(jì)信息智能搜索引擎研究[D]. 薛鵬軍.南京農(nóng)業(yè)大學(xué) 2001
本文編號:3603344
【文章來源】:重慶理工大學(xué)重慶市
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
系統(tǒng)體系結(jié)構(gòu)圖
網(wǎng)頁搜集模塊運行效果
查詢模塊運行效果
【參考文獻(xiàn)】:
期刊論文
[1]PageRank算法研究綜述[J]. 李稚楹,楊武,謝治軍. 計算機(jī)科學(xué). 2011(S1)
[2]PageRank算法的分析及其改進(jìn)[J]. 王德廣,周志剛,梁旭. 計算機(jī)工程. 2010(22)
[3]一種基于PageRank的頁面排序改進(jìn)算法[J]. 王冬,雷景生. 微電子學(xué)與計算機(jī). 2009(04)
[4]基于主題相似度模型的TS-PageRank算法[J]. 黃德才,戚華春,錢能. 小型微型計算機(jī)系統(tǒng). 2007(03)
[5]PageRank算法研究[J]. 黃德才,戚華春. 計算機(jī)工程. 2006(04)
[6]基于向量空間模型的網(wǎng)頁文本表示改進(jìn)算法[J]. 曾致遠(yuǎn),張莉. 計算機(jī)工程. 2006(03)
[7]搜索引擎技術(shù)研究與發(fā)展[J]. 印鑒,陳憶群,張鋼. 計算機(jī)工程. 2005(14)
[8]搜索引擎的排序技術(shù)研究[J]. 楊思洛. 現(xiàn)代圖書情報技術(shù). 2005(01)
[9]基于改進(jìn)向量空間模型的Web信息檢索技術(shù)研究[J]. 雷景生,林冬雪,符淺淺. 計算機(jī)工程. 2005(01)
[10]加速評估算法:一種提高Web結(jié)構(gòu)挖掘質(zhì)量的新方法[J]. 張嶺,馬范援. 計算機(jī)研究與發(fā)展. 2004(01)
碩士論文
[1]基于時態(tài)信息的主題搜索引擎的研究與實現(xiàn)[D]. 孫逸雪.中國科學(xué)技術(shù)大學(xué) 2009
[2]專業(yè)搜索引擎的排序算法研究[D]. 徐金雷.南京師范大學(xué) 2007
[3]搜索引擎排序算法的研究[D]. 陳潔惠.河海大學(xué) 2007
[4]基于知識庫的中文網(wǎng)絡(luò)檢索工具——經(jīng)濟(jì)信息智能搜索引擎研究[D]. 薛鵬軍.南京農(nóng)業(yè)大學(xué) 2001
本文編號:3603344
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3603344.html
最近更新
教材專著