基于主題相似度模型的TS-PageRank算法
發(fā)布時間:2018-05-15 07:32
本文選題:鏈接分析 + 主題相似度 ; 參考:《小型微型計算機系統(tǒng)》2007年03期
【摘要】:PageRank算法是著名搜索引擎Google的核心算法,但存在主題漂移的問題,致使搜索結果中存在過多與查詢主題無關的網(wǎng)頁.在分析PageRank算法及其有關改進算法的基礎上,提出了基于虛擬文檔的主題相似度模型和基于主題相似度模型的TS-PageRank算法框架.只要選擇不同的相似度計算模型,就可以得到不同的TS-PageRank算法,形成一個網(wǎng)頁排序算法簇.理論分析和數(shù)值仿真實驗表明,該算法在不需要額外文本信息,也不增加算法時空復雜度的情況下,就能極大地減少主題漂移現(xiàn)象,從而提高查詢效率和質量.
[Abstract]:The PageRank algorithm is the core algorithm of the famous search engine Google, but there is the problem of topic drift, which leads to the existence of too many web pages which are independent of the query subject in the search results. Based on the analysis of the PageRank algorithm and its improved algorithm, a topic similarity model based on virtual document and a TS-PageRank algorithm framework based on topic similarity model are proposed. As long as we select different similarity calculation models, we can get different TS-PageRank algorithms and form a cluster of web page sorting algorithms. Theoretical analysis and numerical simulation experiments show that the algorithm can greatly reduce the topic drift phenomenon and improve the query efficiency and quality without the need of additional text information and the complexity of the algorithm.
【作者單位】: 浙江工業(yè)大學信息工程學院 浙江工業(yè)大學信息工程學院 浙江工業(yè)大學信息工程學院
【基金】:浙江省自然科學基金項目(Y105118)資助.
【分類號】:TP393.01
【參考文獻】
相關期刊論文 前2條
1 王建勇,單松巍,雷鳴,謝正茂,李曉明;海量Web搜索引擎系統(tǒng)中用戶行為的分布特征及其啟示[J];中國科學E輯;2001年04期
2 戚華春,黃德才,鄭月鋒;具有時間反饋的PageRank改進算法[J];浙江工業(yè)大學學報;2005年03期
【共引文獻】
相關期刊論文 前10條
1 盧效峰,鄭權;基于用戶行為分析的搜索引擎模型[J];北方工業(yè)大學學報;2004年03期
2 程軍,劉斌中;數(shù)字圖書館海量文本全文檢索系統(tǒng)[J];大學圖書館學報;2002年05期
3 王艷輝,吳斌,王柏;電信社群網(wǎng)絡靜態(tài)幾何性質分析研究[J];復雜系統(tǒng)與復雜性科學;2005年02期
4 邱均平,張洋;網(wǎng)絡信息計量學綜述[J];高校圖書館工作;2005年01期
5 張春元,康耀紅,王曙光,張莉;中文搜索引擎的缺陷與改進[J];海南大學學報(自然科學版);2004年01期
6 王繼民,陳,
本文編號:1891557
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1891557.html
最近更新
教材專著