Web數(shù)據(jù)挖掘中PageRank算法的研究與改進(jìn)
本文關(guān)鍵詞:Web數(shù)據(jù)挖掘中PageRank算法的研究與改進(jìn)
更多相關(guān)文章: Web數(shù)據(jù)挖掘 結(jié)構(gòu)挖掘 PageRank算法 主題漂移
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,廣大用戶獲取信息的途徑越來越多、也越來越方便,與此同時,面對龐大而繁雜的信息,如何獲取對自己有用的信息成為一個難題。所幸Web數(shù)據(jù)挖掘技術(shù)為解決Web上過量信息的問題提供了解決方法,其中的Web結(jié)構(gòu)挖掘以超鏈接分析為基礎(chǔ),從鏈接結(jié)構(gòu)中獲取有用的信息,并重新組織結(jié)構(gòu),使內(nèi)容邏輯結(jié)構(gòu)更加合理。因此,Web數(shù)據(jù)挖掘逐漸成為如今的研究熱點。 經(jīng)典的超鏈接網(wǎng)頁評估算法PageRank將“每個鏈接代表一個網(wǎng)頁作者對所指向的網(wǎng)頁的一種獨立的認(rèn)可”作為算法的前提條件。本文通過實驗編程實現(xiàn)了PageRank算法迭代收斂的整個過程,并結(jié)合實例重點討論了PageRank評估網(wǎng)頁質(zhì)量的有效性,認(rèn)真分析了Fricke以萬維網(wǎng)上咨詢問答為樣本進(jìn)行研究的不足,提出了自己的優(yōu)化方法。針對網(wǎng)頁質(zhì)量的評估通常帶有個人色彩,還制定了網(wǎng)頁信息質(zhì)量的評估標(biāo)準(zhǔn),來限制參評人員的主觀臆愿,增加評估的客觀性。最后,通過實驗證明本文提出的PageRank優(yōu)化方法用來評估網(wǎng)頁質(zhì)量的有效性。 優(yōu)質(zhì)的搜索引擎算法應(yīng)該將用戶最需要的主題相關(guān)盡可能地排序靠前。傳統(tǒng)PageRank算法存在的主題漂移影響搜索效果的問題,在分析了大量網(wǎng)頁排序算法的基礎(chǔ)上,本文中提出了基于主題鏈接相似度的PageRank改進(jìn)算法(TLSPR),通過鏈接關(guān)系表示的向量的余弦相似度描述網(wǎng)頁之間的主題相關(guān)性,避免了其它改進(jìn)算法額外文本信息的負(fù)擔(dān)。仿真實驗結(jié)果表明,TLSPR算法在未增加額外空間的同時,也未增加算法時間復(fù)雜度,能夠?qū)⒂脩魸M意的網(wǎng)頁安排在搜索結(jié)果的前面,有效提高了搜索效果,從而避免了主題漂移問題的產(chǎn)生。
【關(guān)鍵詞】:Web數(shù)據(jù)挖掘 結(jié)構(gòu)挖掘 PageRank算法 主題漂移
【學(xué)位授予單位】:華東理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要5-6
- Abstract6-7
- 目錄7-9
- 第1章 緒論9-15
- 1.1 搜索引擎發(fā)展簡介9-10
- 1.2 研究背景10-11
- 1.3 研究意義11-12
- 1.4 國內(nèi)外研究現(xiàn)狀12-13
- 1.5 本文組織結(jié)構(gòu)13-15
- 第2章 WEB數(shù)據(jù)挖掘15-26
- 2.1 Web數(shù)據(jù)挖掘概述15-19
- 2.1.1 Web數(shù)據(jù)挖掘的定義16-17
- 2.1.2 Web數(shù)據(jù)挖掘的特點17-18
- 2.1.3 Web數(shù)據(jù)挖掘的流程18-19
- 2.2 Web數(shù)據(jù)挖掘的分類19-25
- 2.2.1 Web內(nèi)容挖掘21-22
- 2.2.2 Web結(jié)構(gòu)挖掘22-24
- 2.2.3 Web使用挖掘24-25
- 2.3 小結(jié)25-26
- 第3章 PAGERANK算法的研究與分析26-37
- 3.1 PageRank算法概述26-27
- 3.2 PageRank算法解析27-29
- 3.2.1 PageRank假設(shè)27-28
- 3.2.2 PageRank算法原理28-29
- 3.3 PageRank算法實現(xiàn)29-31
- 3.4 PageRank評估網(wǎng)頁質(zhì)量有效性研究31-36
- 3.4.1 PageRank評估網(wǎng)頁質(zhì)量介紹31
- 3.4.2 PageRank評估網(wǎng)頁質(zhì)量優(yōu)化31-32
- 3.4.3 評估網(wǎng)頁質(zhì)量的原則32-33
- 3.4.4 PageRank評估網(wǎng)頁質(zhì)量有效性實驗33-35
- 3.4.5 PageRank評估網(wǎng)頁質(zhì)量有效性結(jié)論分析35-36
- 3.5 小結(jié)36-37
- 第4章 基于主題鏈接相似度PAGERANK改進(jìn)算法37-50
- 4.1 鏈接分析算法37-41
- 4.1.1 PageRank算法的優(yōu)缺點37-38
- 4.1.2 HITS算法的優(yōu)缺點38-40
- 4.1.3 鏈接分析算法分析40-41
- 4.2 相關(guān)PageRank改進(jìn)算法分析41-44
- 4.2.1 TIPR算法41-43
- 4.2.2 MIPR算法43-44
- 4.3 基于主題鏈接相似度PageRank改進(jìn)算法44-46
- 4.3.1 網(wǎng)頁鏈接向量44-45
- 4.3.2 TLSPR算法45-46
- 4.4 實驗對比分析46-49
- 4.5 小結(jié)49-50
- 第5章 總結(jié)與展望50-52
- 5.1 總結(jié)50
- 5.2 今后的工作展望50-52
- 參考文獻(xiàn)52-56
- 致謝56
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 石晶,龔震宇,裘杭萍;基于Web使用挖掘的個性化服務(wù)系統(tǒng)[J];電子科技大學(xué)學(xué)報;2002年04期
2 李瑞;郭小溪;;PageRank算法權(quán)威值均分的改進(jìn)[J];大連交通大學(xué)學(xué)報;2013年02期
3 馬海波;楊楠;于新興;;用戶差別化和主題敏感的PageRank算法[J];大連交通大學(xué)學(xué)報;2013年04期
4 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計算機(jī)研究與發(fā)展;2000年05期
5 韓家煒,孟小峰,王靜,李盛恩;Web挖掘研究[J];計算機(jī)研究與發(fā)展;2001年04期
6 張嶺,馬范援;加速評估算法:一種提高Web結(jié)構(gòu)挖掘質(zhì)量的新方法[J];計算機(jī)研究與發(fā)展;2004年01期
7 王家卓;劉奕群;馬少平;張敏;;基于用戶行為的競價廣告效果分析[J];計算機(jī)研究與發(fā)展;2011年01期
8 田甜;倪林;;基于PageRank算法的權(quán)威值不均衡分配問題[J];計算機(jī)工程;2007年18期
9 焦金濤;;基于PageRank的Web挖掘改進(jìn)算法[J];計算機(jī)工程;2009年15期
10 葛玲;蔣宗禮;;基于共現(xiàn)詞查詢的主題爬蟲研究[J];計算機(jī)工程;2010年08期
,本文編號:895338
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/895338.html