Web數(shù)據(jù)挖掘中PageRank算法的研究與改進(jìn)

發(fā)布時(shí)間：2017-09-21 15:23

本文關(guān)鍵詞：Web數(shù)據(jù)挖掘中PageRank算法的研究與改進(jìn)

【摘要】：隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,廣大用戶獲取信息的途徑越來越多、也越來越方便,與此同時(shí),面對(duì)龐大而繁雜的信息,如何獲取對(duì)自己有用的信息成為一個(gè)難題。所幸Web數(shù)據(jù)挖掘技術(shù)為解決Web上過量信息的問題提供了解決方法,其中的Web結(jié)構(gòu)挖掘以超鏈接分析為基礎(chǔ),從鏈接結(jié)構(gòu)中獲取有用的信息,并重新組織結(jié)構(gòu),使內(nèi)容邏輯結(jié)構(gòu)更加合理。因此,Web數(shù)據(jù)挖掘逐漸成為如今的研究熱點(diǎn)。經(jīng)典的超鏈接網(wǎng)頁評(píng)估算法PageRank將“每個(gè)鏈接代表一個(gè)網(wǎng)頁作者對(duì)所指向的網(wǎng)頁的一種獨(dú)立的認(rèn)可”作為算法的前提條件。本文通過實(shí)驗(yàn)編程實(shí)現(xiàn)了PageRank算法迭代收斂的整個(gè)過程,并結(jié)合實(shí)例重點(diǎn)討論了PageRank評(píng)估網(wǎng)頁質(zhì)量的有效性,認(rèn)真分析了Fricke以萬維網(wǎng)上咨詢問答為樣本進(jìn)行研究的不足,提出了自己的優(yōu)化方法。針對(duì)網(wǎng)頁質(zhì)量的評(píng)估通常帶有個(gè)人色彩,還制定了網(wǎng)頁信息質(zhì)量的評(píng)估標(biāo)準(zhǔn),來限制參評(píng)人員的主觀臆愿,增加評(píng)估的客觀性。最后,通過實(shí)驗(yàn)證明本文提出的PageRank優(yōu)化方法用來評(píng)估網(wǎng)頁質(zhì)量的有效性。優(yōu)質(zhì)的搜索引擎算法應(yīng)該將用戶最需要的主題相關(guān)盡可能地排序靠前。傳統(tǒng)PageRank算法存在的主題漂移影響搜索效果的問題,在分析了大量網(wǎng)頁排序算法的基礎(chǔ)上,本文中提出了基于主題鏈接相似度的PageRank改進(jìn)算法(TLSPR),通過鏈接關(guān)系表示的向量的余弦相似度描述網(wǎng)頁之間的主題相關(guān)性,避免了其它改進(jìn)算法額外文本信息的負(fù)擔(dān)。仿真實(shí)驗(yàn)結(jié)果表明,TLSPR算法在未增加額外空間的同時(shí),也未增加算法時(shí)間復(fù)雜度,能夠?qū)⒂脩魸M意的網(wǎng)頁安排在搜索結(jié)果的前面,有效提高了搜索效果,從而避免了主題漂移問題的產(chǎn)生。
【關(guān)鍵詞】：Web數(shù)據(jù)挖掘 結(jié)構(gòu)挖掘 PageRank算法 主題漂移
【學(xué)位授予單位】：華東理工大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2014
【分類號(hào)】：TP391.3
【目錄】：

摘要5-6
Abstract6-7
目錄7-9
第1章緒論9-15
1.1 搜索引擎發(fā)展簡(jiǎn)介9-10
1.2 研究背景10-11
1.3 研究意義11-12
1.4 國(guó)內(nèi)外研究現(xiàn)狀12-13
1.5 本文組織結(jié)構(gòu)13-15
第2章 WEB數(shù)據(jù)挖掘15-26
2.1 Web數(shù)據(jù)挖掘概述15-19
2.1.1 Web數(shù)據(jù)挖掘的定義16-17
2.1.2 Web數(shù)據(jù)挖掘的特點(diǎn)17-18
2.1.3 Web數(shù)據(jù)挖掘的流程18-19
2.2 Web數(shù)據(jù)挖掘的分類19-25
2.2.1 Web內(nèi)容挖掘21-22
2.2.2 Web結(jié)構(gòu)挖掘22-24
2.2.3 Web使用挖掘24-25
2.3 小結(jié)25-26
第3章 PAGERANK算法的研究與分析26-37
3.1 PageRank算法概述26-27
3.2 PageRank算法解析27-29
3.2.1 PageRank假設(shè)27-28
3.2.2 PageRank算法原理28-29
3.3 PageRank算法實(shí)現(xiàn)29-31
3.4 PageRank評(píng)估網(wǎng)頁質(zhì)量有效性研究31-36
3.4.1 PageRank評(píng)估網(wǎng)頁質(zhì)量介紹31
3.4.2 PageRank評(píng)估網(wǎng)頁質(zhì)量?jī)?yōu)化31-32
3.4.3 評(píng)估網(wǎng)頁質(zhì)量的原則32-33
3.4.4 PageRank評(píng)估網(wǎng)頁質(zhì)量有效性實(shí)驗(yàn)33-35
3.4.5 PageRank評(píng)估網(wǎng)頁質(zhì)量有效性結(jié)論分析35-36
3.5 小結(jié)36-37
第4章基于主題鏈接相似度PAGERANK改進(jìn)算法37-50
4.1 鏈接分析算法37-41
4.1.1 PageRank算法的優(yōu)缺點(diǎn)37-38
4.1.2 HITS算法的優(yōu)缺點(diǎn)38-40
4.1.3 鏈接分析算法分析40-41
4.2 相關(guān)PageRank改進(jìn)算法分析41-44
4.2.1 TIPR算法41-43
4.2.2 MIPR算法43-44
4.3 基于主題鏈接相似度PageRank改進(jìn)算法44-46
4.3.1 網(wǎng)頁鏈接向量44-45
4.3.2 TLSPR算法45-46
4.4 實(shí)驗(yàn)對(duì)比分析46-49
4.5 小結(jié)49-50
第5章總結(jié)與展望50-52
5.1 總結(jié)50
5.2 今后的工作展望50-52
參考文獻(xiàn)52-56
致謝56

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 石晶,龔震宇,裘杭萍;基于Web使用挖掘的個(gè)性化服務(wù)系統(tǒng)[J];電子科技大學(xué)學(xué)報(bào);2002年04期

2 李瑞;郭小溪;;PageRank算法權(quán)威值均分的改進(jìn)[J];大連交通大學(xué)學(xué)報(bào);2013年02期

3 馬海波;楊楠;于新興;;用戶差別化和主題敏感的PageRank算法[J];大連交通大學(xué)學(xué)報(bào);2013年04期

4 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計(jì)算機(jī)研究與發(fā)展;2000年05期

5 韓家煒,孟小峰,王靜,李盛恩;Web挖掘研究[J];計(jì)算機(jī)研究與發(fā)展;2001年04期

6 張嶺,馬范援;加速評(píng)估算法:一種提高Web結(jié)構(gòu)挖掘質(zhì)量的新方法[J];計(jì)算機(jī)研究與發(fā)展;2004年01期

7 王家卓;劉奕群;馬少平;張敏;;基于用戶行為的競(jìng)價(jià)廣告效果分析[J];計(jì)算機(jī)研究與發(fā)展;2011年01期

8 田甜;倪林;;基于PageRank算法的權(quán)威值不均衡分配問題[J];計(jì)算機(jī)工程;2007年18期

9 焦金濤;;基于PageRank的Web挖掘改進(jìn)算法[J];計(jì)算機(jī)工程;2009年15期

10 葛玲;蔣宗禮;;基于共現(xiàn)詞查詢的主題爬蟲研究[J];計(jì)算機(jī)工程;2010年08期

，

本文編號(hào)：895338

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/895338.html

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Web數(shù)據(jù)挖掘中PageRank算法的研究與改進(jìn)