天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

Web數(shù)據(jù)挖掘中PageRank算法的研究與改進(jìn)

發(fā)布時(shí)間:2017-09-21 15:23

  本文關(guān)鍵詞:Web數(shù)據(jù)挖掘中PageRank算法的研究與改進(jìn)


  更多相關(guān)文章: Web數(shù)據(jù)挖掘 結(jié)構(gòu)挖掘 PageRank算法 主題漂移


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,廣大用戶獲取信息的途徑越來越多、也越來越方便,與此同時(shí),面對(duì)龐大而繁雜的信息,如何獲取對(duì)自己有用的信息成為一個(gè)難題。所幸Web數(shù)據(jù)挖掘技術(shù)為解決Web上過量信息的問題提供了解決方法,其中的Web結(jié)構(gòu)挖掘以超鏈接分析為基礎(chǔ),從鏈接結(jié)構(gòu)中獲取有用的信息,并重新組織結(jié)構(gòu),使內(nèi)容邏輯結(jié)構(gòu)更加合理。因此,Web數(shù)據(jù)挖掘逐漸成為如今的研究熱點(diǎn)。 經(jīng)典的超鏈接網(wǎng)頁評(píng)估算法PageRank將“每個(gè)鏈接代表一個(gè)網(wǎng)頁作者對(duì)所指向的網(wǎng)頁的一種獨(dú)立的認(rèn)可”作為算法的前提條件。本文通過實(shí)驗(yàn)編程實(shí)現(xiàn)了PageRank算法迭代收斂的整個(gè)過程,并結(jié)合實(shí)例重點(diǎn)討論了PageRank評(píng)估網(wǎng)頁質(zhì)量的有效性,認(rèn)真分析了Fricke以萬維網(wǎng)上咨詢問答為樣本進(jìn)行研究的不足,提出了自己的優(yōu)化方法。針對(duì)網(wǎng)頁質(zhì)量的評(píng)估通常帶有個(gè)人色彩,還制定了網(wǎng)頁信息質(zhì)量的評(píng)估標(biāo)準(zhǔn),來限制參評(píng)人員的主觀臆愿,增加評(píng)估的客觀性。最后,通過實(shí)驗(yàn)證明本文提出的PageRank優(yōu)化方法用來評(píng)估網(wǎng)頁質(zhì)量的有效性。 優(yōu)質(zhì)的搜索引擎算法應(yīng)該將用戶最需要的主題相關(guān)盡可能地排序靠前。傳統(tǒng)PageRank算法存在的主題漂移影響搜索效果的問題,在分析了大量網(wǎng)頁排序算法的基礎(chǔ)上,本文中提出了基于主題鏈接相似度的PageRank改進(jìn)算法(TLSPR),通過鏈接關(guān)系表示的向量的余弦相似度描述網(wǎng)頁之間的主題相關(guān)性,避免了其它改進(jìn)算法額外文本信息的負(fù)擔(dān)。仿真實(shí)驗(yàn)結(jié)果表明,TLSPR算法在未增加額外空間的同時(shí),也未增加算法時(shí)間復(fù)雜度,能夠?qū)⒂脩魸M意的網(wǎng)頁安排在搜索結(jié)果的前面,有效提高了搜索效果,從而避免了主題漂移問題的產(chǎn)生。
【關(guān)鍵詞】:Web數(shù)據(jù)挖掘 結(jié)構(gòu)挖掘 PageRank算法 主題漂移
【學(xué)位授予單位】:華東理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【目錄】:
  • 摘要5-6
  • Abstract6-7
  • 目錄7-9
  • 第1章 緒論9-15
  • 1.1 搜索引擎發(fā)展簡(jiǎn)介9-10
  • 1.2 研究背景10-11
  • 1.3 研究意義11-12
  • 1.4 國(guó)內(nèi)外研究現(xiàn)狀12-13
  • 1.5 本文組織結(jié)構(gòu)13-15
  • 第2章 WEB數(shù)據(jù)挖掘15-26
  • 2.1 Web數(shù)據(jù)挖掘概述15-19
  • 2.1.1 Web數(shù)據(jù)挖掘的定義16-17
  • 2.1.2 Web數(shù)據(jù)挖掘的特點(diǎn)17-18
  • 2.1.3 Web數(shù)據(jù)挖掘的流程18-19
  • 2.2 Web數(shù)據(jù)挖掘的分類19-25
  • 2.2.1 Web內(nèi)容挖掘21-22
  • 2.2.2 Web結(jié)構(gòu)挖掘22-24
  • 2.2.3 Web使用挖掘24-25
  • 2.3 小結(jié)25-26
  • 第3章 PAGERANK算法的研究與分析26-37
  • 3.1 PageRank算法概述26-27
  • 3.2 PageRank算法解析27-29
  • 3.2.1 PageRank假設(shè)27-28
  • 3.2.2 PageRank算法原理28-29
  • 3.3 PageRank算法實(shí)現(xiàn)29-31
  • 3.4 PageRank評(píng)估網(wǎng)頁質(zhì)量有效性研究31-36
  • 3.4.1 PageRank評(píng)估網(wǎng)頁質(zhì)量介紹31
  • 3.4.2 PageRank評(píng)估網(wǎng)頁質(zhì)量?jī)?yōu)化31-32
  • 3.4.3 評(píng)估網(wǎng)頁質(zhì)量的原則32-33
  • 3.4.4 PageRank評(píng)估網(wǎng)頁質(zhì)量有效性實(shí)驗(yàn)33-35
  • 3.4.5 PageRank評(píng)估網(wǎng)頁質(zhì)量有效性結(jié)論分析35-36
  • 3.5 小結(jié)36-37
  • 第4章 基于主題鏈接相似度PAGERANK改進(jìn)算法37-50
  • 4.1 鏈接分析算法37-41
  • 4.1.1 PageRank算法的優(yōu)缺點(diǎn)37-38
  • 4.1.2 HITS算法的優(yōu)缺點(diǎn)38-40
  • 4.1.3 鏈接分析算法分析40-41
  • 4.2 相關(guān)PageRank改進(jìn)算法分析41-44
  • 4.2.1 TIPR算法41-43
  • 4.2.2 MIPR算法43-44
  • 4.3 基于主題鏈接相似度PageRank改進(jìn)算法44-46
  • 4.3.1 網(wǎng)頁鏈接向量44-45
  • 4.3.2 TLSPR算法45-46
  • 4.4 實(shí)驗(yàn)對(duì)比分析46-49
  • 4.5 小結(jié)49-50
  • 第5章 總結(jié)與展望50-52
  • 5.1 總結(jié)50
  • 5.2 今后的工作展望50-52
  • 參考文獻(xiàn)52-56
  • 致謝56

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 石晶,龔震宇,裘杭萍;基于Web使用挖掘的個(gè)性化服務(wù)系統(tǒng)[J];電子科技大學(xué)學(xué)報(bào);2002年04期

2 李瑞;郭小溪;;PageRank算法權(quán)威值均分的改進(jìn)[J];大連交通大學(xué)學(xué)報(bào);2013年02期

3 馬海波;楊楠;于新興;;用戶差別化和主題敏感的PageRank算法[J];大連交通大學(xué)學(xué)報(bào);2013年04期

4 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計(jì)算機(jī)研究與發(fā)展;2000年05期

5 韓家煒,孟小峰,王靜,李盛恩;Web挖掘研究[J];計(jì)算機(jī)研究與發(fā)展;2001年04期

6 張嶺,馬范援;加速評(píng)估算法:一種提高Web結(jié)構(gòu)挖掘質(zhì)量的新方法[J];計(jì)算機(jī)研究與發(fā)展;2004年01期

7 王家卓;劉奕群;馬少平;張敏;;基于用戶行為的競(jìng)價(jià)廣告效果分析[J];計(jì)算機(jī)研究與發(fā)展;2011年01期

8 田甜;倪林;;基于PageRank算法的權(quán)威值不均衡分配問題[J];計(jì)算機(jī)工程;2007年18期

9 焦金濤;;基于PageRank的Web挖掘改進(jìn)算法[J];計(jì)算機(jī)工程;2009年15期

10 葛玲;蔣宗禮;;基于共現(xiàn)詞查詢的主題爬蟲研究[J];計(jì)算機(jī)工程;2010年08期



本文編號(hào):895338

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/895338.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶308ac***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com