天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于改進(jìn)PageRank算法的網(wǎng)頁排序問題研究

發(fā)布時間:2017-04-12 19:26

  本文關(guān)鍵詞:基于改進(jìn)PageRank算法的網(wǎng)頁排序問題研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:現(xiàn)今互聯(lián)網(wǎng)信息技術(shù)迅猛發(fā)展,似乎在一夜之間,大數(shù)據(jù)(Big Data)變成一個最流行的詞匯。用戶在利用搜索引擎便捷獲取各類信息的同時,也面臨著如何從海量數(shù)據(jù)中剔除那些影響信息檢索效率及準(zhǔn)確度的冗余信息的問題。在一般情況下,鑒于用戶只關(guān)注返回目標(biāo)網(wǎng)頁的前幾頁,因此對搜索結(jié)果進(jìn)行網(wǎng)頁排序,改善搜索質(zhì)量,提高用戶滿意度顯得尤為重要。對于網(wǎng)頁,除了文本信息,頁面間的鏈接結(jié)構(gòu)也是人們獲取有用信息的重要途徑。經(jīng)典的網(wǎng)頁排序算法---Page Rank正是使用網(wǎng)頁間的鏈接結(jié)構(gòu)對各網(wǎng)頁的權(quán)重值進(jìn)行迭代計算,很大程度上提高了對網(wǎng)頁權(quán)重計算的精準(zhǔn)度。但是Page Rank算法仍存在許多待研究及待突破的不足,開展相關(guān)研究具有重要應(yīng)用價值。本文首先闡述了基于Map Reduce的Page Rank算法的研究背景和意義,然后對該算法的國內(nèi)外研究現(xiàn)狀進(jìn)行了分析總結(jié)。在此基礎(chǔ)上,著重分析出算法中影響性能和準(zhǔn)確度的關(guān)鍵因素,即迭代次數(shù)和“主題漂移”,進(jìn)而提出了改進(jìn)算法:子圖估算Page Rank網(wǎng)頁排序算法及個性化智能推薦的權(quán)值分配方法。然后對所改進(jìn)算法進(jìn)行理論分析,包括算法的迭代次數(shù),時間復(fù)雜度和準(zhǔn)確性。最后,在Map Reduce編程模型上實現(xiàn)Page Rank算法及其改進(jìn)算法,并通過實驗數(shù)據(jù)對比分析證明算法的合理性、有效性。與傳統(tǒng)算法相比,改進(jìn)后的算法時間復(fù)雜度低,迭代次數(shù)少,準(zhǔn)確度較高。
【關(guān)鍵詞】:網(wǎng)頁排序 Map Reduce Page Rank算法 子圖 用戶習(xí)性愛好
【學(xué)位授予單位】:哈爾濱理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092
【目錄】:
  • 摘要5-6
  • Abstract6-10
  • 第1章 緒論10-15
  • 1.1 課題研究的背景與意義10-11
  • 1.2 國內(nèi)外研究現(xiàn)狀11-13
  • 1.2.1 PageRank算法研究現(xiàn)狀11-12
  • 1.2.2 MapReduce方法研究現(xiàn)狀12-13
  • 1.3 課題的研究內(nèi)容13-15
  • 第2章 相關(guān)理論與技術(shù)15-22
  • 2.1 PageRank算法介紹15-17
  • 2.1.1 PageRank算法的基本概念15-17
  • 2.1.2 PageRank算法的優(yōu)缺點17
  • 2.2 分布式計算17-19
  • 2.2.1 分布式計算思想17-18
  • 2.2.2 MapReduce并行編程模型18-19
  • 2.2.3 Hadoop分布式計算框架19
  • 2.3 基于MapReduce的PageRank算法19-21
  • 2.3.1 基本原理及實現(xiàn)19-21
  • 2.3.2 算法的不足21
  • 2.4 本章小結(jié)21-22
  • 第3章 子圖估算PageRank算法22-30
  • 3.1 topK-Rank算法詳述22-26
  • 3.1.1 估值的上下限22-25
  • 3.1.2 子拓?fù)鋱D25-26
  • 3.2 topK-Rank算法的MapReduce實現(xiàn)26-28
  • 3.2.1 算法數(shù)據(jù)準(zhǔn)備26
  • 3.2.2 算法執(zhí)行過程26-27
  • 3.2.3 topK-Rank算法偽代碼設(shè)計27-28
  • 3.3 算法的正確性28
  • 3.4 算法的時間復(fù)雜度28-29
  • 3.5 本章小結(jié)29-30
  • 第4章 個性化智能推薦的權(quán)值分配算法30-39
  • 4.1 算法提出的必要性30
  • 4.2 新算法思想30-31
  • 4.3 新算法詳述31-36
  • 4.3.1 文檔表示31
  • 4.3.2 關(guān)鍵詞位置及長度加權(quán)的改進(jìn)式TF-IDF研究31-33
  • 4.3.3 文本間相似度計算33-34
  • 4.3.4 用戶習(xí)性愛好提取及數(shù)據(jù)化34-36
  • 4.4 新算法實現(xiàn)流程36-37
  • 4.5 算法可行性分析37-38
  • 4.6 本章小結(jié)38-39
  • 第5章 實驗與分析39-47
  • 5.1 實驗數(shù)據(jù)驗證子圖估算PageRank算法39-42
  • 5.1.1 實驗平臺與數(shù)據(jù)39
  • 5.1.2 實驗及結(jié)果分析39-42
  • 5.2 個性化智能推薦算法的實驗數(shù)據(jù)驗證42-45
  • 5.2.1 驗證過程42-45
  • 5.2.2 實驗結(jié)果分析45
  • 5.3 本章小結(jié)45-47
  • 結(jié)論47-48
  • 參考文獻(xiàn)48-53
  • 攻讀碩士學(xué)位期間所發(fā)表的學(xué)術(shù)論文53-54
  • 致謝54

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 李雪媛;季鐵;王巍;;基于反饋作用的用戶習(xí)慣培養(yǎng)方法研究[J];包裝工程;2015年24期

2 曹姍姍;王沖;;基于網(wǎng)頁鏈接與用戶反饋的PageRank算法改進(jìn)研究[J];計算機科學(xué);2014年12期

3 平宇;向陽;張波;黃寅飛;;基于MapReduce的并行PageRank算法實現(xiàn)[J];計算機工程;2014年02期

4 王振振;何明;杜永萍;;基于LDA主題模型的文本相似度計算[J];計算機科學(xué);2013年12期

5 馬海波;楊楠;于新興;;用戶差別化和主題敏感的PageRank算法[J];大連交通大學(xué)學(xué)報;2013年04期

6 戴上平;鄭波榮;;基于Tf-Idf和網(wǎng)頁鏈接的PageRank改進(jìn)算法[J];計算機應(yīng)用與軟件;2013年05期

7 王玉鳳;梁毅;金翊;李光瑞;;Hadoop平臺數(shù)據(jù)訪問監(jiān)控機制研究[J];計算機工程與應(yīng)用;2014年22期

8 饒君;吳斌;東昱曉;;MapReduce環(huán)境下的并行復(fù)雜網(wǎng)絡(luò)鏈路預(yù)測[J];軟件學(xué)報;2012年12期

9 全巧梅;;云計算環(huán)境下WEB數(shù)據(jù)挖掘的研究[J];信息技術(shù)與信息化;2012年05期

10 方少卿;周劍;張明新;;基于Map/Reduce的改進(jìn)選擇算法在云計算的Web數(shù)據(jù)挖掘中的研究[J];計算機應(yīng)用研究;2013年02期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條

1 張梅芳;基于改進(jìn)PageRank算法和用戶興趣的個性化搜索研究[D];河北工業(yè)大學(xué);2014年

2 吳崇正;基于MapReduce的分布式搜索引擎研究[D];蘭州理工大學(xué);2013年

3 張超;基于MapReduce的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學(xué);2012年


  本文關(guān)鍵詞:基于改進(jìn)PageRank算法的網(wǎng)頁排序問題研究,由筆耕文化傳播整理發(fā)布。



本文編號:301998

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/301998.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶01806***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com