基于云計(jì)算環(huán)境的Web結(jié)構(gòu)挖掘算法研究
發(fā)布時(shí)間:2017-07-04 15:24
本文關(guān)鍵詞:基于云計(jì)算環(huán)境的Web結(jié)構(gòu)挖掘算法研究
更多相關(guān)文章: 云計(jì)算 Hadoop 最小分塊 PageRank Web結(jié)構(gòu)挖掘
【摘要】:隨著網(wǎng)絡(luò)的快速發(fā)展,人們愈來(lái)愈頻繁地在互聯(lián)網(wǎng)上發(fā)布和獲取信息,Web頁(yè)已經(jīng)成為主要的信息源。信息量在不斷增大的同時(shí)亦帶來(lái)了數(shù)據(jù)分析和挖掘過(guò)程中的各種挑戰(zhàn)。Web結(jié)構(gòu)挖掘技術(shù)通過(guò)研究Web頁(yè)面之間的鏈接關(guān)系可發(fā)現(xiàn)Web中隱藏的潛在信息,而隨著信息量的不斷增大,如何提高Web結(jié)構(gòu)挖掘技術(shù)的性能已成為廣泛研究的課題。云計(jì)算技術(shù)提供了一種解決方案,通過(guò)構(gòu)建集群獲取強(qiáng)大的計(jì)算和存儲(chǔ)能力。集群可以部署在普通的廉價(jià)計(jì)算機(jī)上,通過(guò)并行處理可實(shí)現(xiàn)高性能計(jì)算,因此在云計(jì)算環(huán)境下能很好地實(shí)行Web結(jié)構(gòu)挖掘。本文概述了云計(jì)算相關(guān)知識(shí),以及Web挖掘和在此基礎(chǔ)上發(fā)展而來(lái)的一個(gè)特殊應(yīng)用——Web結(jié)構(gòu)挖掘;介紹了Web結(jié)構(gòu)挖掘中的經(jīng)典算法—PageRank;詳細(xì)說(shuō)明了開(kāi)源且被普遍應(yīng)用的云計(jì)算平臺(tái)—Hadoop。在這些基礎(chǔ)上,主要完成了以下工作:(1)分析實(shí)現(xiàn)PageRank并行計(jì)算的內(nèi)積法、外積法和矩陣分塊法。研究如何通過(guò)Hadoop云計(jì)算環(huán)境、MapReduce框架和傳統(tǒng)矩陣分塊實(shí)現(xiàn)PageRank并行算法。(2)利用Gauss-Seidel迭代法可以減少迭代次數(shù)的優(yōu)勢(shì),將PageRank算法中原本的冪迭代法替換成Gauss-Seidel迭代法,以有效地提高PageRank的計(jì)算效率。(3)針對(duì)傳統(tǒng)矩陣分塊中分塊規(guī)則不易確定,分塊后的計(jì)算較為繁瑣的問(wèn)題。提出結(jié)合MapReduce框架,基于最小分塊原則實(shí)現(xiàn)PageRank算法的方法。此方法按照每一個(gè)網(wǎng)頁(yè)計(jì)算PR值時(shí)所需的有效的元素進(jìn)行分塊存儲(chǔ),計(jì)算過(guò)程中減少了I/O傳輸消耗,從而提高了計(jì)算效率。(4)搭建Hadoop平臺(tái),完成不同規(guī)模的網(wǎng)頁(yè)鏈接數(shù)據(jù)集的比較實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明在相同的并行環(huán)境下改進(jìn)的矩陣分塊PageRank實(shí)現(xiàn)方法較傳統(tǒng)方法在計(jì)算效率上有一定的優(yōu)越性。
【關(guān)鍵詞】:云計(jì)算 Hadoop 最小分塊 PageRank Web結(jié)構(gòu)挖掘
【學(xué)位授予單位】:安徽工程大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092;TP311.13
【目錄】:
- 摘要5-7
- ABSTRACT7-13
- 第1章 緒論13-21
- 1.1 引言13-16
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀16-19
- 1.3 本文的主要研究?jī)?nèi)容19
- 1.4 本文的組織結(jié)構(gòu)19-21
- 第2章 相關(guān)技術(shù)研究21-29
- 2.1 云計(jì)算21-22
- 2.1.1 云計(jì)算產(chǎn)生背景21
- 2.1.2 云計(jì)算概念21
- 2.1.3 云計(jì)算關(guān)鍵技術(shù)21-22
- 2.2 Web挖掘22-23
- 2.2.1 Web挖掘特點(diǎn)22-23
- 2.2.2 Web挖掘分類23
- 2.3 Web結(jié)構(gòu)挖掘23-25
- 2.3.1 Web圖概念24-25
- 2.3.2 鏈接關(guān)系表示25
- 2.4 PageRank算法25-28
- 2.4.1 算法思想25-27
- 2.4.2 算法優(yōu)缺點(diǎn)27-28
- 2.5 本章小節(jié)28-29
- 第3章 Hadoop云計(jì)算平臺(tái)分析29-36
- 3.1 概述29-32
- 3.1.1 Hadoop概述29
- 3.1.2 HDFS特點(diǎn)和體系結(jié)構(gòu)29-30
- 3.1.3 HDFS數(shù)據(jù)管理30-31
- 3.1.4 MapReduce介紹31-32
- 3.2 Hadoop下的MapReduce32-35
- 3.2.1 工作流程33
- 3.2.2 調(diào)度策略33-35
- 3.2.3 錯(cuò)誤處理機(jī)制35
- 3.3 本章小節(jié)35-36
- 第4章 云計(jì)算環(huán)境下PageRank算法實(shí)現(xiàn)36-54
- 4.1 PageRank算法并行實(shí)現(xiàn)36-45
- 4.1.1 矩陣分塊36-38
- 4.1.2 矩陣存儲(chǔ)結(jié)構(gòu)38
- 4.1.3 PageRank算法內(nèi)積法并行實(shí)現(xiàn)38-40
- 4.1.4 PageRank算法外積法并行實(shí)現(xiàn)40-42
- 4.1.5 PageRank算法矩陣分塊法并行實(shí)現(xiàn)42-44
- 4.1.6 并行實(shí)現(xiàn)中存在的問(wèn)題44-45
- 4.2 PageRank算法Gauss-Seidel迭代實(shí)現(xiàn)45-47
- 4.2.1 Jacobi迭代法45
- 4.2.2 Gauss-Seidel迭代法45-46
- 4.2.3 PageRank算法Gauss-Seidel迭代實(shí)驗(yàn)46-47
- 4.2.4 算法存在的問(wèn)題47
- 4.3 利用最小分塊方法并行實(shí)現(xiàn)PageRank算法47-53
- 4.3.1 最小分塊原理47-48
- 4.3.2 數(shù)據(jù)準(zhǔn)備48-50
- 4.3.3 實(shí)現(xiàn)過(guò)程50-52
- 4.3.4 復(fù)雜度分析52
- 4.3.5 算法比較52-53
- 4.4 本章小節(jié)53-54
- 第5章 實(shí)驗(yàn)與結(jié)果分析54-63
- 5.1 Hadoop平臺(tái)搭建54-57
- 5.1.1 角色和運(yùn)行方式54
- 5.1.2 實(shí)驗(yàn)環(huán)境54
- 5.1.3 Hadoop環(huán)境搭建54-57
- 5.2 數(shù)據(jù)集準(zhǔn)備57-58
- 5.3 基于MapReduce的并行實(shí)現(xiàn)58-60
- 5.3.1 插件安裝58
- 5.3.2 基于最小分塊的PageRank算法開(kāi)發(fā)58-60
- 5.4 結(jié)果分析60-62
- 5.5 本章小結(jié)62-63
- 第6章 總結(jié)與展望63-65
- 6.1 論文總結(jié)63
- 6.2 研究展望63-65
- 參考文獻(xiàn)65-68
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄68-69
- 致謝69
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 陳全;鄧倩妮;;云計(jì)算及其關(guān)鍵技術(shù)[J];計(jì)算機(jī)應(yīng)用;2009年09期
2 楊長(zhǎng)春;俞克非;葉施仁;嚴(yán)水歌;丁虹;楊晶;;一種新的中文微博社區(qū)博主影響力的評(píng)估方法[J];計(jì)算機(jī)工程與應(yīng)用;2012年25期
,本文編號(hào):518333
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/518333.html
最近更新
教材專著