基于MapReduce的Web鏈接結(jié)構(gòu)分析算法研究
發(fā)布時間:2017-05-19 21:14
本文關(guān)鍵詞:基于MapReduce的Web鏈接結(jié)構(gòu)分析算法研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)信息技術(shù)的飛速發(fā)展,Web網(wǎng)頁信息正在呈現(xiàn)指數(shù)級的增長趨勢。面對如此巨大的Web信息資源庫,搜索引擎已成為用戶獲取網(wǎng)絡(luò)信息資源的重要工具。Web鏈接結(jié)構(gòu)分析算法,作為網(wǎng)絡(luò)搜索引擎的重要組成部分,用于通過分析Web頁面間鏈接結(jié)構(gòu)來對Web網(wǎng)頁信息做潛在的重要性評估。然而,隨著數(shù)據(jù)計算量的不斷增加,傳統(tǒng)集中式架構(gòu)的Web鏈接結(jié)構(gòu)分析算法不僅在計算和存儲方面存在著瓶頸,且存在系統(tǒng)的穩(wěn)定性和擴展性不高等問題。近年來,處理海量數(shù)據(jù)的Hadoop分布式平臺,以其可靠性、高效性、高擴展性等優(yōu)勢,已成為學(xué)術(shù)界研究的熱點。深入研究Web鏈接結(jié)構(gòu)分析的經(jīng)典算法PageRank、HITS,以及Hadoop、Map/Reduce等理論知識,將Web鏈接結(jié)構(gòu)分析算法和Hadoop平臺相結(jié)合,并做了如下工作: 1.在Hadoop平臺上,對PageRank算法每次迭代都要多次訪問HDFS, I/O的消耗大;每次MapReduce操作,在混合階段和排序階段處理Key的數(shù)量大,算法效率低等問題進行研究。并提出了基于塊結(jié)構(gòu)劃分的方法,將網(wǎng)頁之間的鏈接關(guān)系轉(zhuǎn)換成網(wǎng)絡(luò)塊間的關(guān)系,大大減少了算法迭代過程中需要處理的Key的數(shù)據(jù)量,從而減少了Map和Reduce操作的調(diào)用次數(shù),降低了I/O傳輸造成的開銷,提高算法執(zhí)行效率。 2.在Hadoop分布式平臺上,對傳統(tǒng)HITS算法矩陣存儲鏈接結(jié)構(gòu)以及規(guī)范化處理效率低問題進行研究,根據(jù)Hadoop平臺特性,重新設(shè)計為基于MapReduce的HITS算法,改變結(jié)點信息的存儲方式,突破傳統(tǒng)HITS算法中Hub值和Authority值公共耦合的繁雜關(guān)系,并測試和分析了改進后的HITS算法。
【關(guān)鍵詞】:Web鏈接結(jié)構(gòu)分析 Hadoop分布式平臺 MapReduce PageRank算法 HITS算法
【學(xué)位授予單位】:蘭州理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要7-8
- Abstract8-10
- 插圖索引10-11
- 附表索引11-12
- 第1章 緒論12-17
- 1.1 課題研究背景及意義12-13
- 1.2 WEB鏈接結(jié)構(gòu)分析國內(nèi)外研究現(xiàn)狀13-15
- 1.3 課題研究的主要內(nèi)容15
- 1.4 論文的組織結(jié)構(gòu)安排15-17
- 第2章 HADOOP分布式框架技術(shù)及平臺部署17-26
- 2.1 分布式計算技術(shù)17-23
- 2.1.1 Hadoop分布式平臺簡介17-18
- 2.1.2 MapReduce編程模型18-19
- 2.1.3 Hadoop分布式文件系統(tǒng)—HDFS19-21
- 2.1.4 Hadoop的MapReduce工作流程21-23
- 2.2 HADOOP平臺部署23-25
- 2.2.1 實驗環(huán)境的安裝與配置23-25
- 2.3 本章小結(jié)25-26
- 第3章 WEB鏈接結(jié)構(gòu)分析相關(guān)理論26-35
- 3.1 WEB鏈接結(jié)構(gòu)理論基礎(chǔ)26-28
- 3.1.1 Web結(jié)構(gòu)圖研究26
- 3.1.2 從圖論方面認(rèn)識Web鏈接結(jié)構(gòu)26-28
- 3.2 WEB鏈接結(jié)構(gòu)分析算法—PAGERANK算法28-29
- 3.2.1 PageRank算法28-29
- 3.2.2 PageRank算法存在的問題29
- 3.3 WEB鏈接結(jié)構(gòu)分析算法—HITS算法29-34
- 3.3.1 HITS算法基本思想29-30
- 3.3.2 HITS算法的具體過程30-32
- 3.3.3 HITS算法存在的問題32-34
- 3.4 本章小結(jié)34-35
- 第4章 PAGERANK算法的優(yōu)化35-45
- 4.1 PAGERANK算法優(yōu)化方面的研究35-36
- 4.2 PAGERANK算法優(yōu)化計算流程36-42
- 4.2.1 塊結(jié)構(gòu)劃分36-38
- 4.2.2 構(gòu)劃分PagRank算法38-42
- 4.3 實驗及其結(jié)果分析42-44
- 4.3.1 實驗數(shù)據(jù)集及相關(guān)參數(shù)設(shè)定42
- 4.3.2 實驗方案設(shè)計42
- 4.3.3 結(jié)果分析42-44
- 4.4 本章小結(jié)44-45
- 第5章 改進的HITS算法45-56
- 5.1 傳統(tǒng)HITS算法規(guī)范化及矩陣存儲問題45-46
- 5.2 基于MAPREDUCE優(yōu)化HITS算法的設(shè)計方案46-49
- 5.3 改進的HITS算法—MAP函數(shù)設(shè)計49-51
- 5.4 改進的HITS算法—REDUCE函數(shù)設(shè)計51-52
- 5.5 實驗方案及結(jié)果分析52-55
- 5.5.1 實驗方案一52-53
- 5.5.2 實驗方案二53-55
- 5.6 本章小結(jié)55-56
- 結(jié)論與展望56-57
- 參考文獻57-62
- 致謝62-63
- 附錄A 攻讀碩士學(xué)位期間所發(fā)表的論文63
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李建江;崔健;王聃;嚴(yán)林;黃義雙;;MapReduce并行編程模型研究綜述[J];電子學(xué)報;2011年11期
2 駱昊;曾華q
本文編號:379867
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/379867.html
最近更新
教材專著