基于Heritrix與Hadoop的海量網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)獲取及并行處理研究
發(fā)布時(shí)間:2021-11-03 05:07
隨著網(wǎng)絡(luò)的普及和發(fā)展,互聯(lián)網(wǎng)作為網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)的載體,在學(xué)術(shù)界的地位日益顯著,提供的學(xué)術(shù)資源在廣度和深度上都有了很大的發(fā)展。海量網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)有著重要的學(xué)術(shù)價(jià)值,然而,由于其規(guī)模巨大、異構(gòu)多樣、無序分散、動(dòng)態(tài)變化、更新速度快,很難為科研工作者所獲取和有效利用,因此亟需一種快速有效的海量文獻(xiàn)處理方法。海量數(shù)據(jù)的處理對(duì)服務(wù)器CPU、IO的吞吐都是嚴(yán)峻的考驗(yàn),不論是處理速度、存儲(chǔ)空間、容錯(cuò)性,還是在訪問速度等方面,傳統(tǒng)的技術(shù)架構(gòu)和僅靠單臺(tái)計(jì)算機(jī)基于串行的方式越來越不適應(yīng)當(dāng)前海量數(shù)據(jù)處理的要求。目前已有的海量數(shù)據(jù)處理方法在概念上較容易理解,然而由于數(shù)據(jù)量巨大,要在可接受的時(shí)間內(nèi)完成相應(yīng)的處理,只有進(jìn)行并行化處理。通過提取出處理過程中存在的可并行工作的分量,用分布式模型來實(shí)現(xiàn)這些并行分量的并行執(zhí)行過程,以便較好地解決海量文獻(xiàn)處理過程中面臨的內(nèi)存消耗大、處理速度慢、特征向量維度高等問題。目前,大規(guī)模文本處理已成為一個(gè)挑戰(zhàn),同時(shí)也是海量數(shù)據(jù)處理研究領(lǐng)域的熱點(diǎn)問題。海量數(shù)據(jù)處理研究的不斷深入和開源軟件的蓬勃發(fā)展,為海量網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)的并行處理研究提供了契機(jī)。本文首先深入研究了開源軟件Hadoop和Herit...
【文章來源】:山東理工大學(xué)山東省
【文章頁數(shù)】:102 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
目錄
圖表目錄
第1章 緒論
1.1 研究背景與意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 主要研究?jī)?nèi)容及思路
1.4 本章小結(jié)
第2章 Hadoop與Heritrix平臺(tái)概述
2.1 Hadoop平臺(tái)基礎(chǔ)
2.1.1 Hadoop項(xiàng)目及結(jié)構(gòu)
2.1.2 Hadoop分布式文件系統(tǒng)
2.1.3 MapReduce編程模型
2.1.4 Hadoop平臺(tái)搭建
2.1.5 Hadoop與其他系統(tǒng)的比較
2.2 Heritrix平臺(tái)基礎(chǔ)
2.2.1 開源網(wǎng)絡(luò)爬蟲工具
2.2.2 爬蟲工具比較分析
2.3 本章小結(jié)
第3章 海量網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)獲取及并行處理模型設(shè)計(jì)
3.1 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)的主要來源及常用文件格式
3.1.1 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)的主要來源及特點(diǎn)
3.1.2 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)的常用文件格式
3.2 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)資源獲取
3.2.1 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)獲取方案
3.2.2 種子站點(diǎn)的選擇
3.2.3 抓取任務(wù)的配置
3.2.4 文件類型和大小過濾
3.3 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)資源判定
3.4 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)并行處理
3.4.1 數(shù)據(jù)預(yù)處理
3.4.2 并行處理
3.5 MapReduce任務(wù)的優(yōu)化
3.5.1 任務(wù)調(diào)度
3.5.2 任務(wù)數(shù)量
3.5.3 Combine函數(shù)
3.5.4 文件壓縮
3.5.5 重用JVM
3.6 本章小結(jié)
第4章 海量網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)獲取及并行處理模型實(shí)現(xiàn)
4.1 實(shí)驗(yàn)環(huán)境
4.2 實(shí)驗(yàn)平臺(tái)搭建
4.2.1 集群網(wǎng)絡(luò)環(huán)境介紹
4.2.2 JDK安裝及Java環(huán)境變量配置
4.2.3 SSH無密碼登錄設(shè)置
4.2.4 Hadoop集群配置
4.3 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)資源獲取模塊實(shí)現(xiàn)
4.4 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)資源判定模塊實(shí)現(xiàn)
4.5 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)并行處理模塊實(shí)現(xiàn)
4.6 文章小結(jié)
第5章 總結(jié)與展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間的科研情況
附錄A
附錄B
附錄C
附錄D
本文編號(hào):3473108
【文章來源】:山東理工大學(xué)山東省
【文章頁數(shù)】:102 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
目錄
圖表目錄
第1章 緒論
1.1 研究背景與意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 主要研究?jī)?nèi)容及思路
1.4 本章小結(jié)
第2章 Hadoop與Heritrix平臺(tái)概述
2.1 Hadoop平臺(tái)基礎(chǔ)
2.1.1 Hadoop項(xiàng)目及結(jié)構(gòu)
2.1.2 Hadoop分布式文件系統(tǒng)
2.1.3 MapReduce編程模型
2.1.4 Hadoop平臺(tái)搭建
2.1.5 Hadoop與其他系統(tǒng)的比較
2.2 Heritrix平臺(tái)基礎(chǔ)
2.2.1 開源網(wǎng)絡(luò)爬蟲工具
2.2.2 爬蟲工具比較分析
2.3 本章小結(jié)
第3章 海量網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)獲取及并行處理模型設(shè)計(jì)
3.1 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)的主要來源及常用文件格式
3.1.1 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)的主要來源及特點(diǎn)
3.1.2 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)的常用文件格式
3.2 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)資源獲取
3.2.1 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)獲取方案
3.2.2 種子站點(diǎn)的選擇
3.2.3 抓取任務(wù)的配置
3.2.4 文件類型和大小過濾
3.3 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)資源判定
3.4 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)并行處理
3.4.1 數(shù)據(jù)預(yù)處理
3.4.2 并行處理
3.5 MapReduce任務(wù)的優(yōu)化
3.5.1 任務(wù)調(diào)度
3.5.2 任務(wù)數(shù)量
3.5.3 Combine函數(shù)
3.5.4 文件壓縮
3.5.5 重用JVM
3.6 本章小結(jié)
第4章 海量網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)獲取及并行處理模型實(shí)現(xiàn)
4.1 實(shí)驗(yàn)環(huán)境
4.2 實(shí)驗(yàn)平臺(tái)搭建
4.2.1 集群網(wǎng)絡(luò)環(huán)境介紹
4.2.2 JDK安裝及Java環(huán)境變量配置
4.2.3 SSH無密碼登錄設(shè)置
4.2.4 Hadoop集群配置
4.3 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)資源獲取模塊實(shí)現(xiàn)
4.4 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)資源判定模塊實(shí)現(xiàn)
4.5 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)并行處理模塊實(shí)現(xiàn)
4.6 文章小結(jié)
第5章 總結(jié)與展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間的科研情況
附錄A
附錄B
附錄C
附錄D
本文編號(hào):3473108
本文鏈接:http://sikaile.net/tushudanganlunwen/3473108.html
最近更新
教材專著