天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 社科論文 > 圖書檔案論文 >

基于Heritrix與Hadoop的海量網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)獲取及并行處理研究

發(fā)布時(shí)間:2021-11-03 05:07
  隨著網(wǎng)絡(luò)的普及和發(fā)展,互聯(lián)網(wǎng)作為網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)的載體,在學(xué)術(shù)界的地位日益顯著,提供的學(xué)術(shù)資源在廣度和深度上都有了很大的發(fā)展。海量網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)有著重要的學(xué)術(shù)價(jià)值,然而,由于其規(guī)模巨大、異構(gòu)多樣、無序分散、動(dòng)態(tài)變化、更新速度快,很難為科研工作者所獲取和有效利用,因此亟需一種快速有效的海量文獻(xiàn)處理方法。海量數(shù)據(jù)的處理對(duì)服務(wù)器CPU、IO的吞吐都是嚴(yán)峻的考驗(yàn),不論是處理速度、存儲(chǔ)空間、容錯(cuò)性,還是在訪問速度等方面,傳統(tǒng)的技術(shù)架構(gòu)和僅靠單臺(tái)計(jì)算機(jī)基于串行的方式越來越不適應(yīng)當(dāng)前海量數(shù)據(jù)處理的要求。目前已有的海量數(shù)據(jù)處理方法在概念上較容易理解,然而由于數(shù)據(jù)量巨大,要在可接受的時(shí)間內(nèi)完成相應(yīng)的處理,只有進(jìn)行并行化處理。通過提取出處理過程中存在的可并行工作的分量,用分布式模型來實(shí)現(xiàn)這些并行分量的并行執(zhí)行過程,以便較好地解決海量文獻(xiàn)處理過程中面臨的內(nèi)存消耗大、處理速度慢、特征向量維度高等問題。目前,大規(guī)模文本處理已成為一個(gè)挑戰(zhàn),同時(shí)也是海量數(shù)據(jù)處理研究領(lǐng)域的熱點(diǎn)問題。海量數(shù)據(jù)處理研究的不斷深入和開源軟件的蓬勃發(fā)展,為海量網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)的并行處理研究提供了契機(jī)。本文首先深入研究了開源軟件Hadoop和Herit... 

【文章來源】:山東理工大學(xué)山東省

【文章頁數(shù)】:102 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
目錄
圖表目錄
第1章 緒論
    1.1 研究背景與意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
    1.3 主要研究?jī)?nèi)容及思路
    1.4 本章小結(jié)
第2章 Hadoop與Heritrix平臺(tái)概述
    2.1 Hadoop平臺(tái)基礎(chǔ)
        2.1.1 Hadoop項(xiàng)目及結(jié)構(gòu)
        2.1.2 Hadoop分布式文件系統(tǒng)
        2.1.3 MapReduce編程模型
        2.1.4 Hadoop平臺(tái)搭建
        2.1.5 Hadoop與其他系統(tǒng)的比較
    2.2 Heritrix平臺(tái)基礎(chǔ)
        2.2.1 開源網(wǎng)絡(luò)爬蟲工具
        2.2.2 爬蟲工具比較分析
    2.3 本章小結(jié)
第3章 海量網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)獲取及并行處理模型設(shè)計(jì)
    3.1 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)的主要來源及常用文件格式
        3.1.1 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)的主要來源及特點(diǎn)
        3.1.2 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)的常用文件格式
    3.2 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)資源獲取
        3.2.1 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)獲取方案
        3.2.2 種子站點(diǎn)的選擇
        3.2.3 抓取任務(wù)的配置
        3.2.4 文件類型和大小過濾
    3.3 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)資源判定
    3.4 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)并行處理
        3.4.1 數(shù)據(jù)預(yù)處理
        3.4.2 并行處理
    3.5 MapReduce任務(wù)的優(yōu)化
        3.5.1 任務(wù)調(diào)度
        3.5.2 任務(wù)數(shù)量
        3.5.3 Combine函數(shù)
        3.5.4 文件壓縮
        3.5.5 重用JVM
    3.6 本章小結(jié)
第4章 海量網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)獲取及并行處理模型實(shí)現(xiàn)
    4.1 實(shí)驗(yàn)環(huán)境
    4.2 實(shí)驗(yàn)平臺(tái)搭建
        4.2.1 集群網(wǎng)絡(luò)環(huán)境介紹
        4.2.2 JDK安裝及Java環(huán)境變量配置
        4.2.3 SSH無密碼登錄設(shè)置
        4.2.4 Hadoop集群配置
    4.3 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)資源獲取模塊實(shí)現(xiàn)
    4.4 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)資源判定模塊實(shí)現(xiàn)
    4.5 網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)并行處理模塊實(shí)現(xiàn)
    4.6 文章小結(jié)
第5章 總結(jié)與展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間的科研情況
附錄A
附錄B
附錄C
附錄D



本文編號(hào):3473108

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/3473108.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶41b15***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
婷婷伊人综合中文字幕| 日韩精品区欧美在线一区| 黑人巨大精品欧美一区二区区| 久久大香蕉精品在线观看 | 国产精品久久男人的天堂| 欧美一级黄片欧美精品| 亚洲妇女作爱一区二区三区| 色婷婷在线精品国自产拍| 极品熟女一区二区三区| 国产又粗又爽又猛又黄的| 99热九九在线中文字幕| 日韩一区二区三区有码| 亚洲中文字幕视频一区二区| 日韩欧美好看的剧情片免费| 麻豆亚州无矿码专区视频| 免费一级欧美大片免费看| 欧美精品一区二区水蜜桃| 亚洲在线观看福利视频| 日本午夜免费福利视频| 经典欧美熟女激情综合网 | 亚洲国产精品久久琪琪| 欧美一区二区三区喷汁尤物| 色无极东京热男人的天堂| 激情爱爱一区二区三区| 亚洲欧洲在线一区二区三区| 日韩成人动画在线观看 | 激情亚洲内射一区二区三区| 亚洲综合天堂一二三区| 国产一区二区精品丝袜| 午夜免费精品视频在线看| 亚洲天堂一区在线播放| 99国产成人免费一区二区| 亚洲色图欧美另类人妻| 亚洲天堂男人在线观看| 五月婷婷欧美中文字幕| 日韩1区二区三区麻豆| 欧美日韩国产成人高潮| 日本高清一区免费不卡| 午夜福利网午夜福利网| 日本加勒比在线播放一区| 三级理论午夜福利在线看|