天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于分布式的主題型爬行器的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-04-18 14:12
  數(shù)據(jù)時(shí)代背景下,越來(lái)越多的企業(yè)、個(gè)人都意識(shí)到數(shù)據(jù)的價(jià)值,數(shù)據(jù)的重要性日益凸顯,網(wǎng)絡(luò)資源共享問(wèn)題成為了越來(lái)越多網(wǎng)絡(luò)研究領(lǐng)域的研究對(duì)象。利用互聯(lián)網(wǎng),實(shí)現(xiàn)數(shù)據(jù)、網(wǎng)絡(luò)帶寬、機(jī)器計(jì)算空間等各方面的共享,實(shí)現(xiàn)資源的高效整合和利用。由于數(shù)據(jù)來(lái)源分布廣、爬取的信息數(shù)據(jù)量大、數(shù)據(jù)種類繁雜等特征,導(dǎo)致海量信息無(wú)序化,這對(duì)于想要獲得某個(gè)專業(yè)領(lǐng)域資源的用戶帶來(lái)不便,用戶很難得到精化搜索結(jié)果。專業(yè)型網(wǎng)站不斷涌現(xiàn),為滿足專業(yè)型用戶查詢特定主題的信息,主題爬行器應(yīng)運(yùn)而生。較綜合型爬行器更適合于現(xiàn)在的網(wǎng)絡(luò)環(huán)境的發(fā)展與互聯(lián)網(wǎng)用戶的需求,能夠從海量的信息中,更加精確地對(duì)其進(jìn)行查找、抽取等,同時(shí)通過(guò)分布式處理技術(shù),來(lái)加快整體爬行器在頁(yè)面爬取、存儲(chǔ)工作上的效率,以更好的應(yīng)用于當(dāng)前網(wǎng)絡(luò)時(shí)代背景。本文針對(duì)綜合型爬行器對(duì)網(wǎng)站的橫向信息爬取、搜索結(jié)果分散、主題關(guān)聯(lián)性不強(qiáng)即爬取的內(nèi)容多但不一定主題相關(guān)度高等問(wèn)題,對(duì)主題相關(guān)度計(jì)算的算法進(jìn)行了分析和研究;通過(guò)對(duì)鏈接的結(jié)構(gòu)、網(wǎng)站頁(yè)面的連通方式和頁(yè)面內(nèi)容等多方面內(nèi)容進(jìn)行綜合,設(shè)計(jì)出了主題相關(guān)度計(jì)算算法,基于此算法實(shí)現(xiàn)了主題型網(wǎng)絡(luò)爬行器;針對(duì)多爬行器協(xié)同工作問(wèn)題,采用分布式結(jié)構(gòu)進(jìn)行爬行器的部署... 

【文章來(lái)源】:華東交通大學(xué)江西省

【文章頁(yè)數(shù)】:64 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
第1章 緒論
    1.1 研究背景及意義
    1.2 國(guó)內(nèi)外相關(guān)研究現(xiàn)狀
        1.2.1 主題網(wǎng)絡(luò)爬蟲的研究現(xiàn)狀
        1.2.2 垂直型網(wǎng)絡(luò)爬行器相關(guān)算法
        1.2.3 主題網(wǎng)絡(luò)爬行器的分布式處理技術(shù)
        1.2.4 網(wǎng)頁(yè)保護(hù)策略的應(yīng)對(duì)機(jī)制
    1.3 論文研究的目標(biāo)和內(nèi)容
        1.3.1 研究目標(biāo)
        1.3.2 研究?jī)?nèi)容
    1.4 論文章節(jié)安排
第2章 相關(guān)技術(shù)
    2.1 基于內(nèi)容的主題相關(guān)性算法
        2.1.1 Fish-Search分析算法
        2.1.2 Shark-Search分析算法
        2.1.3 TF-IDF分析算法
    2.2 網(wǎng)頁(yè)價(jià)值鏈接分析算法
        2.2.1 鏈接價(jià)值分析算法
        2.2.2 PageRank分析算法
        2.2.3 HITS分析算法
    2.3 分布式處理技術(shù)
        2.3.1 Hadoop分布式處理技術(shù)
        2.3.2 基于Hadoop的分布式文件系統(tǒng)
        2.3.3 并行編程模式MapReduce
        2.3.4 消息隊(duì)列MOM
    2.4 本章小結(jié)
第3章 關(guān)鍵技術(shù)的研究
    3.1 頁(yè)面主題關(guān)聯(lián)度計(jì)算的分析策略
    3.2 爬行器主題相關(guān)度分析計(jì)算的算法
    3.3 錯(cuò)誤恢復(fù)機(jī)制
    3.4 本章小結(jié)
第4章 主題爬行器的分析與設(shè)計(jì)
    4.1 主題爬行器的工作流程
    4.2 總體架構(gòu)設(shè)計(jì)
    4.3 基于負(fù)載均衡原則的中心控制模塊的設(shè)計(jì)
    4.4 爬行子節(jié)點(diǎn)模塊的設(shè)計(jì)
    4.5 主題分析模塊的設(shè)計(jì)
    4.6 分布式存儲(chǔ)模塊的設(shè)計(jì)
    4.7 錯(cuò)誤恢復(fù)機(jī)制模塊的設(shè)計(jì)
    4.8 本章小結(jié)
第5章 分布式主題網(wǎng)絡(luò)爬行器的實(shí)現(xiàn)與評(píng)估
    5.1 分布式主題爬行器的實(shí)現(xiàn)與評(píng)估
    5.2 主題爬行器主題分析與抓取的實(shí)現(xiàn)與評(píng)估
        5.2.1 主題爬行器的頁(yè)面主題相關(guān)性分析算法的實(shí)現(xiàn)
        5.2.2 爬行器主題爬取的分析與評(píng)估
    5.3 錯(cuò)誤恢復(fù)機(jī)制的實(shí)現(xiàn)
    5.4 本章小結(jié)
第6章 總結(jié)與展望
    6.1 總結(jié)
    6.2 展望
參考文獻(xiàn)
個(gè)人簡(jiǎn)歷 在讀期間發(fā)表的學(xué)術(shù)論文
致謝


【參考文獻(xiàn)】:
期刊論文
[1]面向圖書主題的爬蟲算法研究[J]. 張莉婧,曾慶濤,李業(yè)麗,孫華艷,字云飛.  計(jì)算機(jī)科學(xué). 2017(S2)
[2]網(wǎng)站安全防護(hù)策略[J]. 羅傳軍,武國(guó)良,王琪.  網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2016(12)
[3]一種面向HDFS的多層索引技術(shù)[J]. 何龍,陳晉川,杜小勇.  軟件學(xué)報(bào). 2017(03)
[4]大規(guī)模云同步歸集數(shù)據(jù)系統(tǒng)的異步并行優(yōu)化[J]. 楊海濤,張傳斌,阮鎮(zhèn)江,徐飛.  計(jì)算機(jī)工程與應(yīng)用. 2017(02)
[5]IncPR:一種基于增量計(jì)算的并行PageRank算法[J]. 姜雙雙,廖群,楊愚魯,李濤.  計(jì)算機(jī)研究與發(fā)展. 2016(08)
[6]一種優(yōu)化路徑的聚焦爬蟲爬行策略[J]. 徐晨初,張燕平,劉國(guó)濤.  小型微型計(jì)算機(jī)系統(tǒng). 2016(08)
[7]基于維基百科社區(qū)挖掘的詞語(yǔ)語(yǔ)義相似度計(jì)算[J]. 彭麗針,吳揚(yáng)揚(yáng).  計(jì)算機(jī)科學(xué). 2016(04)
[8]基于用戶興趣與主題相關(guān)的PageRank算法改進(jìn)研究[J]. 王沖,紀(jì)仙慧.  計(jì)算機(jī)科學(xué). 2016(03)
[9]基于TF-IDF改進(jìn)算法的聚焦主題網(wǎng)絡(luò)爬蟲[J]. 王景中,邱銅相.  計(jì)算機(jī)應(yīng)用. 2015(10)
[10]基于PageRank,HITS和SALSA算法的學(xué)術(shù)論文評(píng)價(jià)[J]. 蘇成,Hee-Sop KIM.  情報(bào)雜志. 2015(06)



本文編號(hào):3145611

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3145611.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1dea9***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com