天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

分布式主題網(wǎng)絡(luò)爬蟲研究與設(shè)計(jì)

發(fā)布時(shí)間:2021-11-20 23:27
  互聯(lián)網(wǎng)時(shí)代,如何從海量數(shù)據(jù)中收集信息是一個(gè)關(guān)鍵問題。目前,使用最頻繁的信息檢索與收集工具是基于通用爬蟲的搜索引擎。但通用爬蟲獲取到的信息價(jià)值密度低。對(duì)此,部分學(xué)者提出了主題爬蟲。主題爬蟲是一種會(huì)按照爬行策略對(duì)頁面內(nèi)容與爬行方向進(jìn)行分析與篩選的爬蟲。與通用爬蟲相比,主題爬蟲盡量避免與主題不相關(guān)頁面的抓取,存儲(chǔ)的頁面數(shù)量更少,所獲取的信息價(jià)值密度更高,是一種有效的信息收集工具。主題爬蟲的研究與應(yīng)用始于20世紀(jì)90年代,迄今為止,研究成果主要包括基于內(nèi)容的爬行策略與基于鏈接結(jié)構(gòu)的爬行策略;前者以Fish Search、Shark Search為代表,后者以Page Rank、HITS為代表。此外,一些學(xué)者提出了基于敘詞表或本體的語義爬蟲,讓主題爬蟲在特定領(lǐng)域具備了語義分析的能力。在生產(chǎn)應(yīng)用中,則形成了以WebMagic、WebCollector、WebCollector-Hadoop為代表的爬蟲技術(shù)。語義爬蟲具備了一定的同義詞、近義詞識(shí)別能力,是對(duì)向量空間模型的一種有效改進(jìn)。但問題在于,這種識(shí)別能力受到敘詞表或本體的限制,有一定的局限性。如何讓主題爬蟲具備泛化的同義詞、近義詞識(shí)別能力,在相似... 

【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:91 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

分布式主題網(wǎng)絡(luò)爬蟲研究與設(shè)計(jì)


HDFS架構(gòu)

工作機(jī)制,文件


壞詼??NameNode的重啟動(dòng)作將耗費(fèi)相當(dāng)多的時(shí)間,因?yàn)橛写罅康母膭?dòng)記錄需要從editlogs文件拷貝到fsimage文件上。SecondaryNameNode存在的就是為了輔助NameNode解決這兩個(gè)問題。首先,SecondaryNameNode中存在定時(shí)任務(wù),每間隔一定的時(shí)間向NameNode發(fā)送請(qǐng)求,獲取editlogs,獲取editlogs后更新自己的fsimage;當(dāng)更新完成后,SecondaryNameNode會(huì)將自己的fsimage發(fā)送給NameNode。當(dāng)NameNode重啟時(shí),需要從editlogs中拷貝到fsimage的數(shù)量大幅減少,從而提升了NameNode的重啟速度。SecondaryNameNode的工作機(jī)制如圖2-2所示。圖2-2SecondaryNameNode的工作機(jī)制DataNode是從節(jié)點(diǎn),是HDFS中負(fù)責(zé)存儲(chǔ)數(shù)據(jù)的節(jié)點(diǎn)。HDFS中的文件在物理上是分塊存儲(chǔ)的,塊的大小可以通過配置來設(shè)定。從Hadoop2.0版本開始,默認(rèn)大小的是128M;在Hadoop1.0版本中,默認(rèn)大小是64M。HDFS中定義的塊比磁盤定義的塊大,其目的是為了最小化尋址開銷。如果塊設(shè)置得足夠大,傳

架構(gòu)圖,架構(gòu),單體


第二章相關(guān)理論與技術(shù)9輸數(shù)據(jù)的時(shí)間會(huì)明顯大于在磁盤定位這個(gè)塊的開始位置所需的時(shí)間。通常,機(jī)械硬盤的尋址時(shí)間約為10ms,而傳輸速率一般不超過100MB/s,為了使尋址時(shí)間僅占傳輸時(shí)間的1%,需要將塊的大小設(shè)置約為100MB,即10ms*100*100M/s=100M。考慮到計(jì)算機(jī)中底層運(yùn)算是以二進(jìn)制為基礎(chǔ),因此Hadoop將默認(rèn)的塊大小設(shè)置為128MB。2.2微服務(wù)微服務(wù)并不是某種技術(shù),而是一種分布式應(yīng)用的輕量級(jí)設(shè)計(jì)思想。在微服務(wù)的理念出現(xiàn)之前,系統(tǒng)會(huì)將所有功能單元都放在一個(gè)應(yīng)用里。當(dāng)系統(tǒng)的吞吐量無法滿足需求時(shí),通過復(fù)制整個(gè)應(yīng)用的形式對(duì)系統(tǒng)進(jìn)行擴(kuò)展;由這種系統(tǒng)擴(kuò)展方式形成的架構(gòu)被稱為單體應(yīng)用架構(gòu)。如圖2-3所示。圖2-3單體應(yīng)用架構(gòu)單體應(yīng)用架構(gòu)增加了模塊相互之間的耦合度,不利研發(fā)、維護(hù)任務(wù)的分工。例如,對(duì)系統(tǒng)中某個(gè)模塊的功能進(jìn)行了更新之后,要逐個(gè)停止每個(gè)節(jié)點(diǎn)的服務(wù),并在節(jié)點(diǎn)上重啟整個(gè)應(yīng)用以實(shí)現(xiàn)系統(tǒng)功能的更新。不同于單體應(yīng)用,微服務(wù)把不同的功能放在獨(dú)立的單元中,通過在不同服務(wù)器中分發(fā)這些單元進(jìn)行系統(tǒng)的擴(kuò)展。每個(gè)服務(wù)能夠單獨(dú)的啟動(dòng)或終止,且不同的功能單元可以使用不同的技術(shù)進(jìn)行開發(fā);如圖2-4所示。圖2-4微服務(wù)

【參考文獻(xiàn)】:
期刊論文
[1]基于語義相關(guān)度主題爬蟲的語料采集方法[J]. 周昆,王釗,于碧輝.  計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(05)
[2]一種高效的分布式爬蟲系統(tǒng)負(fù)載均衡策略[J]. 張樹濤,譚海波,陳良鋒,呂波.  計(jì)算機(jī)工程. 2019(11)
[3]基于GloVe模型的詞向量改進(jìn)方法[J]. 陳珍銳,丁治明.  計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(01)
[4]基于Hadoop的分布式并行增量爬蟲技術(shù)研究[J]. 劉芳云,張志勇,李玉祥.  計(jì)算機(jī)測(cè)量與控制. 2018(10)
[5]基于語義的聚焦爬蟲算法研究[J]. 孫紅光,藏潤(rùn)強(qiáng),姬傳德,楊鳳芹,馮國(guó)忠.  東北師大學(xué)報(bào)(自然科學(xué)版). 2018(02)
[6]HDFS小文件讀寫優(yōu)化策略[J]. 朱永強(qiáng),周珂,李丹,趙亞萌.  計(jì)算機(jī)時(shí)代. 2016(09)
[7]一種基于本體語義的災(zāi)害主題爬蟲策略[J]. 馬雷雷,李宏偉,連世偉,梁汝鵬,陳虎.  計(jì)算機(jī)工程. 2016(11)
[8]基于Hash結(jié)構(gòu)詞典的雙向最大匹配分詞法[J]. 陳之彥,李曉杰,朱淑華,付丹龍,邢詒海.  計(jì)算機(jī)科學(xué). 2015(S2)
[9]基于正反向最大匹配分詞系統(tǒng)的實(shí)現(xiàn)[J]. 陳明華,殷景華,舒昌,王明江.  信息技術(shù). 2009(06)
[10]Web搜索引擎技術(shù)綜述[J]. 宋春陽,金可音.  現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2008(05)

碩士論文
[1]基于Hadoop的分布式網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)[D]. 劉星辰.西安理工大學(xué) 2019
[2]HDFS存儲(chǔ)高利用率及強(qiáng)擴(kuò)展性優(yōu)化研究[D]. 張?chǎng)?東華理工大學(xué) 2019
[3]基于Hadoop的分布式網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[D]. 李優(yōu).西北大學(xué) 2018
[4]基于領(lǐng)域本體的垂直搜索引擎研究[D]. 王文平.北京理工大學(xué) 2016
[5]分布式爬蟲任務(wù)調(diào)度與AJAX頁面抓取研究[D]. 李婷.電子科技大學(xué) 2015



本文編號(hào):3508296

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3508296.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a96e5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com