天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

分布式主題網絡爬蟲研究與設計

發(fā)布時間:2021-11-20 23:27
  互聯網時代,如何從海量數據中收集信息是一個關鍵問題。目前,使用最頻繁的信息檢索與收集工具是基于通用爬蟲的搜索引擎。但通用爬蟲獲取到的信息價值密度低。對此,部分學者提出了主題爬蟲。主題爬蟲是一種會按照爬行策略對頁面內容與爬行方向進行分析與篩選的爬蟲。與通用爬蟲相比,主題爬蟲盡量避免與主題不相關頁面的抓取,存儲的頁面數量更少,所獲取的信息價值密度更高,是一種有效的信息收集工具。主題爬蟲的研究與應用始于20世紀90年代,迄今為止,研究成果主要包括基于內容的爬行策略與基于鏈接結構的爬行策略;前者以Fish Search、Shark Search為代表,后者以Page Rank、HITS為代表。此外,一些學者提出了基于敘詞表或本體的語義爬蟲,讓主題爬蟲在特定領域具備了語義分析的能力。在生產應用中,則形成了以WebMagic、WebCollector、WebCollector-Hadoop為代表的爬蟲技術。語義爬蟲具備了一定的同義詞、近義詞識別能力,是對向量空間模型的一種有效改進。但問題在于,這種識別能力受到敘詞表或本體的限制,有一定的局限性。如何讓主題爬蟲具備泛化的同義詞、近義詞識別能力,在相似... 

【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁數】:91 頁

【學位級別】:碩士

【部分圖文】:

分布式主題網絡爬蟲研究與設計


HDFS架構

工作機制,文件


壞詼??NameNode的重啟動作將耗費相當多的時間,因為有大量的改動記錄需要從editlogs文件拷貝到fsimage文件上。SecondaryNameNode存在的就是為了輔助NameNode解決這兩個問題。首先,SecondaryNameNode中存在定時任務,每間隔一定的時間向NameNode發(fā)送請求,獲取editlogs,獲取editlogs后更新自己的fsimage;當更新完成后,SecondaryNameNode會將自己的fsimage發(fā)送給NameNode。當NameNode重啟時,需要從editlogs中拷貝到fsimage的數量大幅減少,從而提升了NameNode的重啟速度。SecondaryNameNode的工作機制如圖2-2所示。圖2-2SecondaryNameNode的工作機制DataNode是從節(jié)點,是HDFS中負責存儲數據的節(jié)點。HDFS中的文件在物理上是分塊存儲的,塊的大小可以通過配置來設定。從Hadoop2.0版本開始,默認大小的是128M;在Hadoop1.0版本中,默認大小是64M。HDFS中定義的塊比磁盤定義的塊大,其目的是為了最小化尋址開銷。如果塊設置得足夠大,傳

架構圖,架構,單體


第二章相關理論與技術9輸數據的時間會明顯大于在磁盤定位這個塊的開始位置所需的時間。通常,機械硬盤的尋址時間約為10ms,而傳輸速率一般不超過100MB/s,為了使尋址時間僅占傳輸時間的1%,需要將塊的大小設置約為100MB,即10ms*100*100M/s=100M。考慮到計算機中底層運算是以二進制為基礎,因此Hadoop將默認的塊大小設置為128MB。2.2微服務微服務并不是某種技術,而是一種分布式應用的輕量級設計思想。在微服務的理念出現之前,系統(tǒng)會將所有功能單元都放在一個應用里。當系統(tǒng)的吞吐量無法滿足需求時,通過復制整個應用的形式對系統(tǒng)進行擴展;由這種系統(tǒng)擴展方式形成的架構被稱為單體應用架構。如圖2-3所示。圖2-3單體應用架構單體應用架構增加了模塊相互之間的耦合度,不利研發(fā)、維護任務的分工。例如,對系統(tǒng)中某個模塊的功能進行了更新之后,要逐個停止每個節(jié)點的服務,并在節(jié)點上重啟整個應用以實現系統(tǒng)功能的更新。不同于單體應用,微服務把不同的功能放在獨立的單元中,通過在不同服務器中分發(fā)這些單元進行系統(tǒng)的擴展。每個服務能夠單獨的啟動或終止,且不同的功能單元可以使用不同的技術進行開發(fā);如圖2-4所示。圖2-4微服務

【參考文獻】:
期刊論文
[1]基于語義相關度主題爬蟲的語料采集方法[J]. 周昆,王釗,于碧輝.  計算機系統(tǒng)應用. 2019(05)
[2]一種高效的分布式爬蟲系統(tǒng)負載均衡策略[J]. 張樹濤,譚海波,陳良鋒,呂波.  計算機工程. 2019(11)
[3]基于GloVe模型的詞向量改進方法[J]. 陳珍銳,丁治明.  計算機系統(tǒng)應用. 2019(01)
[4]基于Hadoop的分布式并行增量爬蟲技術研究[J]. 劉芳云,張志勇,李玉祥.  計算機測量與控制. 2018(10)
[5]基于語義的聚焦爬蟲算法研究[J]. 孫紅光,藏潤強,姬傳德,楊鳳芹,馮國忠.  東北師大學報(自然科學版). 2018(02)
[6]HDFS小文件讀寫優(yōu)化策略[J]. 朱永強,周珂,李丹,趙亞萌.  計算機時代. 2016(09)
[7]一種基于本體語義的災害主題爬蟲策略[J]. 馬雷雷,李宏偉,連世偉,梁汝鵬,陳虎.  計算機工程. 2016(11)
[8]基于Hash結構詞典的雙向最大匹配分詞法[J]. 陳之彥,李曉杰,朱淑華,付丹龍,邢詒海.  計算機科學. 2015(S2)
[9]基于正反向最大匹配分詞系統(tǒng)的實現[J]. 陳明華,殷景華,舒昌,王明江.  信息技術. 2009(06)
[10]Web搜索引擎技術綜述[J]. 宋春陽,金可音.  現代計算機(專業(yè)版). 2008(05)

碩士論文
[1]基于Hadoop的分布式網絡爬蟲的研究與實現[D]. 劉星辰.西安理工大學 2019
[2]HDFS存儲高利用率及強擴展性優(yōu)化研究[D]. 張鑫.東華理工大學 2019
[3]基于Hadoop的分布式網絡爬蟲設計與實現[D]. 李優(yōu).西北大學 2018
[4]基于領域本體的垂直搜索引擎研究[D]. 王文平.北京理工大學 2016
[5]分布式爬蟲任務調度與AJAX頁面抓取研究[D]. 李婷.電子科技大學 2015



本文編號:3508296

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3508296.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶a96e5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com