基于大規(guī)模數(shù)據(jù)的企業(yè)地址識(shí)別系統(tǒng)
【學(xué)位單位】:廈門(mén)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類(lèi)】:F272;TP311.13
【部分圖文】:
圖2.1邋Scrapy架構(gòu)流程圖逡逑7.邋Downloader邋Middlewares:用來(lái)擴(kuò)展下載功能;逡逑整體流程如圖2.1所示,圖片中綠色的箭頭就是數(shù)據(jù)流向。從起始訪(fǎng)問(wèn)的URL逡逑開(kāi)始,Scheduler會(huì)把URL通過(guò)engine傳遞給Downloader,并完成下載,1、載完逡逑之后的結(jié)果會(huì)返回給Spider進(jìn)行分析。如果需要進(jìn)_-步抓取鏈接,比如存在鏈接逡逑信息的“下一頁(yè)”等,會(huì)將其回傳到Scheduler。否則就將其保存起來(lái),送到Item逡逑Pipeline組件,對(duì)數(shù)據(jù)根據(jù)業(yè)務(wù)需求進(jìn)行分析、計(jì)算、儲(chǔ)存等處理。逡逑2.2.2邋日志收集系統(tǒng)Flume邋NG逡逑Flume邋NG是Cloudera開(kāi)發(fā)的lmdoop生態(tài)組件之一,是一個(gè)工具/服務(wù)/數(shù)據(jù)逡逑采集機(jī)制,用于收集匯總并將大W流數(shù)據(jù)從各種來(lái)源匯總并傳輸?shù)郊惺綌?shù)據(jù)存儲(chǔ)逡逑區(qū)。從網(wǎng)絡(luò)服務(wù)器收集日志文件中存在的日志數(shù)據(jù)并將其聚合在Kafka中進(jìn)行分逡逑析,這是F]ume的一個(gè)常見(jiàn)使用案例。逡逑-11邋-逡逑
Flume作為日志收集系統(tǒng),集高度可靠,分布式、可配置于一身。它主要用于將逡逑來(lái)自各種流數(shù)據(jù)(日志數(shù)據(jù))傳輸?shù)剑樱穑幔颍、Kafka等系統(tǒng),并可以將數(shù)據(jù)存儲(chǔ)到多逡逑種集中式存儲(chǔ)中。Flume的基本體系結(jié)構(gòu)如圖2.2所示。Flume內(nèi)部的傳輸數(shù)據(jù)基本逡逑單位是事件Event。它主要數(shù)據(jù)結(jié)構(gòu)為一個(gè)字節(jié)數(shù)組。該字節(jié)數(shù)組將從源頭傳輸?shù)侥垮义蠘?biāo),并附帶可選標(biāo)題。一個(gè)完整的Event由headers、body、event三部分組成[23]。逡逑Ageirt是Flume中的獨(dú)立守護(hù)進(jìn)程。它從客戶(hù)端或其他代理接收數(shù)據(jù)(事件)逡逑并將其轉(zhuǎn)發(fā)到其下一個(gè)目標(biāo)(接收器或代理)。Flume邋Agent包含三個(gè)主要組件,即逡逑源、通道和接收器。Source是數(shù)據(jù)來(lái)源組件,它負(fù)責(zé)從數(shù)據(jù)源頭接受信息流,發(fā)送逡逑到數(shù)據(jù)通道進(jìn)行后續(xù)數(shù)據(jù)傳輸。Apache邋Flume對(duì)多種數(shù)據(jù)源都友好支持,不同的逡逑數(shù)據(jù)源有不同的指定數(shù)據(jù)生成器事件。Chanel是一個(gè)類(lèi)似于消息服務(wù)器,是一個(gè)緩逡逑存組件。它是源和匯之間的傳輸通道,可以是文件系統(tǒng),也可以是內(nèi)存或者.]DBC逡逑等通道。Sink則是將數(shù)據(jù)存儲(chǔ)到Kafka、HDFS等集中式存儲(chǔ)中。它消費(fèi)來(lái)自通道逡逑的數(shù)據(jù)(事件)并將其傳送到目的地。逡逑2.2.3消息隊(duì)列Kafka逡逑大數(shù)據(jù)時(shí)代的到來(lái)也伴隨著兩個(gè)主要挑戰(zhàn)。第一個(gè)挑戰(zhàn)是如何收集大量數(shù)據(jù),逡逑I逡逑I邐-邋12-
圖2.3邋Kafka
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 莊海東;張鴻恩;;基于規(guī)則的中文地址匹配系統(tǒng)[J];福建電腦;2013年09期
2 黃聰;李格人;羅楚;;大數(shù)據(jù)時(shí)代下爬蟲(chóng)技術(shù)的興起[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2013年17期
3 李文杰;周劍華;;分布式應(yīng)用層中間件的設(shè)計(jì)[J];微型機(jī)與應(yīng)用;2011年05期
4 麥范金;李東普;岳曉光;;基于雙向匹配法和特征選擇算法的中文分詞技術(shù)研究[J];昆明理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期
5 張林曼;吳升;;地理編碼系統(tǒng)中地名地址分詞算法研究[J];測(cè)繪科學(xué);2010年02期
6 郭會(huì);宋關(guān)福;馬柳青;王少華;;地理編碼系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2009年01期
7 胡青;徐建華;王志海;;GIS數(shù)據(jù)庫(kù)中地址自動(dòng)匹配方法研究[J];測(cè)繪與空間地理信息;2008年06期
8 丁振國(guó);張卓;黎靖;;基于Hash結(jié)構(gòu)的逆向最大匹配分詞算法的改進(jìn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年12期
9 張素智;劉放美;;基于矩陣約束法的中文分詞研究[J];計(jì)算機(jī)工程;2007年15期
10 章意鋒;吳健平;程怡;曾春潤(rùn);;ArcGIS中地理編碼方法的改進(jìn)[J];測(cè)繪與空間地理信息;2007年03期
相關(guān)會(huì)議論文 前1條
1 張鐵燕;翁敬農(nóng);黃堅(jiān);;城市地理編碼方法的探索與實(shí)踐[A];中國(guó)地理信息系統(tǒng)協(xié)會(huì)第九屆年會(huì)論文集[C];2005年
相關(guān)碩士學(xué)位論文 前3條
1 盛雅東;基于Google Map的地理位置查詢(xún)系統(tǒng)[D];北京郵電大學(xué);2012年
2 譚侃侃;基于規(guī)則的中文地址分詞與匹配方法[D];山東科技大學(xué);2011年
3 于濱;面向經(jīng)濟(jì)普查項(xiàng)目需求的模糊中文地址匹配方法研究[D];中南大學(xué);2010年
本文編號(hào):2816568
本文鏈接:http://sikaile.net/jingjilunwen/xmjj/2816568.html