基于大規(guī)模數(shù)據(jù)的企業(yè)地址識別系統(tǒng)
【學位單位】:廈門大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:F272;TP311.13
【部分圖文】:
圖2.1邋Scrapy架構流程圖逡逑7.邋Downloader邋Middlewares:用來擴展下載功能;逡逑整體流程如圖2.1所示,圖片中綠色的箭頭就是數(shù)據(jù)流向。從起始訪問的URL逡逑開始,Scheduler會把URL通過engine傳遞給Downloader,并完成下載,1、載完逡逑之后的結果會返回給Spider進行分析。如果需要進_-步抓取鏈接,比如存在鏈接逡逑信息的“下一頁”等,會將其回傳到Scheduler。否則就將其保存起來,送到Item逡逑Pipeline組件,對數(shù)據(jù)根據(jù)業(yè)務需求進行分析、計算、儲存等處理。逡逑2.2.2邋日志收集系統(tǒng)Flume邋NG逡逑Flume邋NG是Cloudera開發(fā)的lmdoop生態(tài)組件之一,是一個工具/服務/數(shù)據(jù)逡逑采集機制,用于收集匯總并將大W流數(shù)據(jù)從各種來源匯總并傳輸?shù)郊惺綌?shù)據(jù)存儲逡逑區(qū)。從網(wǎng)絡服務器收集日志文件中存在的日志數(shù)據(jù)并將其聚合在Kafka中進行分逡逑析,這是F]ume的一個常見使用案例。逡逑-11邋-逡逑
Flume作為日志收集系統(tǒng),集高度可靠,分布式、可配置于一身。它主要用于將逡逑來自各種流數(shù)據(jù)(日志數(shù)據(jù))傳輸?shù)剑樱穑幔颍、Kafka等系統(tǒng),并可以將數(shù)據(jù)存儲到多逡逑種集中式存儲中。Flume的基本體系結構如圖2.2所示。Flume內(nèi)部的傳輸數(shù)據(jù)基本逡逑單位是事件Event。它主要數(shù)據(jù)結構為一個字節(jié)數(shù)組。該字節(jié)數(shù)組將從源頭傳輸?shù)侥垮义蠘,并附帶可選標題。一個完整的Event由headers、body、event三部分組成[23]。逡逑Ageirt是Flume中的獨立守護進程。它從客戶端或其他代理接收數(shù)據(jù)(事件)逡逑并將其轉發(fā)到其下一個目標(接收器或代理)。Flume邋Agent包含三個主要組件,即逡逑源、通道和接收器。Source是數(shù)據(jù)來源組件,它負責從數(shù)據(jù)源頭接受信息流,發(fā)送逡逑到數(shù)據(jù)通道進行后續(xù)數(shù)據(jù)傳輸。Apache邋Flume對多種數(shù)據(jù)源都友好支持,不同的逡逑數(shù)據(jù)源有不同的指定數(shù)據(jù)生成器事件。Chanel是一個類似于消息服務器,是一個緩逡逑存組件。它是源和匯之間的傳輸通道,可以是文件系統(tǒng),也可以是內(nèi)存或者.]DBC逡逑等通道。Sink則是將數(shù)據(jù)存儲到Kafka、HDFS等集中式存儲中。它消費來自通道逡逑的數(shù)據(jù)(事件)并將其傳送到目的地。逡逑2.2.3消息隊列Kafka逡逑大數(shù)據(jù)時代的到來也伴隨著兩個主要挑戰(zhàn)。第一個挑戰(zhàn)是如何收集大量數(shù)據(jù),逡逑I逡逑I邐-邋12-
圖2.3邋Kafka
【參考文獻】
相關期刊論文 前10條
1 莊海東;張鴻恩;;基于規(guī)則的中文地址匹配系統(tǒng)[J];福建電腦;2013年09期
2 黃聰;李格人;羅楚;;大數(shù)據(jù)時代下爬蟲技術的興起[J];計算機光盤軟件與應用;2013年17期
3 李文杰;周劍華;;分布式應用層中間件的設計[J];微型機與應用;2011年05期
4 麥范金;李東普;岳曉光;;基于雙向匹配法和特征選擇算法的中文分詞技術研究[J];昆明理工大學學報(自然科學版);2011年01期
5 張林曼;吳升;;地理編碼系統(tǒng)中地名地址分詞算法研究[J];測繪科學;2010年02期
6 郭會;宋關福;馬柳青;王少華;;地理編碼系統(tǒng)設計與實現(xiàn)[J];計算機工程;2009年01期
7 胡青;徐建華;王志海;;GIS數(shù)據(jù)庫中地址自動匹配方法研究[J];測繪與空間地理信息;2008年06期
8 丁振國;張卓;黎靖;;基于Hash結構的逆向最大匹配分詞算法的改進[J];計算機工程與設計;2008年12期
9 張素智;劉放美;;基于矩陣約束法的中文分詞研究[J];計算機工程;2007年15期
10 章意鋒;吳健平;程怡;曾春潤;;ArcGIS中地理編碼方法的改進[J];測繪與空間地理信息;2007年03期
相關會議論文 前1條
1 張鐵燕;翁敬農(nóng);黃堅;;城市地理編碼方法的探索與實踐[A];中國地理信息系統(tǒng)協(xié)會第九屆年會論文集[C];2005年
相關碩士學位論文 前3條
1 盛雅東;基于Google Map的地理位置查詢系統(tǒng)[D];北京郵電大學;2012年
2 譚侃侃;基于規(guī)則的中文地址分詞與匹配方法[D];山東科技大學;2011年
3 于濱;面向經(jīng)濟普查項目需求的模糊中文地址匹配方法研究[D];中南大學;2010年
本文編號:2816568
本文鏈接:http://sikaile.net/jingjilunwen/xmjj/2816568.html