天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于大規(guī)模數(shù)據(jù)的企業(yè)地址識(shí)別系統(tǒng)

發(fā)布時(shí)間:2020-09-11 10:38
   改革開(kāi)放以來(lái),中國(guó)大力發(fā)展經(jīng)濟(jì),加上近年的商事制度改革,國(guó)內(nèi)中小企業(yè)的創(chuàng)業(yè)成本大大降低。之前企業(yè)注冊(cè)、變更需要在國(guó)家工商總辦處理,現(xiàn)在簡(jiǎn)化為在企業(yè)所在的相關(guān)行政單位即可辦理。2017年的一季度全國(guó)的企業(yè)登記數(shù)量為125.5萬(wàn)戶(hù),平均日登記數(shù)為1.4萬(wàn)戶(hù)。在同年3月底,全國(guó)各類(lèi)注冊(cè)企業(yè)達(dá)到8935.7萬(wàn)戶(hù)。面對(duì)增漲如此迅猛的企業(yè)數(shù)量,其合法性和規(guī)范性卻難以得到保障,需要相關(guān)部門(mén)實(shí)時(shí)進(jìn)行監(jiān)管。工商局等相關(guān)部門(mén)持有大量的企業(yè)注冊(cè)信息,其中企業(yè)地址是最關(guān)鍵的信息之一。通過(guò)對(duì)比企業(yè)工商注冊(cè)地址是否為日常真實(shí)運(yùn)營(yíng)地址,是最有效的方案之一。地址是與人們?nèi)粘I钕⑾⑾嚓P(guān)的一種地理位置信息描述,但是由于歷史、區(qū)域、風(fēng)俗等因素,很多地址信息無(wú)法進(jìn)行直接的對(duì)比處理。通過(guò)地址匹配技術(shù)能有效的完成地址信息描述和對(duì)比。本文詳細(xì)描述分庫(kù)分表、大數(shù)據(jù)處理、自然語(yǔ)言處理技術(shù),并對(duì)中文地址特征進(jìn)行歸納分析。根據(jù)已有公司名稱(chēng),通過(guò)大數(shù)據(jù)爬蟲(chóng)從網(wǎng)絡(luò)上獲取公司可能運(yùn)營(yíng)地址,并與原有工商注冊(cè)地址通過(guò)分庫(kù)分表存入數(shù)據(jù)存儲(chǔ)保存。面對(duì)千萬(wàn)級(jí)的企業(yè)信息,通過(guò)Flume、Kafka、Spark Streaming搭建的大數(shù)據(jù)實(shí)時(shí)流計(jì)算系統(tǒng),對(duì)原有地址和爬蟲(chóng)地址做一個(gè)匹配處理。匹配模塊由基于詞典匹配的行政區(qū)劃,和基于NPL詞向量匹配的非行政區(qū)劃兩部分組成。整個(gè)系統(tǒng)搭建對(duì)各個(gè)功能模塊進(jìn)行解耦,便于系統(tǒng)迭代和管理。并最終通過(guò)在企業(yè)黃頁(yè)網(wǎng)站爬取的大量企業(yè)信息作為數(shù)據(jù)集,進(jìn)行系統(tǒng)穩(wěn)定性、高效性、匹配準(zhǔn)確性的實(shí)驗(yàn),并給出結(jié)果分析。
【學(xué)位單位】:廈門(mén)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類(lèi)】:F272;TP311.13
【部分圖文】:

功能圖,下載,架構(gòu),流程圖


圖2.1邋Scrapy架構(gòu)流程圖逡逑7.邋Downloader邋Middlewares:用來(lái)擴(kuò)展下載功能;逡逑整體流程如圖2.1所示,圖片中綠色的箭頭就是數(shù)據(jù)流向。從起始訪(fǎng)問(wèn)的URL逡逑開(kāi)始,Scheduler會(huì)把URL通過(guò)engine傳遞給Downloader,并完成下載,1、載完逡逑之后的結(jié)果會(huì)返回給Spider進(jìn)行分析。如果需要進(jìn)_-步抓取鏈接,比如存在鏈接逡逑信息的“下一頁(yè)”等,會(huì)將其回傳到Scheduler。否則就將其保存起來(lái),送到Item逡逑Pipeline組件,對(duì)數(shù)據(jù)根據(jù)業(yè)務(wù)需求進(jìn)行分析、計(jì)算、儲(chǔ)存等處理。逡逑2.2.2邋日志收集系統(tǒng)Flume邋NG逡逑Flume邋NG是Cloudera開(kāi)發(fā)的lmdoop生態(tài)組件之一,是一個(gè)工具/服務(wù)/數(shù)據(jù)逡逑采集機(jī)制,用于收集匯總并將大W流數(shù)據(jù)從各種來(lái)源匯總并傳輸?shù)郊惺綌?shù)據(jù)存儲(chǔ)逡逑區(qū)。從網(wǎng)絡(luò)服務(wù)器收集日志文件中存在的日志數(shù)據(jù)并將其聚合在Kafka中進(jìn)行分逡逑析,這是F]ume的一個(gè)常見(jiàn)使用案例。逡逑-11邋-逡逑

收集系統(tǒng),日志,可配置,結(jié)構(gòu)圖


Flume作為日志收集系統(tǒng),集高度可靠,分布式、可配置于一身。它主要用于將逡逑來(lái)自各種流數(shù)據(jù)(日志數(shù)據(jù))傳輸?shù)剑樱穑幔颍、Kafka等系統(tǒng),并可以將數(shù)據(jù)存儲(chǔ)到多逡逑種集中式存儲(chǔ)中。Flume的基本體系結(jié)構(gòu)如圖2.2所示。Flume內(nèi)部的傳輸數(shù)據(jù)基本逡逑單位是事件Event。它主要數(shù)據(jù)結(jié)構(gòu)為一個(gè)字節(jié)數(shù)組。該字節(jié)數(shù)組將從源頭傳輸?shù)侥垮义蠘?biāo),并附帶可選標(biāo)題。一個(gè)完整的Event由headers、body、event三部分組成[23]。逡逑Ageirt是Flume中的獨(dú)立守護(hù)進(jìn)程。它從客戶(hù)端或其他代理接收數(shù)據(jù)(事件)逡逑并將其轉(zhuǎn)發(fā)到其下一個(gè)目標(biāo)(接收器或代理)。Flume邋Agent包含三個(gè)主要組件,即逡逑源、通道和接收器。Source是數(shù)據(jù)來(lái)源組件,它負(fù)責(zé)從數(shù)據(jù)源頭接受信息流,發(fā)送逡逑到數(shù)據(jù)通道進(jìn)行后續(xù)數(shù)據(jù)傳輸。Apache邋Flume對(duì)多種數(shù)據(jù)源都友好支持,不同的逡逑數(shù)據(jù)源有不同的指定數(shù)據(jù)生成器事件。Chanel是一個(gè)類(lèi)似于消息服務(wù)器,是一個(gè)緩逡逑存組件。它是源和匯之間的傳輸通道,可以是文件系統(tǒng),也可以是內(nèi)存或者.]DBC逡逑等通道。Sink則是將數(shù)據(jù)存儲(chǔ)到Kafka、HDFS等集中式存儲(chǔ)中。它消費(fèi)來(lái)自通道逡逑的數(shù)據(jù)(事件)并將其傳送到目的地。逡逑2.2.3消息隊(duì)列Kafka逡逑大數(shù)據(jù)時(shí)代的到來(lái)也伴隨著兩個(gè)主要挑戰(zhàn)。第一個(gè)挑戰(zhàn)是如何收集大量數(shù)據(jù),逡逑I逡逑I邐-邋12-

基于大規(guī)模數(shù)據(jù)的企業(yè)地址識(shí)別系統(tǒng)


圖2.3邋Kafka

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 莊海東;張鴻恩;;基于規(guī)則的中文地址匹配系統(tǒng)[J];福建電腦;2013年09期

2 黃聰;李格人;羅楚;;大數(shù)據(jù)時(shí)代下爬蟲(chóng)技術(shù)的興起[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2013年17期

3 李文杰;周劍華;;分布式應(yīng)用層中間件的設(shè)計(jì)[J];微型機(jī)與應(yīng)用;2011年05期

4 麥范金;李東普;岳曉光;;基于雙向匹配法和特征選擇算法的中文分詞技術(shù)研究[J];昆明理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期

5 張林曼;吳升;;地理編碼系統(tǒng)中地名地址分詞算法研究[J];測(cè)繪科學(xué);2010年02期

6 郭會(huì);宋關(guān)福;馬柳青;王少華;;地理編碼系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2009年01期

7 胡青;徐建華;王志海;;GIS數(shù)據(jù)庫(kù)中地址自動(dòng)匹配方法研究[J];測(cè)繪與空間地理信息;2008年06期

8 丁振國(guó);張卓;黎靖;;基于Hash結(jié)構(gòu)的逆向最大匹配分詞算法的改進(jìn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年12期

9 張素智;劉放美;;基于矩陣約束法的中文分詞研究[J];計(jì)算機(jī)工程;2007年15期

10 章意鋒;吳健平;程怡;曾春潤(rùn);;ArcGIS中地理編碼方法的改進(jìn)[J];測(cè)繪與空間地理信息;2007年03期

相關(guān)會(huì)議論文 前1條

1 張鐵燕;翁敬農(nóng);黃堅(jiān);;城市地理編碼方法的探索與實(shí)踐[A];中國(guó)地理信息系統(tǒng)協(xié)會(huì)第九屆年會(huì)論文集[C];2005年

相關(guān)碩士學(xué)位論文 前3條

1 盛雅東;基于Google Map的地理位置查詢(xún)系統(tǒng)[D];北京郵電大學(xué);2012年

2 譚侃侃;基于規(guī)則的中文地址分詞與匹配方法[D];山東科技大學(xué);2011年

3 于濱;面向經(jīng)濟(jì)普查項(xiàng)目需求的模糊中文地址匹配方法研究[D];中南大學(xué);2010年



本文編號(hào):2816568

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/xmjj/2816568.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)d6558***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com