天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于大規(guī)模數(shù)據(jù)的企業(yè)地址識別系統(tǒng)

發(fā)布時間:2020-09-11 10:38
   改革開放以來,中國大力發(fā)展經(jīng)濟,加上近年的商事制度改革,國內(nèi)中小企業(yè)的創(chuàng)業(yè)成本大大降低。之前企業(yè)注冊、變更需要在國家工商總辦處理,現(xiàn)在簡化為在企業(yè)所在的相關行政單位即可辦理。2017年的一季度全國的企業(yè)登記數(shù)量為125.5萬戶,平均日登記數(shù)為1.4萬戶。在同年3月底,全國各類注冊企業(yè)達到8935.7萬戶。面對增漲如此迅猛的企業(yè)數(shù)量,其合法性和規(guī)范性卻難以得到保障,需要相關部門實時進行監(jiān)管。工商局等相關部門持有大量的企業(yè)注冊信息,其中企業(yè)地址是最關鍵的信息之一。通過對比企業(yè)工商注冊地址是否為日常真實運營地址,是最有效的方案之一。地址是與人們?nèi)粘I钕⑾⑾嚓P的一種地理位置信息描述,但是由于歷史、區(qū)域、風俗等因素,很多地址信息無法進行直接的對比處理。通過地址匹配技術能有效的完成地址信息描述和對比。本文詳細描述分庫分表、大數(shù)據(jù)處理、自然語言處理技術,并對中文地址特征進行歸納分析。根據(jù)已有公司名稱,通過大數(shù)據(jù)爬蟲從網(wǎng)絡上獲取公司可能運營地址,并與原有工商注冊地址通過分庫分表存入數(shù)據(jù)存儲保存。面對千萬級的企業(yè)信息,通過Flume、Kafka、Spark Streaming搭建的大數(shù)據(jù)實時流計算系統(tǒng),對原有地址和爬蟲地址做一個匹配處理。匹配模塊由基于詞典匹配的行政區(qū)劃,和基于NPL詞向量匹配的非行政區(qū)劃兩部分組成。整個系統(tǒng)搭建對各個功能模塊進行解耦,便于系統(tǒng)迭代和管理。并最終通過在企業(yè)黃頁網(wǎng)站爬取的大量企業(yè)信息作為數(shù)據(jù)集,進行系統(tǒng)穩(wěn)定性、高效性、匹配準確性的實驗,并給出結果分析。
【學位單位】:廈門大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:F272;TP311.13
【部分圖文】:

功能圖,下載,架構,流程圖


圖2.1邋Scrapy架構流程圖逡逑7.邋Downloader邋Middlewares:用來擴展下載功能;逡逑整體流程如圖2.1所示,圖片中綠色的箭頭就是數(shù)據(jù)流向。從起始訪問的URL逡逑開始,Scheduler會把URL通過engine傳遞給Downloader,并完成下載,1、載完逡逑之后的結果會返回給Spider進行分析。如果需要進_-步抓取鏈接,比如存在鏈接逡逑信息的“下一頁”等,會將其回傳到Scheduler。否則就將其保存起來,送到Item逡逑Pipeline組件,對數(shù)據(jù)根據(jù)業(yè)務需求進行分析、計算、儲存等處理。逡逑2.2.2邋日志收集系統(tǒng)Flume邋NG逡逑Flume邋NG是Cloudera開發(fā)的lmdoop生態(tài)組件之一,是一個工具/服務/數(shù)據(jù)逡逑采集機制,用于收集匯總并將大W流數(shù)據(jù)從各種來源匯總并傳輸?shù)郊惺綌?shù)據(jù)存儲逡逑區(qū)。從網(wǎng)絡服務器收集日志文件中存在的日志數(shù)據(jù)并將其聚合在Kafka中進行分逡逑析,這是F]ume的一個常見使用案例。逡逑-11邋-逡逑

收集系統(tǒng),日志,可配置,結構圖


Flume作為日志收集系統(tǒng),集高度可靠,分布式、可配置于一身。它主要用于將逡逑來自各種流數(shù)據(jù)(日志數(shù)據(jù))傳輸?shù)剑樱穑幔颍、Kafka等系統(tǒng),并可以將數(shù)據(jù)存儲到多逡逑種集中式存儲中。Flume的基本體系結構如圖2.2所示。Flume內(nèi)部的傳輸數(shù)據(jù)基本逡逑單位是事件Event。它主要數(shù)據(jù)結構為一個字節(jié)數(shù)組。該字節(jié)數(shù)組將從源頭傳輸?shù)侥垮义蠘,并附帶可選標題。一個完整的Event由headers、body、event三部分組成[23]。逡逑Ageirt是Flume中的獨立守護進程。它從客戶端或其他代理接收數(shù)據(jù)(事件)逡逑并將其轉發(fā)到其下一個目標(接收器或代理)。Flume邋Agent包含三個主要組件,即逡逑源、通道和接收器。Source是數(shù)據(jù)來源組件,它負責從數(shù)據(jù)源頭接受信息流,發(fā)送逡逑到數(shù)據(jù)通道進行后續(xù)數(shù)據(jù)傳輸。Apache邋Flume對多種數(shù)據(jù)源都友好支持,不同的逡逑數(shù)據(jù)源有不同的指定數(shù)據(jù)生成器事件。Chanel是一個類似于消息服務器,是一個緩逡逑存組件。它是源和匯之間的傳輸通道,可以是文件系統(tǒng),也可以是內(nèi)存或者.]DBC逡逑等通道。Sink則是將數(shù)據(jù)存儲到Kafka、HDFS等集中式存儲中。它消費來自通道逡逑的數(shù)據(jù)(事件)并將其傳送到目的地。逡逑2.2.3消息隊列Kafka逡逑大數(shù)據(jù)時代的到來也伴隨著兩個主要挑戰(zhàn)。第一個挑戰(zhàn)是如何收集大量數(shù)據(jù),逡逑I逡逑I邐-邋12-

基于大規(guī)模數(shù)據(jù)的企業(yè)地址識別系統(tǒng)


圖2.3邋Kafka

【參考文獻】

相關期刊論文 前10條

1 莊海東;張鴻恩;;基于規(guī)則的中文地址匹配系統(tǒng)[J];福建電腦;2013年09期

2 黃聰;李格人;羅楚;;大數(shù)據(jù)時代下爬蟲技術的興起[J];計算機光盤軟件與應用;2013年17期

3 李文杰;周劍華;;分布式應用層中間件的設計[J];微型機與應用;2011年05期

4 麥范金;李東普;岳曉光;;基于雙向匹配法和特征選擇算法的中文分詞技術研究[J];昆明理工大學學報(自然科學版);2011年01期

5 張林曼;吳升;;地理編碼系統(tǒng)中地名地址分詞算法研究[J];測繪科學;2010年02期

6 郭會;宋關福;馬柳青;王少華;;地理編碼系統(tǒng)設計與實現(xiàn)[J];計算機工程;2009年01期

7 胡青;徐建華;王志海;;GIS數(shù)據(jù)庫中地址自動匹配方法研究[J];測繪與空間地理信息;2008年06期

8 丁振國;張卓;黎靖;;基于Hash結構的逆向最大匹配分詞算法的改進[J];計算機工程與設計;2008年12期

9 張素智;劉放美;;基于矩陣約束法的中文分詞研究[J];計算機工程;2007年15期

10 章意鋒;吳健平;程怡;曾春潤;;ArcGIS中地理編碼方法的改進[J];測繪與空間地理信息;2007年03期

相關會議論文 前1條

1 張鐵燕;翁敬農(nóng);黃堅;;城市地理編碼方法的探索與實踐[A];中國地理信息系統(tǒng)協(xié)會第九屆年會論文集[C];2005年

相關碩士學位論文 前3條

1 盛雅東;基于Google Map的地理位置查詢系統(tǒng)[D];北京郵電大學;2012年

2 譚侃侃;基于規(guī)則的中文地址分詞與匹配方法[D];山東科技大學;2011年

3 于濱;面向經(jīng)濟普查項目需求的模糊中文地址匹配方法研究[D];中南大學;2010年



本文編號:2816568

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/xmjj/2816568.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶d6558***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com