高并發(fā)異構(gòu)數(shù)據(jù)預(yù)處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本文選題:大數(shù)據(jù) 切入點(diǎn):異構(gòu)數(shù)據(jù) 出處:《北京交通大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:如今是一個(gè)數(shù)據(jù)的時(shí)代,隨著大數(shù)據(jù)技術(shù)的發(fā)展,越來越多的行業(yè)需要使用這些新技術(shù)重新挖掘曾經(jīng)積累的數(shù)據(jù)的價(jià)值,使其發(fā)揮出更大的作用,更好的為用戶和企業(yè)服務(wù)。而這些數(shù)據(jù)大都是不完整、不一致的臟數(shù)據(jù),無法直接進(jìn)行數(shù)據(jù)挖掘,或者挖掘結(jié)果差強(qiáng)人意,故需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。本人有幸參與了某專利檢索分析平臺(tái)項(xiàng)目的開發(fā),負(fù)責(zé)該平臺(tái)中的底層異構(gòu)數(shù)據(jù)預(yù)處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)工作。本文從系統(tǒng)的項(xiàng)目背景及意義、國(guó)內(nèi)外發(fā)展現(xiàn)狀、系統(tǒng)需求分析、系統(tǒng)技術(shù)架構(gòu)、系統(tǒng)功能結(jié)構(gòu)、數(shù)據(jù)詳細(xì)設(shè)計(jì)、系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)以及測(cè)試等方面對(duì)本系統(tǒng)進(jìn)行了詳細(xì)闡述。本系統(tǒng)為該平臺(tái)提供專利數(shù)據(jù)預(yù)處理與存儲(chǔ)服務(wù)。由于專利數(shù)據(jù)具有文件數(shù)量巨大且散碎、數(shù)據(jù)格式多樣、數(shù)據(jù)語(yǔ)言多樣、數(shù)據(jù)來源不一致等特點(diǎn),而且需要在短時(shí)間內(nèi)將專利數(shù)據(jù)加載入庫(kù),故而本文設(shè)計(jì)了索引數(shù)據(jù)的概念,將專利數(shù)據(jù)進(jìn)行了封裝,并基于Quartz框架設(shè)計(jì)并實(shí)現(xiàn)了多任務(wù)并行方式加載專利數(shù)據(jù)入庫(kù)的功能,同時(shí)采用了五種不同的數(shù)據(jù)庫(kù)滿足數(shù)據(jù)存儲(chǔ)功能。這五種數(shù)據(jù)庫(kù)分別為檢索數(shù)據(jù)庫(kù)Hybase存儲(chǔ)需要檢索的數(shù)據(jù);NoSq1數(shù)據(jù)庫(kù)MongoDB存儲(chǔ)供前臺(tái)展示的半結(jié)構(gòu)化數(shù)據(jù);分布式文件系統(tǒng)存儲(chǔ)海量的非結(jié)構(gòu)化數(shù)據(jù);緩存數(shù)據(jù)庫(kù)Redis存儲(chǔ)需要緩存的業(yè)務(wù)數(shù)據(jù);關(guān)系型數(shù)據(jù)庫(kù)MySQL存儲(chǔ)數(shù)據(jù)流轉(zhuǎn)過程中的控制、運(yùn)維數(shù)據(jù)。并且這五種數(shù)據(jù)庫(kù)均采用分布式方式進(jìn)行部署,同時(shí)采用主從、雙機(jī)熱備、ZooKeeper等方式保證數(shù)據(jù)庫(kù)的高可用性。本系統(tǒng)共有五個(gè)模塊,分別是數(shù)據(jù)加載與更新模塊、數(shù)據(jù)質(zhì)檢模塊、數(shù)據(jù)修復(fù)模塊、數(shù)據(jù)監(jiān)控模塊以及任務(wù)編排工具模塊。其中數(shù)據(jù)加載與更新模塊是重中之重,在加載數(shù)據(jù)入庫(kù)時(shí),將一個(gè)索引數(shù)據(jù)文件作為一個(gè)批次,采用批次的方式對(duì)數(shù)據(jù)進(jìn)行分批加載入庫(kù);同時(shí)利用索引數(shù)據(jù)文件對(duì)專利數(shù)據(jù)文件的封裝,從而可以使用多任務(wù)并行方式處理數(shù)據(jù)入庫(kù);并且將數(shù)據(jù)加載入庫(kù)分為多個(gè)階段進(jìn)行,每個(gè)階段都可以對(duì)數(shù)據(jù)進(jìn)行校驗(yàn)、回滾。數(shù)據(jù)質(zhì)檢模塊和數(shù)據(jù)監(jiān)控模塊協(xié)同工作,可以及時(shí)發(fā)現(xiàn)錯(cuò)誤數(shù)據(jù)。數(shù)據(jù)修復(fù)模塊負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行修復(fù)。任務(wù)編排工具模塊負(fù)責(zé)自動(dòng)拷貝索引數(shù)據(jù)文件。本系統(tǒng)已經(jīng)交付使用并如期上線,而且已將積累的專利數(shù)據(jù)全部加載入庫(kù),提供用戶使用。目前系統(tǒng)運(yùn)行情況良好,同時(shí)為了提高該產(chǎn)品的競(jìng)爭(zhēng)力,公司也在積極推廣,相信會(huì)有更多的用戶使用本產(chǎn)品。
[Abstract]:Today is an era of data. With the development of big data's technology, more and more industries need to use these new technologies to rediscover the value of the accumulated data and make it play a greater role. Better service for users and enterprises. And most of this data is incomplete, inconsistent, dirty data, can not be directly data mining, or the results of mining poor, Therefore, it is necessary to preprocess the data. I am fortunate to participate in the development of a patent retrieval and analysis platform project, responsible for the design and implementation of the underlying heterogeneous data preprocessing system in the platform. Development status at home and abroad, system demand analysis, system technical architecture, system function structure, data design, The detailed design and implementation of the system and the testing of the system are described in detail. The system provides the patent data preprocessing and storage services for the platform. Because of the large number of patent data and scattered files, the data format is diverse. It is necessary to load patent data into database in a short time, so the concept of index data is designed and the patent data is encapsulated. And based on the Quartz framework, the function of loading patent data into database in multi-task parallel mode is designed and implemented. At the same time, five different databases are used to satisfy the function of data storage. The five databases are used to store the data needed to be retrieved by the retrieval database Hybase / NoSq1 database MongoDB to store the semi-structured data displayed by the front desk. Distributed file system stores massive unstructured data; cache database Redis stores business data that needs to be cached; relational database MySQL stores data flow control in the process, Operation and maintenance of data. And these five databases are distributed deployment, while using master and slave, dual-computer hot standby ZooKeeper and other ways to ensure the high availability of the database. This system has five modules, data loading and updating module, Data quality check module, data repair module, data monitoring module and task orchestration tool module. The data loading and updating module is the most important. When loading data into the database, an index data file is regarded as a batch. The batch data is loaded into the database in batches, and the patent data file is encapsulated by the index data file, so that the multi-task parallel processing can be used to process the data into the database. And the data loading into the database is divided into several stages, each stage can check the data, roll back, data quality check module and data monitoring module work together, The data repair module is responsible for repairing the data. The task arrangement tool module is responsible for automatically copying the index data file. The system has been put into use and started on schedule. At present, the system is running well, and in order to improve the competitiveness of the product, the company is also actively promoting, I believe more users will use this product.
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 趙琳;黃玉文;;異構(gòu)數(shù)據(jù)交換的理論研究[J];科技信息;2010年21期
2 張琦,吳敏,黎干;基于XML Web Service的分布式異構(gòu)數(shù)據(jù)透明轉(zhuǎn)換機(jī)制[J];電腦與信息技術(shù);2004年04期
3 劉揚(yáng),趙文吉,宮輝力;關(guān)于異構(gòu)數(shù)據(jù)連接的研究[J];首都師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年01期
4 鄒曉玉;;一種異構(gòu)數(shù)據(jù)的解決方案[J];臺(tái)聲.新視角;2006年01期
5 尹國(guó)標(biāo);樓勇亮;;異構(gòu)數(shù)據(jù)如何“手拉手”[J];信息系統(tǒng)工程;2008年01期
6 刁興春;嚴(yán)浩;丁鯤;;異構(gòu)數(shù)據(jù)轉(zhuǎn)換關(guān)鍵技術(shù)的實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2008年17期
7 梁艷;胡先智;;異構(gòu)數(shù)據(jù)轉(zhuǎn)換系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];信息與電腦(理論版);2011年08期
8 詹國(guó)華;何炎雯;李志華;;智能健康管理多源異構(gòu)數(shù)據(jù)融合體系與方法[J];計(jì)算機(jī)應(yīng)用與軟件;2012年09期
9 唐鈺;陳浩;葉柏龍;;基于逆向清理的實(shí)時(shí)異構(gòu)數(shù)據(jù)整合模型研究[J];計(jì)算機(jī)工程;2012年23期
10 梁合功;;異構(gòu)數(shù)據(jù)遷移系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];科技致富向?qū)?2013年23期
相關(guān)會(huì)議論文 前6條
1 姚燕;李湘;郭萍;鄭波;;基于中間件的異構(gòu)數(shù)據(jù)檢索服務(wù)[A];2011年中國(guó)氣象學(xué)會(huì)氣象通信與信息技術(shù)委員會(huì)暨國(guó)家氣象信息中心科技年會(huì)論文摘要[C];2011年
2 伍尚杰;陳立定;曾明;;基于XML異構(gòu)數(shù)據(jù)的組態(tài)軟件[A];中南六省(區(qū))自動(dòng)化學(xué)會(huì)第24屆學(xué)術(shù)年會(huì)會(huì)議論文集[C];2006年
3 李剛;高春陽(yáng);崔明;;高校異構(gòu)數(shù)據(jù)整合平臺(tái)建設(shè)研究[A];第十屆沈陽(yáng)科學(xué)學(xué)術(shù)年會(huì)論文集(信息科學(xué)與工程技術(shù)分冊(cè))[C];2013年
4 江濤;劉東波;劉巍;;基于XML的異構(gòu)數(shù)據(jù)集成中間件研究[A];促進(jìn)企業(yè)信息化進(jìn)程——第十屆中國(guó)Java技術(shù)及應(yīng)用大會(huì)文集[C];2007年
5 周翔;翁劍成;榮建;;基于MDA的異構(gòu)交通數(shù)據(jù)管理平臺(tái)的研究與開發(fā)[A];2007第三屆中國(guó)智能交通年會(huì)論文集[C];2007年
6 陳亞洲;齊從謙;甘屹;;基于Web的CAM異構(gòu)數(shù)據(jù)轉(zhuǎn)換和傳輸?shù)难芯縖A];制造業(yè)與未來中國(guó)——2002年中國(guó)機(jī)械工程學(xué)會(huì)年會(huì)論文集[C];2002年
相關(guān)重要報(bào)紙文章 前2條
1 汪蔚;跨平臺(tái)異構(gòu)數(shù)據(jù)對(duì)接是選型根本[N];中國(guó)計(jì)算機(jī)報(bào);2004年
2 西岸;Network Appliance發(fā)布新異構(gòu)數(shù)據(jù)保護(hù)方案[N];通信產(chǎn)業(yè)報(bào);2003年
相關(guān)博士學(xué)位論文 前4條
1 吳紅星;面向多業(yè)態(tài)集團(tuán)企業(yè)多源異構(gòu)數(shù)據(jù)的協(xié)同系統(tǒng)集成方法研究[D];合肥工業(yè)大學(xué);2015年
2 歐明棟;面向大規(guī)模異構(gòu)數(shù)據(jù)的哈希表征學(xué)習(xí)研究[D];清華大學(xué);2016年
3 于寶琴;成套電器企業(yè)異構(gòu)數(shù)據(jù)整合及其物流系統(tǒng)的研究[D];天津大學(xué);2006年
4 繆嘉嘉;異構(gòu)數(shù)據(jù)映射技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 高姣姣;MUSER異構(gòu)數(shù)據(jù)采集及融合技術(shù)研究[D];昆明理工大學(xué);2015年
2 高湛;基于混支持度和粗糙集的異構(gòu)數(shù)據(jù)融合研究[D];燕山大學(xué);2015年
3 鄭文明;基于XML的異構(gòu)數(shù)據(jù)交換在汽車零部件產(chǎn)業(yè)價(jià)值鏈協(xié)同云服務(wù)平臺(tái)的研究與應(yīng)用[D];西南交通大學(xué);2015年
4 陳毅飛;基于多源異構(gòu)數(shù)據(jù)的楊凌水肥信息管理系統(tǒng)研究[D];西北農(nóng)林科技大學(xué);2015年
5 荊志;海量異構(gòu)數(shù)據(jù)定制平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];河北師范大學(xué);2013年
6 朱峰;基于JSON的互聯(lián)網(wǎng)異構(gòu)數(shù)據(jù)整合的應(yīng)用研究[D];南京郵電大學(xué);2016年
7 李瀚晨;基于“用戶—景點(diǎn)”關(guān)系建模的景點(diǎn)推薦技術(shù)的研究[D];北京工業(yè)大學(xué);2016年
8 徐凱;智慧高速海量異構(gòu)數(shù)據(jù)處理關(guān)鍵技術(shù)研究[D];重慶交通大學(xué);2016年
9 徐若濤;艦船維護(hù)中異構(gòu)數(shù)據(jù)融合系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2016年
10 孫靖怡;基于異構(gòu)數(shù)據(jù)的復(fù)雜關(guān)聯(lián)比對(duì)方法的研究與應(yīng)用[D];沈陽(yáng)理工大學(xué);2008年
,本文編號(hào):1637466
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1637466.html