大規(guī)模異構數(shù)據(jù)即時整合系統(tǒng)的研究與實現(xiàn)
本文關鍵詞:大規(guī)模異構數(shù)據(jù)即時整合系統(tǒng)的研究與實現(xiàn)
更多相關文章: 大數(shù)據(jù) 數(shù)據(jù)清洗 異構數(shù)據(jù) 模式映射
【摘要】:隨著大數(shù)據(jù)分析技術的日漸成熟,大數(shù)據(jù)所蘊含的巨大價值已經(jīng)引起了很多行業(yè)的重視。例如,企業(yè)可以通過分析某一領域的大量數(shù)據(jù)為其決策提供支持。大部分決策分析系統(tǒng)往往涉及到大量不同來源的數(shù)據(jù),這些不同來源的數(shù)據(jù)集不僅數(shù)據(jù)量大、增長迅速,而且格式多樣。因此,分析者希望能集成所有不同來源的數(shù)據(jù)集,通過統(tǒng)一的數(shù)據(jù)訪問接口獲取數(shù)據(jù)。本文以大數(shù)據(jù)在醫(yī)療行業(yè)的應用為背景,研究并實現(xiàn)了大規(guī)模異構數(shù)據(jù)即時整合系統(tǒng)。該系統(tǒng)主要針對多源異構大數(shù)據(jù),經(jīng)過清洗轉(zhuǎn)換,屏蔽底層各數(shù)據(jù)源之間的差異,為上層應用提供統(tǒng)一標準的數(shù)據(jù)訪問接口。傳統(tǒng)的異構大數(shù)據(jù)整合方法,需要花費幾個月甚至半年來定義標準化數(shù)據(jù)接口,之后再將數(shù)據(jù)批量轉(zhuǎn)換為標準格式,并且一旦標準固定后,無法偵測到新的數(shù)據(jù)類型。本文不同于傳統(tǒng)方法,支持增量式數(shù)據(jù)采集,無需事先定義標準化接口,而是根據(jù)應用需求,通過增量式數(shù)據(jù)映射管理平臺,根據(jù)用戶的需求不斷更新對原始數(shù)據(jù)的整合規(guī)則,從而實現(xiàn)自適應完善數(shù)據(jù)標準。本文給出了大規(guī)模異構數(shù)據(jù)即時整合系統(tǒng)的整體設計以及主要功能模塊。系統(tǒng)由數(shù)據(jù)實時采集子系統(tǒng)和增量式映射管理平臺兩部分組成:數(shù)據(jù)實時采集子系統(tǒng)利用前置機,實時獲取各異構數(shù)據(jù)源中最新的數(shù)據(jù)變更;增量式映射管理平臺是本文研究的核心部分,本文詳細介紹了模式匹配模塊中屬性相似度計算策略,并結(jié)合實例展示了增量式屬性匹配流程。之后,本文給出了增量式異構數(shù)據(jù)整合流程,并提出相應的效率優(yōu)化策略。最后本文給出了大量實驗,驗證了模式匹配模塊的有效性,測試了增量式異構數(shù)據(jù)整合流程的性能,表明本文提出的異構大數(shù)據(jù)即時整合系統(tǒng),具有非常實用的價值。
【關鍵詞】:大數(shù)據(jù) 數(shù)據(jù)清洗 異構數(shù)據(jù) 模式映射
【學位授予單位】:浙江大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要5-6
- Abstract6-12
- 第1章 緒論12-18
- 1.1 課題背景12-15
- 1.2 本文工作與貢獻15-17
- 1.3 本文組織17
- 1.4 本章小結(jié)17-18
- 第2章 相關工作18-26
- 2.1 傳統(tǒng)數(shù)據(jù)整合方法18-22
- 2.1.1 模式對齊(Schema Alignment)18-20
- 2.1.2 記錄鏈接(Record Linkage)20-22
- 2.1.3 數(shù)據(jù)融合(Data fusion)22
- 2.2 語義轉(zhuǎn)換22-23
- 2.3 單詞相似度計算23-25
- 2.3.1 潛在語義分析法(LSA,Latent Semantic Analysis)23-24
- 2.3.2 利用WordNet進行單詞相似度計算24
- 2.3.3 基于分布的單詞相似度計算24-25
- 2.4 本章小結(jié)25-26
- 第3章 數(shù)據(jù)模型和問題定義26-30
- 3.1 數(shù)據(jù)模型定義26-27
- 3.2 問題描述27-29
- 3.3 系統(tǒng)預期目標29
- 3.4 本章小結(jié)29-30
- 第4章 系統(tǒng)結(jié)構與整體設計30-46
- 4.1 社保大數(shù)據(jù)平臺系統(tǒng)結(jié)構30-34
- 4.1.1 整體架構30-32
- 4.1.2 大數(shù)據(jù)混合異構分布式存儲計算云平臺32-34
- 4.2 大規(guī)模異構數(shù)據(jù)即時整合系統(tǒng)整體系統(tǒng)結(jié)構34-44
- 4.2.1 系統(tǒng)網(wǎng)絡結(jié)構35-36
- 4.2.2 系統(tǒng)主要模塊36-37
- 4.2.3 數(shù)據(jù)實時采集子系統(tǒng)37-40
- 4.2.4 增量式映射管理平臺40-44
- 4.3 增量式異構數(shù)據(jù)整合44
- 4.4 本章小結(jié)44-46
- 第5章 模式匹配模塊的研究與實現(xiàn)46-60
- 5.1 模式匹配模塊處理流程46-47
- 5.2 屬性匹配器47-52
- 5.2.1 基于單詞相似度的屬性匹配器47-49
- 5.2.2 基于單詞編輯距離的屬性匹配器49-51
- 5.2.3 基于數(shù)據(jù)類型的屬性匹配器51-52
- 5.2.4 基于數(shù)據(jù)實例的屬性匹配器52
- 5.2.5 自定義屬性匹配器52
- 5.3 屬性相似度計算52-55
- 5.3.1 冪平均(Generalized Mean)53
- 5.3.2 Average Harmony權值計算53-54
- 5.3.3 基于Average Harmony的冪平均聚合策略54-55
- 5.4 增量式屬性匹配流程55-59
- 5.5 本章小結(jié)59-60
- 第6章 增量式異構數(shù)據(jù)整合流程60-66
- 6.1 增量式數(shù)據(jù)采集60
- 6.2 增量式查詢處理流程60-65
- 6.2.1 查詢輸入60
- 6.2.2 模式匹配建立映射60-61
- 6.2.3 SQL轉(zhuǎn)換61-62
- 6.2.4 查詢結(jié)果整合62
- 6.2.5 效率優(yōu)化62-65
- 6.3 本章小結(jié)65-66
- 第7章 實驗結(jié)果及分析66-79
- 7.1 實驗配置66-67
- 7.1.1 運行環(huán)境66
- 7.1.2 數(shù)據(jù)集描述66-67
- 7.1.3 衡量指標67
- 7.2 實驗結(jié)果及結(jié)果分析67-78
- 7.2.1 模式匹配結(jié)果及分析69-73
- 7.2.2 增量式異構數(shù)據(jù)整合性能73-78
- 7.3 本章小結(jié)78-79
- 第8章 總結(jié)和展望79-81
- 8.1 本文主要工作和貢獻79
- 8.2 未來研究工作展望79-81
- 參考文獻81-84
- 致謝84
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張琦,吳敏,黎干;基于XML Web Service的分布式異構數(shù)據(jù)透明轉(zhuǎn)換機制[J];電腦與信息技術;2004年04期
2 劉揚,趙文吉,宮輝力;關于異構數(shù)據(jù)連接的研究[J];首都師范大學學報(自然科學版);2005年01期
3 鄒曉玉;;一種異構數(shù)據(jù)的解決方案[J];臺聲.新視角;2006年01期
4 尹國標;樓勇亮;;異構數(shù)據(jù)如何“手拉手”[J];信息系統(tǒng)工程;2008年01期
5 刁興春;嚴浩;丁鯤;;異構數(shù)據(jù)轉(zhuǎn)換關鍵技術的實現(xiàn)[J];計算機工程;2008年17期
6 梁艷;胡先智;;異構數(shù)據(jù)轉(zhuǎn)換系統(tǒng)設計與實現(xiàn)[J];信息與電腦(理論版);2011年08期
7 詹國華;何炎雯;李志華;;智能健康管理多源異構數(shù)據(jù)融合體系與方法[J];計算機應用與軟件;2012年09期
8 唐鈺;陳浩;葉柏龍;;基于逆向清理的實時異構數(shù)據(jù)整合模型研究[J];計算機工程;2012年23期
9 梁合功;;異構數(shù)據(jù)遷移系統(tǒng)設計與實現(xiàn)[J];科技致富向?qū)?2013年23期
10 盧慶齡,李慶全,黃俊,張威;異構數(shù)據(jù)倉庫中的知識管理體系研究[J];計算機應用;2003年S2期
中國重要會議論文全文數(shù)據(jù)庫 前6條
1 姚燕;李湘;郭萍;鄭波;;基于中間件的異構數(shù)據(jù)檢索服務[A];2011年中國氣象學會氣象通信與信息技術委員會暨國家氣象信息中心科技年會論文摘要[C];2011年
2 伍尚杰;陳立定;曾明;;基于XML異構數(shù)據(jù)的組態(tài)軟件[A];中南六省(區(qū))自動化學會第24屆學術年會會議論文集[C];2006年
3 李剛;高春陽;崔明;;高校異構數(shù)據(jù)整合平臺建設研究[A];第十屆沈陽科學學術年會論文集(信息科學與工程技術分冊)[C];2013年
4 江濤;劉東波;劉巍;;基于XML的異構數(shù)據(jù)集成中間件研究[A];促進企業(yè)信息化進程——第十屆中國Java技術及應用大會文集[C];2007年
5 周翔;翁劍成;榮建;;基于MDA的異構交通數(shù)據(jù)管理平臺的研究與開發(fā)[A];2007第三屆中國智能交通年會論文集[C];2007年
6 陳亞洲;齊從謙;甘屹;;基于Web的CAM異構數(shù)據(jù)轉(zhuǎn)換和傳輸?shù)难芯縖A];制造業(yè)與未來中國——2002年中國機械工程學會年會論文集[C];2002年
中國重要報紙全文數(shù)據(jù)庫 前2條
1 汪蔚;跨平臺異構數(shù)據(jù)對接是選型根本[N];中國計算機報;2004年
2 西岸;Network Appliance發(fā)布新異構數(shù)據(jù)保護方案[N];通信產(chǎn)業(yè)報;2003年
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 于寶琴;成套電器企業(yè)異構數(shù)據(jù)整合及其物流系統(tǒng)的研究[D];天津大學;2006年
2 繆嘉嘉;異構數(shù)據(jù)映射技術研究[D];國防科學技術大學;2008年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 高姣姣;MUSER異構數(shù)據(jù)采集及融合技術研究[D];昆明理工大學;2015年
2 高湛;基于混支持度和粗糙集的異構數(shù)據(jù)融合研究[D];燕山大學;2015年
3 鄭文明;基于XML的異構數(shù)據(jù)交換在汽車零部件產(chǎn)業(yè)價值鏈協(xié)同云服務平臺的研究與應用[D];西南交通大學;2015年
4 陳毅飛;基于多源異構數(shù)據(jù)的楊凌水肥信息管理系統(tǒng)研究[D];西北農(nóng)林科技大學;2015年
5 葉茂偉;大規(guī)模異構數(shù)據(jù)即時整合系統(tǒng)的研究與實現(xiàn)[D];浙江大學;2016年
6 孫靖怡;基于異構數(shù)據(jù)的復雜關聯(lián)比對方法的研究與應用[D];沈陽理工大學;2008年
7 邢雅瓊;多業(yè)務繳費系統(tǒng)異構數(shù)據(jù)的轉(zhuǎn)換及其實現(xiàn)[D];蘭州理工大學;2011年
8 黃豪球;多學科協(xié)同設計過程異構數(shù)據(jù)共享方法研究[D];沈陽理工大學;2012年
9 劉建珍;畜產(chǎn)品溯源系統(tǒng)中異構數(shù)據(jù)整合問題研究[D];哈爾濱工業(yè)大學;2009年
10 王立秋;銀行信貸系統(tǒng)異構數(shù)據(jù)查詢平臺的分析與設計[D];北京郵電大學;2011年
,本文編號:837474
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/837474.html