天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于相似連接的大數(shù)據(jù)集成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-02-05 13:32
【摘要】:隨著信息技術(shù)的迅猛發(fā)展,現(xiàn)代的互聯(lián)網(wǎng)每天都產(chǎn)生大量的數(shù)據(jù),引發(fā)了人們對(duì)大數(shù)據(jù)集成的需求。人們提出了新的分布式文件系統(tǒng)來(lái)存儲(chǔ)海量數(shù)據(jù),并在分布式文件系統(tǒng)之上提出了很多并行計(jì)算方法來(lái)解決大數(shù)據(jù)計(jì)算帶來(lái)的挑戰(zhàn)。其中最具有代表的是Google提出的MapReduce計(jì)算框架。相似連接是數(shù)據(jù)集成中的一個(gè)重要操作,是指在組數(shù)據(jù)源中尋找滿(mǎn)足一定相似度閾值的記錄對(duì),常被用于數(shù)據(jù)清洗、去重和實(shí)體識(shí)別等數(shù)據(jù)集成操作中。然而隨著數(shù)據(jù)規(guī)模的增長(zhǎng),檢測(cè)這種相似記錄對(duì)成為了一種挑戰(zhàn),因?yàn)樵絹?lái)越多的應(yīng)用需要處理海量的數(shù)據(jù)通常不能在一臺(tái)機(jī)器上實(shí)現(xiàn)。相似連接計(jì)算本身可以使用并行計(jì)算模型進(jìn)行處理,因此使用MapReduce計(jì)算框架可以很好的解決大規(guī)模數(shù)據(jù)集上相似連接計(jì)算性能問(wèn)題,提高計(jì)算效率。本文以海量論文數(shù)據(jù)為研究對(duì)象,基于相似連接技術(shù)設(shè)計(jì)了大數(shù)據(jù)集成系統(tǒng),用于有效集成海量數(shù)據(jù)。系統(tǒng)基于MapReduce計(jì)算框架實(shí)現(xiàn),用來(lái)解決實(shí)體識(shí)別的問(wèn)題,核心功能包含三個(gè)處理階段:首先從若干數(shù)據(jù)源中發(fā)現(xiàn)所有滿(mǎn)足相似度閾值的記錄對(duì),這些工作是基于相似連接技術(shù)實(shí)現(xiàn)的。然后對(duì)相似記錄對(duì)進(jìn)行劃分,得到相似子圖。最后在子圖上進(jìn)行實(shí)體采樣,完成實(shí)體識(shí)別。本文重點(diǎn)研究了分布式環(huán)境下的集合相似連接和MapReduce任務(wù)優(yōu)化兩個(gè)問(wèn)題。針對(duì)MapReduce下相似連接,本文在前綴過(guò)濾和位置信息過(guò)濾的基礎(chǔ)上,提出了全前綴過(guò)濾及擴(kuò)展后綴過(guò)濾的過(guò)濾算法,設(shè)計(jì)了一種基于管道的混合過(guò)濾框架,通過(guò)降低候選對(duì)數(shù)量提高相似連接效率。對(duì)于MapReduce任務(wù),本文從兩個(gè)方面進(jìn)行了優(yōu)化:通過(guò)數(shù)據(jù)壓縮降低了集群節(jié)點(diǎn)之間的網(wǎng)絡(luò)開(kāi)銷(xiāo);通過(guò)任務(wù)負(fù)載均衡提高了任務(wù)的并行效率。最后本文在大數(shù)據(jù)集成系統(tǒng)的基礎(chǔ)上設(shè)計(jì)并實(shí)現(xiàn)了知識(shí)產(chǎn)權(quán)搜索原型系統(tǒng)。為了測(cè)試本文提出了基于MapReduce計(jì)算框架的相似連接算法和任務(wù)調(diào)度策略的性能,本文使用DBLP和Citeseerx真實(shí)數(shù)據(jù)集進(jìn)行大量對(duì)比實(shí)驗(yàn)。通過(guò)實(shí)驗(yàn),我們比較了不同相似連接算法的時(shí)間開(kāi)銷(xiāo)。實(shí)驗(yàn)結(jié)果表明本文提出的相似過(guò)濾框架和負(fù)載均衡算法隨著數(shù)據(jù)規(guī)模的增加性能會(huì)有顯著提高。本文提出的大數(shù)據(jù)集成系統(tǒng)能夠很好地執(zhí)行MapReduce任務(wù)調(diào)度,為用戶(hù)提供直觀友好的交互界面,可以高效地進(jìn)行大數(shù)據(jù)集下的基于相似連接的數(shù)據(jù)集成。
【學(xué)位授予單位】:東北大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP311.13

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 鐘昕;伏玉琛;;書(shū)籍搜索領(lǐng)域Deep Web數(shù)據(jù)集成系統(tǒng)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2008年09期

2 謝興生;張一鳴;余銀;莊鎮(zhèn)泉;;一種支持智能匹配檢索的數(shù)據(jù)集成系統(tǒng)設(shè)計(jì)[J];模式識(shí)別與人工智能;2009年01期

3 肖瑞;張威;;基于云計(jì)算的數(shù)字化校園數(shù)據(jù)集成系統(tǒng)研究[J];中國(guó)科技信息;2013年22期

4 劉敏超;劉衛(wèi)東;;數(shù)據(jù)集成系統(tǒng)關(guān)鍵問(wèn)題研究[J];計(jì)算機(jī)應(yīng)用;2006年07期

5 時(shí)俊苓;葉丹;;面向業(yè)務(wù)的數(shù)據(jù)集成系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2010年02期

6 王壇;;出版社書(shū)目數(shù)據(jù)集成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];南陽(yáng)師范學(xué)院學(xué)報(bào);2010年12期

7 郭忠文;尚傳進(jìn);管恩花;;面向服務(wù)構(gòu)架的海洋數(shù)據(jù)集成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2006年02期

8 張仕;賴(lài)會(huì)霞;;基于輕映射的數(shù)據(jù)集成系統(tǒng)[J];計(jì)算機(jī)與數(shù)字工程;2009年09期

9 謝委員;葉楓;;醫(yī)院區(qū)域醫(yī)療數(shù)據(jù)集成系統(tǒng)研究[J];現(xiàn)代物業(yè)(中旬刊);2010年06期

10 王碩;靳熙芳;;北海區(qū)海洋環(huán)境監(jiān)測(cè)多源數(shù)據(jù)集成系統(tǒng)研究[J];科技信息;2010年29期

相關(guān)會(huì)議論文 前5條

1 ;生產(chǎn)調(diào)度數(shù)據(jù)集成系統(tǒng)[A];中國(guó)黃金協(xié)會(huì)科學(xué)技術(shù)獎(jiǎng)表彰會(huì)暨新技術(shù)、新設(shè)備推廣會(huì)議材料[C];2004年

2 謝麗聰;白清源;余建家;;數(shù)據(jù)集成系統(tǒng)的三層體系結(jié)構(gòu)及查詢(xún)改寫(xiě)算法的改進(jìn)[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年

3 閆中敏;李慶忠;彭朝暉;董永權(quán);丁艷輝;張永新;徐秀星;;DWDIS:面向分析的Deep Web數(shù)據(jù)集成系統(tǒng)[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年

4 肖冰;廖湖聲;鄭玉明;;數(shù)據(jù)集成系統(tǒng)中的XML延遲處理技術(shù)[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2005年

5 張碩;李建中;熊蜀光;王春宇;;一種基于XML的Web數(shù)據(jù)集成系統(tǒng)查詢(xún)分解和優(yōu)化策略[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年

相關(guān)重要報(bào)紙文章 前3條

1 ;BI困則思變[N];網(wǎng)絡(luò)世界;2007年

2 《網(wǎng)絡(luò)世界》記者 于翔;大數(shù)據(jù)高調(diào)唱響[N];網(wǎng)絡(luò)世界;2012年

3 哈爾濱工業(yè)大學(xué) 王宏志;借XML高效管理數(shù)據(jù)之道[N];中國(guó)計(jì)算機(jī)報(bào);2007年

相關(guān)博士學(xué)位論文 前3條

1 陳彤兵;LAV數(shù)據(jù)集成系統(tǒng)的查詢(xún)處理[D];復(fù)旦大學(xué);2005年

2 梅從立;過(guò)程工業(yè)數(shù)據(jù)顯著誤差檢測(cè)技術(shù)研究[D];浙江大學(xué);2007年

3 張永進(jìn);面向防汛抗旱指揮系統(tǒng)的應(yīng)用集成中間件平臺(tái)研究[D];西北大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 林建昌;電力行業(yè)分布式ETL數(shù)據(jù)集成系統(tǒng)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2015年

2 龐志強(qiáng);基于相似連接的大數(shù)據(jù)集成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];東北大學(xué);2014年

3 姚源;地月日大系統(tǒng)研究中數(shù)據(jù)集成系統(tǒng)的構(gòu)建和應(yīng)用研究[D];中國(guó)航天第二研究院;2008年

4 郭軍;Deep Web數(shù)據(jù)集成系統(tǒng)的設(shè)計(jì)與應(yīng)用研究[D];西安電子科技大學(xué);2011年

5 何嶺嘉;數(shù)據(jù)集成系統(tǒng)中通信平臺(tái)的研究與實(shí)現(xiàn)[D];暨南大學(xué);2008年

6 李晶;基于產(chǎn)品生命周期的中小型企業(yè)數(shù)據(jù)集成系統(tǒng)的研究[D];合肥工業(yè)大學(xué);2006年

7 張雷;社保數(shù)據(jù)集成系統(tǒng)的研究與應(yīng)用[D];湖南大學(xué);2006年

8 劉凱;遠(yuǎn)程教育評(píng)估系統(tǒng)中數(shù)據(jù)集成技術(shù)研究[D];西安電子科技大學(xué);2006年

9 方成;托管銀行數(shù)據(jù)集成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2013年

10 陳躍國(guó);電子政務(wù)數(shù)據(jù)集成系統(tǒng)的建模與實(shí)現(xiàn)[D];清華大學(xué);2004年

,

本文編號(hào):2576651

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/falvlunwen/zhishichanquanfa/2576651.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)ae55c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产户外勾引精品露出一区 | 日本道播放一区二区三区| 日韩欧美三级中文字幕| 午夜国产成人福利视频| 日韩精品中文字幕亚洲| 国产人妻精品区一区二区三区| 老鸭窝老鸭窝一区二区| 九九热九九热九九热九九热 | 大香蕉大香蕉手机在线视频| 人妻久久一区二区三区精品99| 深夜福利亚洲高清性感| 亚洲免费视频中文字幕在线观看| 亚洲精品中文字幕熟女| 久久天堂夜夜一本婷婷| 日韩一区二区三区在线日| 成人亚洲国产精品一区不卡| 不卡中文字幕在线免费看| 日韩精品一级片免费看| 中文字幕五月婷婷免费| 大香蕉伊人精品在线观看| 狠色婷婷久久一区二区三区| 日韩1区二区三区麻豆| 东京热男人的天堂社区| 国产精品免费不卡视频| 大香蕉再在线大香蕉再在线| 五月婷婷综合缴情六月| 欧美日韩国产成人高潮| 九九久久精品久久久精品| 日韩成人h视频在线观看| 成人精品一区二区三区综合 | 尹人大香蕉一级片免费看| 久久精品国产亚洲av麻豆尤物| 五月天六月激情联盟网| 国产精品内射婷婷一级二级| 福利专区 久久精品午夜| 日本 一区二区 在线| 国产成人精品国内自产拍| 激情综合五月开心久久| 美女激情免费在线观看| 亚洲欧美国产网爆精品| 日本在线视频播放91|