天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 論文百科 > 農(nóng)業(yè)期刊 >

大數(shù)據(jù)綜述型論文_大數(shù)據(jù)系統(tǒng)綜述

發(fā)布時(shí)間:2016-12-27 15:55

  本文關(guān)鍵詞:大數(shù)據(jù)系統(tǒng)綜述,由筆耕文化傳播整理發(fā)布。


中國科學(xué):信息科學(xué)2015年第45卷第1期:1–44

info.scichina.com

大數(shù)據(jù)系統(tǒng)綜述

李學(xué)龍x*,龔海剛y

x中國科學(xué)院西安光學(xué)精密機(jī)械研究所光學(xué)影像分析與學(xué)習(xí)中心(OPTIMAL),西安710119

y電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,成都611731

*通信作者.E-mail:xuelongli@opt.ac.cn

收稿日期:2014–09–30;接受日期:2014–11–21

國家自然科學(xué)基金(批準(zhǔn)號(hào):61125106)資助項(xiàng)目

摘要隨著科學(xué)、技術(shù)和工程的迅猛發(fā)展,近20年來,許多領(lǐng)域(如光學(xué)觀測(cè)、光學(xué)監(jiān)控、健康醫(yī)護(hù)、傳感器、用戶數(shù)據(jù)、互聯(lián)網(wǎng)和金融公司以及供應(yīng)鏈系統(tǒng))都產(chǎn)生了海量的數(shù)據(jù)(更恰當(dāng)?shù)拿枋龌蛟S是“無限”的數(shù)據(jù),例如,在光學(xué)觀測(cè)和監(jiān)控等應(yīng)用中,數(shù)據(jù)都是源源不斷而來的,形成了“數(shù)據(jù)災(zāi)難”),大數(shù)據(jù)的概念也隨之再次引起重視.與傳統(tǒng)的數(shù)據(jù)相比,除了大容量等表象特點(diǎn),大數(shù)據(jù)還具有其他獨(dú)特的特點(diǎn),例如大數(shù)據(jù)通常是無結(jié)構(gòu)的,并且需要得到實(shí)時(shí)分析,因此大數(shù)據(jù)的發(fā)展需要全新的體系架構(gòu),用于處理大規(guī)模數(shù)據(jù)的獲取、傳輸、存儲(chǔ)和分析.本文對(duì)大數(shù)據(jù)分析平臺(tái)進(jìn)行了盡可能詳盡的文獻(xiàn)調(diào)研,首先介紹了大數(shù)據(jù)的基本定義和大數(shù)據(jù)面臨的一些挑戰(zhàn);然后提出了大數(shù)據(jù)系統(tǒng)框架,將大數(shù)據(jù)系統(tǒng)分解為數(shù)據(jù)生成、數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析等4個(gè)模塊,這4個(gè)模塊也構(gòu)成了大數(shù)據(jù)價(jià)值鏈;隨后討論了學(xué)術(shù)界和工業(yè)界中和大數(shù)據(jù)相關(guān)的方法和機(jī)制;最后介紹了典型的大數(shù)據(jù)系統(tǒng)基準(zhǔn)和大數(shù)據(jù)的一些科學(xué)問題.本文意圖為非專業(yè)讀者提供大數(shù)據(jù)的全景知識(shí),也為高級(jí)讀者定制自己的大數(shù)據(jù)解決方案提供輔助思想,希望能夠?qū)Υ髷?shù)據(jù)相關(guān)的科技和工程人員起到一些參考作用.

關(guān)鍵詞大數(shù)據(jù)數(shù)據(jù)獲取數(shù)據(jù)存儲(chǔ)數(shù)據(jù)處理數(shù)據(jù)分析

1引言

近年來,“大數(shù)據(jù)”已廣為人知,并被認(rèn)為是信息時(shí)代的新“石油”,這主要基于兩點(diǎn)共識(shí).首先,在過去20年間,數(shù)據(jù)產(chǎn)生速度越來越快.據(jù)國際數(shù)據(jù)公司IDC報(bào)道[1],2011年產(chǎn)生和復(fù)制的數(shù)據(jù)量超過1.8Z字節(jié),是過去5年數(shù)據(jù)增長的9倍,并將以每?jī)赡攴兜乃俣仍鲩L.其次,大數(shù)據(jù)中隱藏著巨大的機(jī)會(huì)和價(jià)值,將給許多領(lǐng)域帶來變革性的發(fā)展.因此,大數(shù)據(jù)研究領(lǐng)域吸引了產(chǎn)業(yè)界、政府和學(xué)術(shù)界的廣泛關(guān)注.例如,產(chǎn)業(yè)界報(bào)告[2]和公共媒體(Economists[3]1),NewYorkTimes[4],美國國家公共廣播電臺(tái)[5,6])中充斥了大數(shù)據(jù)的相關(guān)信息;政府部門設(shè)立重大項(xiàng)目加速大數(shù)據(jù)的發(fā)展[7];Nature2)和Science3)等期刊也發(fā)表了大數(shù)據(jù)挑戰(zhàn)相關(guān)的論點(diǎn).毫無疑問,大數(shù)據(jù)時(shí)代已經(jīng)到來.

1)EconomistT.Drowninginnumbers–digitaldatawill?oodtheplanetandhelpusunderstanditbetter.

2)BigData.2008.

3)SpecialOnlineCollection:DealingwithBigData.2011.

李學(xué)龍等:大數(shù)據(jù)系統(tǒng)綜述

大數(shù)據(jù)的數(shù)據(jù)集大小以難以想象的速度增長,給數(shù)據(jù)處理帶來了極大的挑戰(zhàn).首先,信息技術(shù)的發(fā)展使得數(shù)據(jù)的生成和消費(fèi)變得更容易.例如,每分鐘有72小時(shí)長度的視頻被上傳到Y(jié)outube服務(wù)器4).大數(shù)據(jù)的這種大容量特性使得數(shù)據(jù)難以可伸縮地從分布式的地點(diǎn)收集并集成.第二,數(shù)據(jù)采集后,如何以最小的硬件和軟件代價(jià)存儲(chǔ)和管理這些海量異構(gòu)數(shù)據(jù)是非常具有挑戰(zhàn)性的問題.第三,由于大數(shù)據(jù)的異構(gòu)性、規(guī)模性、實(shí)時(shí)性、復(fù)雜性和隱私性等特點(diǎn),大數(shù)據(jù)分析必須在不同層次(建模、可視化、預(yù)測(cè)和優(yōu)化)高效地挖掘數(shù)據(jù)以提高決策效率.這些挑戰(zhàn)迫切地需要對(duì)整個(gè)數(shù)據(jù)管理系統(tǒng)的各個(gè)層次(從體系架構(gòu)到具體機(jī)制)進(jìn)行變革.但是如果能有效地管理大數(shù)據(jù),就能夠給許多領(lǐng)域,如科學(xué)和環(huán)境建模、健康醫(yī)護(hù)和能源保護(hù)帶來巨大的變革.國際策略咨詢公司McKinsey的研究報(bào)告[2]表明,全球個(gè)人位置信息的潛在價(jià)值達(dá)到7000億,并且能降低產(chǎn)品開發(fā)和集成成本的一半以上.

然而,傳統(tǒng)的數(shù)據(jù)管理和分析系統(tǒng)是基于關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS)的.這些系統(tǒng)在處理結(jié)構(gòu)化數(shù)據(jù)時(shí)性能突出,但是對(duì)半結(jié)構(gòu)化或無結(jié)構(gòu)化數(shù)據(jù)的處理卻無法提供有力的支持.此外,RDBMS可以通過增加昂貴的硬件向上擴(kuò)展(scaleup),但是無法通過并行增加硬件實(shí)現(xiàn)向外擴(kuò)展(scaleout).顯然,傳統(tǒng)的RDBMS無法處理如今大數(shù)據(jù)的規(guī)模和異構(gòu)性.為了解決這些挑戰(zhàn),學(xué)術(shù)界和產(chǎn)業(yè)界從不同角度提出了大數(shù)據(jù)系統(tǒng)的解決方案.而云計(jì)算平臺(tái)可以作為大數(shù)據(jù)系統(tǒng)的基礎(chǔ)設(shè)施層以滿足特定的基礎(chǔ)設(shè)施需求,例如成本效率、靈活性以及向上或向下擴(kuò)展的能力.

分布式文件系統(tǒng)[8]和NoSQL數(shù)據(jù)庫[9]適用于數(shù)據(jù)持久存儲(chǔ)和模式自由(schemefree)的海量數(shù)據(jù)管理.MapReduce[10]編程框架在處理組聚合(group-aggregation)任務(wù),如網(wǎng)站排名方面,獲得了極大的成功.Hadoop[11]則集成了數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、系統(tǒng)管理和其他模塊,提供了強(qiáng)大的系統(tǒng)級(jí)解決方案,成為大數(shù)據(jù)處理的主流.基于這些革新性的技術(shù)和平臺(tái),可以構(gòu)建多樣的大數(shù)據(jù)應(yīng)用.

本文對(duì)大數(shù)據(jù)領(lǐng)域進(jìn)行系統(tǒng)性的介紹,為理解大數(shù)據(jù)平臺(tái)、開發(fā)大數(shù)據(jù)應(yīng)用以及從事大數(shù)據(jù)的研究提供指導(dǎo).本文引入了大數(shù)據(jù)系統(tǒng)的通用框架,該框架將大數(shù)據(jù)平臺(tái)分為數(shù)據(jù)生成、數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析4個(gè)處理階段,并對(duì)每一個(gè)階段的當(dāng)前研究進(jìn)展進(jìn)行了調(diào)研,提出了架構(gòu)設(shè)計(jì)的工程級(jí)觀點(diǎn),對(duì)大數(shù)據(jù)的不同分析實(shí)例進(jìn)行了探討.此外,本文還比較了大數(shù)據(jù)系統(tǒng)的評(píng)價(jià)基準(zhǔn),并歸納了大數(shù)據(jù)存在的科學(xué)問題和研究方向.

2大數(shù)據(jù)國內(nèi)外現(xiàn)狀

大數(shù)據(jù)的快速發(fā)展,使之成為信息時(shí)代的一大新興產(chǎn)業(yè),并引起了國內(nèi)外政府、學(xué)術(shù)界和產(chǎn)業(yè)界的高度關(guān)注.

2.1國外研究現(xiàn)狀

早在2009年,聯(lián)合國就啟動(dòng)了“全球脈動(dòng)計(jì)劃”,擬通過大數(shù)據(jù)推動(dòng)落后地區(qū)的發(fā)展,而2012年1月的世界經(jīng)濟(jì)論壇年會(huì)也把“大數(shù)據(jù),大影響”作為重要議題之一.在美國,2009年至今,Data.gov

(美國政府?dāng)?shù)據(jù)庫)全面開放了40萬政府原始數(shù)據(jù)集,大數(shù)據(jù)已成為美國國家創(chuàng)新戰(zhàn)略、國家安全戰(zhàn)略以及國家信息網(wǎng)絡(luò)安全戰(zhàn)略的交叉領(lǐng)域和核心領(lǐng)域.2012年3月,美國政府提出“大數(shù)據(jù)研究和發(fā)展倡議”,發(fā)起全球開放政府?dāng)?shù)據(jù)運(yùn)動(dòng),并投資2億美元促進(jìn)大數(shù)據(jù)核心技術(shù)研究和應(yīng)用,涉及NSF,DARPA等6個(gè)政府部門和機(jī)構(gòu),把大數(shù)據(jù)放在重要的戰(zhàn)略位置.英國政府也將大數(shù)據(jù)作為重點(diǎn)發(fā)展的科技領(lǐng)域,在發(fā)展8類高新技術(shù)的6億英鎊投資中,大數(shù)據(jù)的注資占三成.2014年7月,歐盟委員

4)YoutubeStatistics.

中國科學(xué):信息科學(xué)第45卷第1期

會(huì)也呼吁各成員國積極發(fā)展大數(shù)據(jù),迎接“大數(shù)據(jù)”時(shí)代,并將采取具體措施發(fā)展大數(shù)據(jù)業(yè)務(wù).例如建立大數(shù)據(jù)領(lǐng)域的公私合作關(guān)系;依托“地平線2020”科研規(guī)劃,創(chuàng)建開放式數(shù)據(jù)孵化器;成立多個(gè)超級(jí)計(jì)算中心;在成員國創(chuàng)建數(shù)據(jù)處理設(shè)施網(wǎng)絡(luò).

在學(xué)術(shù)界,美國麻省理工大學(xué)(MIT)計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)建立了大數(shù)據(jù)科學(xué)技術(shù)中心(ISTC).ISTC主要致力于加速科學(xué)與醫(yī)藥發(fā)明、企業(yè)與行業(yè)計(jì)算,并著重推動(dòng)在新的數(shù)據(jù)密集型應(yīng)用領(lǐng)域的最終用戶體驗(yàn)的設(shè)計(jì)創(chuàng)新.大數(shù)據(jù)ISTC由MIT作為中心學(xué)校,研究專家們來自MIT、加州大學(xué)圣巴巴拉分校、波特蘭州立大學(xué)、布朗大學(xué)、華盛頓大學(xué)和斯坦福大學(xué)等6所大學(xué).通過明確和資助領(lǐng)域帶頭人、提供合作研究中心的方式,目標(biāo)是發(fā)掘共享、存儲(chǔ)和操作大數(shù)據(jù)的解決方案,涉及Intel,Microsoft,EMC等多家國際產(chǎn)業(yè)巨頭.同時(shí),英國牛津大學(xué)成立了首個(gè)綜合運(yùn)用大數(shù)據(jù)的醫(yī)藥衛(wèi)生科研中心,該中心的成立有望給英國醫(yī)學(xué)研究和醫(yī)療服務(wù)帶來革命性變化,它將促進(jìn)醫(yī)療數(shù)據(jù)分析方面的新進(jìn)展,幫助科學(xué)家更好地理解人類疾病及其治療方法.該中心通過搜集、存儲(chǔ)和分析大量醫(yī)療信息,確定新藥物的研發(fā)方向,減少藥物開發(fā)成本,同時(shí)為發(fā)現(xiàn)新的治療手段提供線索.而以英國為首的歐洲核子中心(CERN)也在匈牙利科學(xué)院魏格納物理學(xué)研究中心建設(shè)了一座超寬帶數(shù)據(jù)中心,該中心將成為連接CERN且具有歐洲最大傳輸能力的數(shù)據(jù)處理中心.

在產(chǎn)業(yè)界,國外許多著名企業(yè)和組織都將大數(shù)據(jù)作為主要業(yè)務(wù),例如IBM,Microsoft,EMC,DELL,HP等國際知名廠商都提出了各自的大數(shù)據(jù)解決方案或應(yīng)用.IBM宣布了收購StarAnalytics(星分析公司)軟件產(chǎn)品組合的消息.除了StarAnalytics,在IBM最新的收購計(jì)劃中,Splunk和NetApp是最熱門的收購目標(biāo).據(jù)不完全統(tǒng)計(jì),從2005年起,IBM花費(fèi)超過160億美元收購了35家與大數(shù)據(jù)分析相關(guān)的公司.此外,IBM還和全球千所高校達(dá)成協(xié)議,就大數(shù)據(jù)的聯(lián)合研究、教學(xué)、行業(yè)應(yīng)用案例開發(fā)等方面開展全面的合作.

無疑,歐美等國家對(duì)大數(shù)據(jù)的探索和發(fā)展已走在世界前列,各國政府已將大數(shù)據(jù)發(fā)展提升至戰(zhàn)略高度,大力促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展.

2.2國內(nèi)研究現(xiàn)狀

我國政府、學(xué)術(shù)界和產(chǎn)業(yè)界也早已經(jīng)開始高度重視大數(shù)據(jù)的研究和應(yīng)用的工作,并紛紛啟動(dòng)了相應(yīng)的研究計(jì)劃.掛一漏萬,鑒于我們的了解面所限,本文僅能夠簡(jiǎn)要介紹其中的一些.

在政府層面,科技部“十二五”部署了關(guān)于物聯(lián)網(wǎng)、云計(jì)算的相關(guān)專項(xiàng).2012年,中國科學(xué)院院長白春禮院士呼吁中國應(yīng)制定國家大數(shù)據(jù)戰(zhàn)略.同年3月,科技部發(fā)布的《“十二五”國家科技計(jì)劃信息技術(shù)領(lǐng)域2013年度備選項(xiàng)目征集指南》中的“先進(jìn)計(jì)算”板塊己明確提出“面向大數(shù)據(jù)的先進(jìn)存儲(chǔ)結(jié)構(gòu)及關(guān)鍵技術(shù)”,國家“973計(jì)劃”、“863計(jì)劃”、國家自然科學(xué)基金等也分別設(shè)立了針對(duì)大數(shù)據(jù)的研究計(jì)劃和專項(xiàng).目前已立項(xiàng)“973計(jì)劃”項(xiàng)目2項(xiàng),“973計(jì)劃”青年項(xiàng)目2項(xiàng),國家自然科學(xué)基金重點(diǎn)項(xiàng)目2項(xiàng).地方政府也對(duì)大數(shù)據(jù)戰(zhàn)略高度重視,2013年上海市提出了《上海推進(jìn)大數(shù)據(jù)研究與發(fā)展三年行動(dòng)計(jì)劃》,重慶市提出了《重慶市人民政府關(guān)于印發(fā)重慶市大數(shù)據(jù)行動(dòng)計(jì)劃的通知》,2014年廣東省成立大數(shù)據(jù)管理局負(fù)責(zé)研究擬訂并組織實(shí)施大數(shù)據(jù)戰(zhàn)略、規(guī)劃和政策措施,引導(dǎo)和推動(dòng)大數(shù)據(jù)研究和應(yīng)用工作.貴州、河南和承德等省市也都推出了各自的大數(shù)據(jù)發(fā)展規(guī)劃.

在學(xué)術(shù)研究層面,國內(nèi)許多高等院校和研究所開始成立大數(shù)據(jù)的研究機(jī)構(gòu).與此同時(shí),國內(nèi)有關(guān)大數(shù)據(jù)的學(xué)術(shù)組織和活動(dòng)也紛紛成立和開展.2012年中國計(jì)算機(jī)學(xué)會(huì)和中國通信學(xué)會(huì)都成立了大數(shù)據(jù)專家委員會(huì),教育部也在人民大學(xué)成立“薩師煊大數(shù)據(jù)分析與管理國際研究中心”.近年來開展了許多學(xué)術(shù)活動(dòng),主要包括:CCF大數(shù)據(jù)學(xué)術(shù)會(huì)議、中國大數(shù)據(jù)技術(shù)創(chuàng)新與創(chuàng)業(yè)大賽、大數(shù)據(jù)分析與管理國際研討會(huì)、大數(shù)據(jù)科學(xué)與工程國際學(xué)術(shù)研討會(huì)、中國大數(shù)據(jù)技術(shù)大會(huì)和中國國際大數(shù)據(jù)大會(huì)等.3

李學(xué)龍等:大數(shù)據(jù)系統(tǒng)綜述

在產(chǎn)業(yè)層面,國內(nèi)不少知名企業(yè)或組織也成立了大數(shù)據(jù)產(chǎn)品團(tuán)隊(duì)和實(shí)驗(yàn)室,力爭(zhēng)在大數(shù)據(jù)產(chǎn)業(yè)競(jìng)爭(zhēng)中占據(jù)領(lǐng)先地位.

3大數(shù)據(jù)基礎(chǔ)

本節(jié)首先介紹了大數(shù)據(jù)的一些主流定義,隨后介紹大數(shù)據(jù)的發(fā)展歷史,并討論兩種大數(shù)據(jù)處理方式:流處理和批處理.

3.1大數(shù)據(jù)定義

隨著大數(shù)據(jù)的流行,大數(shù)據(jù)的定義呈現(xiàn)多樣化的趨勢(shì),達(dá)成共識(shí)非常困難.本質(zhì)上,大數(shù)據(jù)不僅意味著數(shù)據(jù)的大容量,還體現(xiàn)了一些區(qū)別于“海量數(shù)據(jù)”和“非常大的數(shù)據(jù)”的特點(diǎn).實(shí)際上,不少文獻(xiàn)對(duì)大數(shù)據(jù)進(jìn)行了定義,其中三種定義較為重要.

?屬性定義(Attributivede?nition):國際數(shù)據(jù)中心IDC是研究大數(shù)據(jù)及其影響的先驅(qū),在2011年的報(bào)告中定義了大數(shù)據(jù)[1]:“大數(shù)據(jù)技術(shù)描述了一個(gè)技術(shù)和體系的新時(shí)代,被設(shè)計(jì)于從大規(guī)模多樣化的數(shù)據(jù)中通過高速捕獲、發(fā)現(xiàn)和分析技術(shù)提取數(shù)據(jù)的價(jià)值”.這個(gè)定義刻畫了大數(shù)據(jù)的4個(gè)顯著特點(diǎn),即容量(volume)、多樣性(variety)、速度(velocity)和價(jià)值(value),而“4Vs”定義的使用也較為廣泛.類似的定義也出現(xiàn)在2001年IT分析公司META集團(tuán)(現(xiàn)在已被Gartner并購)分析師DougLaney的研究報(bào)告中[2],他注意到數(shù)據(jù)的增長是三維的,即容量、多樣性和速度的增長.盡管“3Vs”定義沒有完整描述大數(shù)據(jù),Gartner和多數(shù)產(chǎn)業(yè)界巨頭如IBM[12]和Microsoft[13]的研究者們?nèi)岳^續(xù)使用“3Vs”模型描述大數(shù)據(jù)[14].

?比較定義(Comparativede?nition):2011年,McKinsey公司的研究報(bào)告中[2]將大數(shù)據(jù)定義為“超過了典型數(shù)據(jù)庫軟件工具捕獲、存儲(chǔ)、管理和分析數(shù)據(jù)能力的數(shù)據(jù)集”.這種定義是一種主觀定義,沒有描述與大數(shù)據(jù)相關(guān)的任何度量機(jī)制,但是在定義中包含了一種演化的觀點(diǎn)(從時(shí)間和跨領(lǐng)域的角度),說明了什么樣的數(shù)據(jù)集才能被認(rèn)為是大數(shù)據(jù).

?體系定義(Architecturalde?nition):美國國家標(biāo)準(zhǔn)和技術(shù)研究院NIST則認(rèn)為[15]“大數(shù)據(jù)是指數(shù)據(jù)的容量、數(shù)據(jù)的獲取速度或者數(shù)據(jù)的表示限制了使用傳統(tǒng)關(guān)系方法對(duì)數(shù)據(jù)的分析處理能力,需要使用水平擴(kuò)展的機(jī)制以提高處理效率”.此外,大數(shù)據(jù)可進(jìn)一步細(xì)分為大數(shù)據(jù)科學(xué)(bigdatascience)和大數(shù)據(jù)框架(bigdataframeworks).大數(shù)據(jù)科學(xué)是涵蓋大數(shù)據(jù)獲取、調(diào)節(jié)和評(píng)估技術(shù)的研究;大數(shù)據(jù)框架則是在計(jì)算單元集群間解決大數(shù)據(jù)問題的分布式處理和分析的軟件庫及算法.一個(gè)或多個(gè)大數(shù)據(jù)框架的實(shí)例化即為大數(shù)據(jù)基礎(chǔ)設(shè)施.

此外,還有不少產(chǎn)業(yè)界和學(xué)術(shù)界對(duì)大數(shù)據(jù)定義的討論[16]5).

然而對(duì)于大數(shù)據(jù)定義,要達(dá)成共識(shí)非常困難.一種邏輯上的選擇是接受所有的大數(shù)據(jù)定義,其中每種定義反映了大數(shù)據(jù)的特定方面.本文采取這種方式理解大數(shù)據(jù)科學(xué)和工程的共同問題和相關(guān)機(jī)制.前面提到的大數(shù)據(jù)定義給出了一系列工具,用于比較大數(shù)據(jù)和傳統(tǒng)的數(shù)據(jù)分析,比較結(jié)果如表1所示.首先,數(shù)據(jù)集的容量是區(qū)分大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的關(guān)鍵因素.例如,Facebook報(bào)道2012年每天有27億用戶登錄并發(fā)表評(píng)論[17].其次,大數(shù)據(jù)有三種形式:結(jié)構(gòu)化、半結(jié)構(gòu)化和無結(jié)構(gòu)化.傳統(tǒng)的數(shù)據(jù)通常是結(jié)構(gòu)化的,易于標(biāo)注和存儲(chǔ).而現(xiàn)在Facebook,Twitter,YouTube以及其他用戶產(chǎn)生的絕大多數(shù)數(shù)據(jù)都是非結(jié)構(gòu)化的.第三,大數(shù)據(jù)的速度意味著數(shù)據(jù)集的分析處理速率要匹配數(shù)據(jù)的產(chǎn)生速率.對(duì)于

5)GrobelnikM.BigDataTutorial.

中國科學(xué):信息科學(xué)第45卷第1期

表1大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)比較

Table1Comparisonbetweenbigdataandtraditionaldata

Traditionaldata

Volume

Generatedrate

Structure

Datasource

Dataintegration

Datastore

AccessGBPerhour,day,...StructuredCentralizedEasyRDBMSInteractiveBigdataConstantlyupdated(TBorPBcurrently)MorerapidSemi-structuredorun-structuredFullydistributedDi?cultHDFS,NoSQLBatchornearreal-time

Exabyte(EB)=210×210×210×210×210×210bytes 圖1大數(shù)據(jù)主要?dú)v史里程碑

Figure1Milestonesofbigdatahistory

時(shí)間敏感的應(yīng)用,例如欺詐檢測(cè)和RFID數(shù)據(jù)管理,大數(shù)據(jù)以流的形式進(jìn)入企業(yè),需要盡可能快地處理數(shù)據(jù)并最大化其價(jià)值.最后,利用大量數(shù)據(jù)挖掘方法分析大數(shù)據(jù)集,可以從低價(jià)值密度的巨量數(shù)據(jù)中提取重要的價(jià)值.

3.2大數(shù)據(jù)的歷史

以往對(duì)大數(shù)據(jù)的演化過程通常從單方面的觀點(diǎn)描述,例如從年代[18]或技術(shù)里程碑[19]等方面.本文對(duì)大數(shù)據(jù)的演化過程則根據(jù)數(shù)據(jù)大小來刻畫,大數(shù)據(jù)的發(fā)展歷史和有效存儲(chǔ)管理日益增大的數(shù)據(jù)集的能力緊密聯(lián)系在一起.每一次處理能力的提高都伴隨著新數(shù)據(jù)庫技術(shù)的發(fā)展,如圖1所示.因此,大數(shù)據(jù)的歷史可以大致分為以下幾個(gè)階段.

?Megabyte到Gigabyte:20世紀(jì)70年代到80年代,歷史上的商業(yè)數(shù)據(jù)從Megabyte達(dá)到Gigabyte的量級(jí),從而引入最早的“大數(shù)據(jù)”挑戰(zhàn).當(dāng)時(shí)的迫切需求是存儲(chǔ)數(shù)據(jù)并運(yùn)行關(guān)系型數(shù)據(jù)查詢以完成商業(yè)數(shù)據(jù)的分析和報(bào)告.數(shù)據(jù)庫計(jì)算機(jī)(databasemachine)隨之產(chǎn)生,它集成了硬件和軟件解決問題,其思想是通過硬件和軟件的集成,以較小的代價(jià)獲得較好的處理性能.一段時(shí)間后,專用硬件的數(shù)據(jù)庫計(jì)算機(jī)難以跟上通用計(jì)算機(jī)的發(fā)展.因此,后來的數(shù)據(jù)庫系統(tǒng)是軟件系統(tǒng),對(duì)硬件幾乎沒有什么限制,可以運(yùn)行在通用計(jì)算機(jī)上.

?Gigabyte到Terabyte:20世紀(jì)80年代末期,數(shù)字技術(shù)的盛行導(dǎo)致數(shù)據(jù)容量從Gigabyte達(dá)到5


  本文關(guān)鍵詞:大數(shù)據(jù)系統(tǒng)綜述,由筆耕文化傳播整理發(fā)布。



本文編號(hào):228587

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/xxkj/228587.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a9fc8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
激情少妇一区二区三区| 亚洲欧美日本国产不卡| 丰满少妇被猛烈插入在线观看| 免费国产成人性生活生活片| 欧美亚洲综合另类色妞| 亚洲中文字幕高清视频在线观看| 厕所偷拍一区二区三区视频| 日韩在线视频精品视频| 亚洲中文字幕人妻av| 爽到高潮嗷嗷叫之在现观看| 欧美大胆美女a级视频| 91欧美亚洲视频在线| 日本一级特黄大片国产| 欧美尤物在线观看西比尔| 伊人久久五月天综合网| 狠狠做深爱婷婷久久综合| 黄色污污在线免费观看| 东京热电东京热一区二区三区| 国产日韩欧美在线播放| 亚洲性生活一区二区三区| 国产丝袜极品黑色高跟鞋| 色好吊视频这里只有精| 久久福利视频这里有精品| 日韩精品小视频在线观看| 果冻传媒精选麻豆白晶晶| 亚洲高清亚洲欧美一区二区| 国产精品刮毛视频不卡| 日韩欧美三级视频在线| 在线精品首页中文字幕亚洲| 国产不卡最新在线视频| 99久久精品午夜一区二| 五月激情五月天综合网| 97人摸人人澡人人人超碰| 国产精品一区二区视频大全| 成人精品视频一区二区在线观看| 97精品人妻一区二区三区麻豆| 99久久国产亚洲综合精品| 中文久久乱码一区二区| 国产日韩欧美国产欧美日韩 | 樱井知香黑人一区二区| 欧美一区日韩二区亚洲三区|