天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 論文百科 > 農(nóng)業(yè)期刊 >

大數(shù)據(jù) ppt_大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述50

發(fā)布時(shí)間:2016-12-15 12:29

  本文關(guān)鍵詞:大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述,由筆耕文化傳播整理發(fā)布。


軟件學(xué)報(bào)ISSN1000-9825,CODENR;JournalofSoftware,2014,2;?中國科學(xué)院軟件研究所版權(quán)所有.Tel/Fax:;大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述?;程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰;(中國科學(xué)院計(jì)算技術(shù)研究所網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn);通訊作者:靳小龍,E-mail:jinxiaol;摘要:首先根據(jù)處理形式的不同,介紹

軟件學(xué)報(bào)ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn

Journal of Software,2014,25(9):1889?1908 [doi: 10.13328/j.cnki.jos.004674]

?中國科學(xué)院軟件研究所版權(quán)所有. Tel/Fax: +86-10-62562563

大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述?

程學(xué)旗, 靳小龍, 王元卓, 郭嘉豐, 張鐵贏, 李國杰

(中國科學(xué)院 計(jì)算技術(shù)研究所 網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190)

通訊作者: 靳小龍, E-mail: jinxiaolong@ict.ac.cn

摘 要: 首先根據(jù)處理形式的不同,介紹了不同形式數(shù)據(jù)的特征和各自的典型應(yīng)用場景以及相應(yīng)的代表性處理系

統(tǒng),總結(jié)了大數(shù)據(jù)處理系統(tǒng)的三大發(fā)展趨勢;隨后,對系統(tǒng)支撐下的大數(shù)據(jù)分析技術(shù)和應(yīng)用(包括深度學(xué)習(xí)、知識計(jì)

算、社會計(jì)算與可視化等)進(jìn)行了簡要綜述,總結(jié)了各種技術(shù)在大數(shù)據(jù)分析理解過程中的關(guān)鍵作用;最后梳理了大數(shù)

據(jù)處理和分析面臨的數(shù)據(jù)復(fù)雜性、計(jì)算復(fù)雜性和系統(tǒng)復(fù)雜性挑戰(zhàn),并逐一提出了可能的應(yīng)對之策.

關(guān)鍵詞: 大數(shù)據(jù);數(shù)據(jù)分析;深度學(xué)習(xí);知識計(jì)算;社會計(jì)算;可視化

中圖法分類號: TP301 中文引用格式: 程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述.軟件學(xué)報(bào),2014,25(9):1889?1908.

英文引用格式: Cheng XQ, Jin XL, Wang YZ, GUO JF, Zhang TY, Li GJ. Survey on big data system and analytic technology.

Ruan Jian Xue Bao/Journal of Software, 2014,25(9):1240?1252 (in Chinese). htm

Survey on Big Data System and Analytic Technology

CHENG Xue-Qi, JIN Xiao-Long, WANG Yuan-Zhuo, GUO Jia-Feng, ZHANG Tie-Ying, LI Guo-Jie

(Key Laboratory of Network Data Science and Technology, Institute of Computing Technology, The Chinese Academy of Sciences,

Beijing 100190, China)

Corresponding author: JIN Xiao-Long, E-mail: jinxiaolong@ict.ac.cn

Abstract: This paper first introduces the key features of big data in different processing modes and their typical application scenarios,

as well as corresponding representative processing systems. It then summarizes three development trends of big data processing systems.

Next, the paper gives a brief survey on system supported analytic technologies and applications (including deep learning, knowledge

computing, social computing, and visualization), and summarizes the key roles of individual technologies in big data analysis and

understanding. Finally, the paper lays out three grand challenges of big data processing and analysis, i.e., data complexity, computation

complexity, and system complexity. Potential ways for dealing with each complexity are also discussed.

Key words: dig data; data analysis; deep learning; knowledge computing; social computing; visualization

近幾年,大數(shù)據(jù)迅速發(fā)展成為科技界和企業(yè)界甚至世界各國政府關(guān)注的熱點(diǎn).《Nature》和《Science》等相

繼出版?瘜iT探討大數(shù)據(jù)帶來的機(jī)遇和挑戰(zhàn).著名管理咨詢公司麥肯錫稱:“數(shù)據(jù)已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)

和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素.人們對于大數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)力增長和消費(fèi)盈余浪

潮的到來”[1].美國政府認(rèn)為大數(shù)據(jù)是“未來的新石油”,一個(gè)國家擁有數(shù)據(jù)的規(guī)模和運(yùn)用數(shù)據(jù)的能力將成為綜合

國力的重要組成部分,對數(shù)據(jù)的占有和控制將成為國家間和企業(yè)間新的爭奪焦點(diǎn).大數(shù)據(jù)已成為社會各界關(guān)注

的新焦點(diǎn),“大數(shù)據(jù)時(shí)代”已然來臨.

什么是大數(shù)據(jù),迄今并沒有公認(rèn)的定義.從宏觀世界角度來講,大數(shù)據(jù)是融合物理世界(physical world)、信息

空間和人類社會(human society)三元世界的紐帶,因?yàn)槲锢硎澜缤ㄟ^互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等技術(shù)有了在信息空間

基金項(xiàng)目: 國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973)(2014CB340401, 2012CB316303); 國家自然科學(xué)基金(61232010, 61100175,

61173008, 61202214); 北京市科技新星計(jì)劃(Z121101002512063)

收稿時(shí)間: 2014-05-09; 定稿時(shí)間: 2014-07-01 ?

1890 Journal of Software 軟件學(xué)報(bào) Vol.25, No.9, September 2014

(cyberspace)中的大數(shù)據(jù)反映,而人類社會則借助人機(jī)界面、腦機(jī)界面、移動互聯(lián)等手段在信息空間中產(chǎn)生自己的大數(shù)據(jù)映像[2,3].從信息產(chǎn)業(yè)角度來講,大數(shù)據(jù)還是新一代信息技術(shù)產(chǎn)業(yè)的強(qiáng)勁推動力.所謂新一代信息技術(shù)產(chǎn)業(yè)本質(zhì)上是構(gòu)建在第三代平臺上的信息產(chǎn)業(yè),主要是指大數(shù)據(jù)、云計(jì)算、移動互聯(lián)網(wǎng)(社交網(wǎng)絡(luò))等.IDC預(yù)測,到2020年第三代信息技術(shù)平臺的市場規(guī)模將達(dá)到5.3萬億美元,而從2013年~2020年,IT產(chǎn)業(yè)90%的增長將由第三代信息技術(shù)平臺驅(qū)動.從社會經(jīng)濟(jì)角度來講,大數(shù)據(jù)是第二經(jīng)濟(jì)(second economy[4])的核心內(nèi)涵和關(guān)鍵支撐.第二經(jīng)濟(jì)的概念是由美國經(jīng)濟(jì)學(xué)家Auther在2011年提出的.他指出由處理器、鏈接器、傳感器、執(zhí)行器以及運(yùn)行在其上的經(jīng)濟(jì)活動形成了人們熟知的物理經(jīng)濟(jì)(第一經(jīng)濟(jì))之外的第二經(jīng)濟(jì)(不是虛擬經(jīng)濟(jì)).第二經(jīng)濟(jì)的本質(zhì)是為第一經(jīng)濟(jì)附著一個(gè)“神經(jīng)層”,使國民經(jīng)濟(jì)活動能夠變得智能化,這是100年前電氣化以來最大的變化. Auther還估算了第二經(jīng)濟(jì)的規(guī)模,他認(rèn)為到2030年,第二經(jīng)濟(jì)的規(guī)模將逼近第一經(jīng)濟(jì).而第二經(jīng)濟(jì)的主要支撐是大數(shù)據(jù),因?yàn)榇髷?shù)據(jù)是永不枯竭并不斷豐富的資源產(chǎn)業(yè).借助于大數(shù)據(jù),未來第二經(jīng)濟(jì)下的競爭將不再是勞動生產(chǎn)率而是知識生產(chǎn)率的競爭.

相較于傳統(tǒng)的數(shù)據(jù),人們將大數(shù)據(jù)的特征總結(jié)為5個(gè)V,即體量大(volume)、速度快(velocity)、模態(tài)多(variety)、難辨識(veracity)和價(jià)值大密度低(value).但大數(shù)據(jù)的主要難點(diǎn)并不在于數(shù)據(jù)量大,因?yàn)橥ㄟ^對計(jì)算機(jī)系統(tǒng)的擴(kuò)展可以在一定程度上緩解數(shù)據(jù)量大帶來的挑戰(zhàn).其實(shí),大數(shù)據(jù)真正難以對付的挑戰(zhàn)來自于數(shù)據(jù)類型多樣(variety)、要求及時(shí)響應(yīng)(velocity)和數(shù)據(jù)的不確定性(veracity).因?yàn)閿?shù)據(jù)類型多樣使得一個(gè)應(yīng)用往往既要處理結(jié)構(gòu)化數(shù)據(jù),同時(shí)還要處理文本、視頻、語音等非結(jié)構(gòu)化數(shù)據(jù),這對現(xiàn)有數(shù)據(jù)庫系統(tǒng)來說難以應(yīng)付;在快速響應(yīng)方面,在許多應(yīng)用中時(shí)間就是利益.在不確定性方面,數(shù)據(jù)真?zhèn)坞y辨是大數(shù)據(jù)應(yīng)用的最大挑戰(zhàn).追求高數(shù)據(jù)質(zhì)量是對大數(shù)據(jù)的一項(xiàng)重要要求,最好的數(shù)據(jù)清理方法也難以消除某些數(shù)據(jù)固有的不可預(yù)測性.

為了應(yīng)對大數(shù)據(jù)帶來的上述困難和挑戰(zhàn),以Google,Facebook,Linkedin,Microsoft等為代表的互聯(lián)網(wǎng)企業(yè)近幾年推出了各種不同類型的大數(shù)據(jù)處理系統(tǒng).借助于新型的處理系統(tǒng),深度學(xué)習(xí)、知識計(jì)算、可視化等大數(shù)據(jù)分析技術(shù)也得已迅速發(fā)展,已逐漸被廣泛應(yīng)用于不同的行業(yè)和領(lǐng)域.本文從系統(tǒng)支撐下的大數(shù)據(jù)分析角度入手,介紹了不同的大數(shù)據(jù)處理模式與代表性的處理系統(tǒng),并對深度學(xué)習(xí)、知識計(jì)算等重要的大數(shù)據(jù)分析技術(shù)進(jìn)行綜述,最后指出大數(shù)據(jù)處理和分析所面臨的3個(gè)核心挑戰(zhàn),并提出可能的解決思路.

1 大數(shù)據(jù)處理與系統(tǒng)

大數(shù)據(jù)中蘊(yùn)含的寶貴價(jià)值成為人們存儲和處理大數(shù)據(jù)的驅(qū)動力.Mayer-Sch?nberger在《大數(shù)據(jù)時(shí)代》一書中指出了大數(shù)據(jù)時(shí)代處理數(shù)據(jù)理念的三大轉(zhuǎn)變,即要全體不要抽樣,要效率不要絕對精確,要相關(guān)不要因果[5].因此,海量數(shù)據(jù)的處理對于當(dāng)前存在的技術(shù)來說是一種極大的挑戰(zhàn).目前,人們對大數(shù)據(jù)的處理形式主要是對靜態(tài)數(shù)據(jù)的批量處理,對在線數(shù)據(jù)的實(shí)時(shí)處理[6],以及對圖數(shù)據(jù)的綜合處理.其中,在線數(shù)據(jù)的實(shí)時(shí)處理又包括對流式數(shù)據(jù)的處理和實(shí)時(shí)交互計(jì)算兩種.本節(jié)將詳細(xì)闡述上述4種數(shù)據(jù)形式的特征和各自的典型應(yīng)用以及相應(yīng)的代表性系統(tǒng).

1.1 批量數(shù)據(jù)處理系統(tǒng)

利用批量數(shù)據(jù)挖掘合適的模式,得出具體的含義,制定明智的決策,最終做出有效的應(yīng)對措施實(shí)現(xiàn)業(yè)務(wù)目標(biāo)是大數(shù)據(jù)批處理的首要任務(wù).大數(shù)據(jù)的批量處理系統(tǒng)適用于先存儲后計(jì)算,實(shí)時(shí)性要求不高,同時(shí)數(shù)據(jù)的準(zhǔn)確性和全面性更為重要的場景.

1.1.1 批量數(shù)據(jù)的特征與典型應(yīng)用

(1) 批量數(shù)據(jù)的特征

批量數(shù)據(jù)通常具有3個(gè)特征.第一,數(shù)據(jù)體量巨大.數(shù)據(jù)從TB級別躍升到PB級別.數(shù)據(jù)是以靜態(tài)的形式存儲在硬盤中,很少進(jìn)行更新,存儲時(shí)間長,可以重復(fù)利用,然而這樣大批量的數(shù)據(jù)不容易對其進(jìn)行移動和備份.第二,數(shù)據(jù)精確度高.批量數(shù)據(jù)往往是從應(yīng)用中沉淀下來的數(shù)據(jù),因此精度相對較高,是企業(yè)資產(chǎn)的一部分寶貴財(cái)富.第三,數(shù)據(jù)價(jià)值密度低.以視頻批量數(shù)據(jù)為例,在連續(xù)不斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒.因此,需要通過合理的算法才能從批量的數(shù)據(jù)中抽取有用的價(jià)值.此外,批量數(shù)據(jù)處理往往比較耗時(shí),而且不提供用戶

程學(xué)旗 等:大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述 1891

與系統(tǒng)的交互手段,所以當(dāng)發(fā)現(xiàn)處理結(jié)果和預(yù)期或與以往的結(jié)果有很大差別時(shí),會浪費(fèi)很多時(shí)間.因此,批量數(shù)據(jù)處理適合大型的相對比較成熟的作業(yè).

(2) 典型應(yīng)用

物聯(lián)網(wǎng)、云計(jì)算、互聯(lián)網(wǎng)以及車聯(lián)網(wǎng)等無一不是大數(shù)據(jù)的重要來源,當(dāng)前批量數(shù)據(jù)處理可以解決前述領(lǐng)域的諸多決策問題并發(fā)現(xiàn)新的洞察.因此,批量數(shù)據(jù)處理可以適用于較多的應(yīng)用場景.本節(jié)主要選擇互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用、安全領(lǐng)域的應(yīng)用以及公共服務(wù)領(lǐng)域的應(yīng)用這3個(gè)典型應(yīng)用場景加以介紹[7?12].在互聯(lián)網(wǎng)領(lǐng)域中,批量數(shù)據(jù)處理的典型應(yīng)用場景主要包括:(a) 社交網(wǎng)絡(luò):Facebook、新浪微博、微信等以人為核心的社交網(wǎng)絡(luò)產(chǎn)生了大量的文本、圖片、音視頻等不同形式的數(shù)據(jù).對這些數(shù)據(jù)的批量處理可以對社交網(wǎng)絡(luò)進(jìn)行分析,發(fā)現(xiàn)人與人之間隱含的關(guān)系或者他們中存在的社區(qū),推薦朋友或者相關(guān)的主題,提升用戶的體驗(yàn).(b) 電子商務(wù):電子商務(wù)中產(chǎn)生大量的購買歷史記錄、商品評論、商品網(wǎng)頁的訪問次數(shù)和駐留時(shí)間等數(shù)據(jù),通過批量分析這些數(shù)據(jù),每個(gè)商鋪可以精準(zhǔn)地選擇其熱賣商品,從而提升商品銷量;這些數(shù)據(jù)還能夠分析出用戶的消費(fèi)行為,為客戶推薦相關(guān)商品,以提升優(yōu)質(zhì)客戶數(shù)量.(c) 搜索引擎:Google等大型互聯(lián)網(wǎng)搜索引擎與Yahoo!的專門廣告分析系統(tǒng),通過對廣告相關(guān)數(shù)據(jù)的批量處理用來改善廣告的投放效果以提高用戶的點(diǎn)擊量.在安全領(lǐng)域中,批量數(shù)據(jù)主要用于欺詐檢測和IT安全.在金融服務(wù)機(jī)構(gòu)和情報(bào)機(jī)構(gòu)中,欺詐檢測一直都是關(guān)注的重點(diǎn).通過對批量數(shù)據(jù)的處理,可對客戶交易和現(xiàn)貨異常進(jìn)行判斷,從而對可能存在欺詐行為提前預(yù)警.另一方面,企業(yè)通過處理機(jī)器產(chǎn)生的數(shù)據(jù),識別惡意軟件和網(wǎng)絡(luò)攻擊模式,從而使其他安全產(chǎn)品判斷是否接受來自這些來源的通信.在公共服務(wù)領(lǐng)域,批量數(shù)據(jù)處理的典型應(yīng)用場景主要包括:(a) 能源:例如,對來自海洋深處地震時(shí)產(chǎn)生的數(shù)據(jù)進(jìn)行批量的排序和整理,可能發(fā)現(xiàn)海底石油的儲量;通過對用戶能源數(shù)據(jù)、氣象與人口方面的公共及私人數(shù)據(jù)、歷史信息、地理數(shù)據(jù)等的批量處理,可以提升電力服務(wù),盡量為用戶節(jié)省在資源方面的投入.(b) 醫(yī)療保健:通過對患者以往的生活方式與醫(yī)療記錄進(jìn)行批量處理分析,提供語義分析服務(wù),對病人的健康提供醫(yī)生、護(hù)士及其他相關(guān)人士的回答,并協(xié)助醫(yī)生更好的為患者進(jìn)行診斷.當(dāng)然,大數(shù)據(jù)的批量處理不只應(yīng)用到這些領(lǐng)域,還有移動數(shù)據(jù)分析、圖像處理以及基礎(chǔ)設(shè)施管理等領(lǐng)域.隨著人們對數(shù)據(jù)中蘊(yùn)含價(jià)值的認(rèn)識,會有更多的領(lǐng)域通過對數(shù)據(jù)的批量處理挖掘其中的價(jià)值來支持決策和發(fā)現(xiàn)新的洞察.

1.1.2 代表性的處理系統(tǒng)

由Google公司2003年研發(fā)的Google文件系統(tǒng)GFS[13]和2004年研發(fā)的MapReduce編程模型[14]以其Web環(huán)境下批量處理大規(guī)模海量數(shù)據(jù)的特有魅力,在學(xué)術(shù)界和工業(yè)界引起了很大反響.雖然Google沒有開源這兩項(xiàng)技術(shù)的源碼,但是基于這兩篇開源文檔,2006年Nutch項(xiàng)目子項(xiàng)目之一的Hadoop實(shí)現(xiàn)了兩個(gè)強(qiáng)有力的開源產(chǎn) 品[15]:HDFS和MapReduce.Hadoop成為了典型的大數(shù)據(jù)批量處理架構(gòu),由HDFS負(fù)責(zé)靜態(tài)數(shù)據(jù)的存儲,并通過MapReduce將計(jì)算邏輯分配到各數(shù)據(jù)節(jié)點(diǎn)進(jìn)行數(shù)據(jù)計(jì)算和價(jià)值發(fā)現(xiàn).Hadoop順應(yīng)了現(xiàn)代主流IT公司的一致需求,之后以HDFS和MapReduce為基礎(chǔ)建立了很多項(xiàng)目,形成了Hadoop生態(tài)圈.

MapReduce 編程模型之所以受到歡迎并迅速得到應(yīng)用,在技術(shù)上主要有3方面的原因[16,17].首先, MapReduce采用無共享大規(guī)模集群系統(tǒng).集群系統(tǒng)具有良好的性價(jià)比和可伸縮性,這一優(yōu)勢為MapReduce成為大規(guī)模海量數(shù)據(jù)平臺的首選創(chuàng)造了條件.其次,MapReduce模型簡單、易于理解、易于使用.它不僅用于處理大規(guī)模數(shù)據(jù),而且能將很多繁瑣的細(xì)節(jié)隱藏起來(比如,自動并行化、負(fù)載均衡和災(zāi)備管理等),極大地簡化了程序員的開發(fā)工作.而且,大量數(shù)據(jù)處理問題,包括很多機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,都可以使用MapReduce實(shí)現(xiàn).第三,雖然基本的MapReduce模型只提供一個(gè)過程性的編程接口,但在海量數(shù)據(jù)環(huán)境、需要保證可伸縮性的前提下,通過使用合適的查詢優(yōu)化和索引技術(shù),MapReduce仍能夠提供很好的數(shù)據(jù)處理性能.

1.2 流式數(shù)據(jù)處理系統(tǒng)

Google于2010年推出了Dremel,引領(lǐng)業(yè)界向?qū)崟r(shí)數(shù)據(jù)處理邁進(jìn).實(shí)時(shí)數(shù)據(jù)處理是針對批量數(shù)據(jù)處理的性能問題提出的,可分為流式數(shù)據(jù)處理和交互式數(shù)據(jù)處理兩種模式.在大數(shù)據(jù)背景下,流式數(shù)據(jù)處理源于服務(wù)器日志的實(shí)時(shí)采集,交互式數(shù)據(jù)處理的目標(biāo)是將PB級數(shù)據(jù)的處理時(shí)間縮短到秒級.

1892

1.2.1 流式數(shù)據(jù)的特征及典型應(yīng)用

(1) 流式數(shù)據(jù)的特征 Journal of Software 軟件學(xué)報(bào) Vol.25, No.9, September 2014

通俗而言,流式數(shù)據(jù)是一個(gè)無窮的數(shù)據(jù)序列,序列中的每一個(gè)元素來源各異,格式復(fù)雜,序列往往包含時(shí)序特性,或者有其他的有序標(biāo)簽(如IP報(bào)文中的序號).從數(shù)據(jù)庫的角度而言,每一個(gè)元素可以看作是一個(gè)元組,而元素的特性則類比于元組的屬性.流式數(shù)據(jù)在不同的場景下往往體現(xiàn)出不同的特征,如流速大小、元素特性數(shù)量、數(shù)據(jù)格式等,但大部分流式數(shù)據(jù)都含有共同的特征,這些特征便可用來設(shè)計(jì)通用的流式數(shù)據(jù)處理系統(tǒng).下面簡要介紹流式數(shù)據(jù)共有的特征[18].

首先,流式數(shù)據(jù)的元組通常帶有時(shí)間標(biāo)簽或其余含序?qū)傩?因此,同一流式數(shù)據(jù)往往是被按序處理的.然而數(shù)據(jù)的到達(dá)順序是不可預(yù)知的,由于時(shí)間和環(huán)境的動態(tài)變化,無法保證重放數(shù)據(jù)流與之前數(shù)據(jù)流中數(shù)據(jù)元素順序的一致性.這就導(dǎo)致了數(shù)據(jù)的物理順序與邏輯順序不一致.而且,數(shù)據(jù)源不受接收系統(tǒng)的控制,數(shù)據(jù)的產(chǎn)生是實(shí)時(shí)的、不可預(yù)知的.此外,數(shù)據(jù)的流速往往有較大的波動,因此需要系統(tǒng)具有很好的可伸縮性,能夠動態(tài)適應(yīng)不確定流入的數(shù)據(jù)流,具有很強(qiáng)的系統(tǒng)計(jì)算能力和大數(shù)據(jù)流量動態(tài)匹配的能力.其次,數(shù)據(jù)流中的數(shù)據(jù)格式可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的甚至是無結(jié)構(gòu)化的.數(shù)據(jù)流中往往含有錯(cuò)誤元素、垃圾信息等.因此流式數(shù)據(jù)的處理系統(tǒng)要有很好的容錯(cuò)性與異構(gòu)數(shù)據(jù)分析能力,能夠完成數(shù)據(jù)的動態(tài)清洗、格式處理等.最后,流式數(shù)據(jù)是活動的(用完即棄),隨著時(shí)間的推移不斷增長,這與傳統(tǒng)的數(shù)據(jù)處理模型(存儲→查詢)不同,要求系統(tǒng)能夠根據(jù)局部數(shù)據(jù)進(jìn)行計(jì)算,保存數(shù)據(jù)流的動態(tài)屬性.流式處理系統(tǒng)針對該特性,應(yīng)當(dāng)提供流式查詢接口,即提交動態(tài)的SQL語句,實(shí)時(shí)地返回當(dāng)前結(jié)果.

(2) 典型應(yīng)用

流式計(jì)算的應(yīng)用場景較多,典型的有兩類[6]:(a) 數(shù)據(jù)采集應(yīng)用:數(shù)據(jù)采集應(yīng)用通過主動獲取海量的實(shí)時(shí)數(shù)據(jù),及時(shí)地挖掘出有價(jià)值的信息.當(dāng)前數(shù)據(jù)采集應(yīng)用有日志采集、傳感器采集、Web數(shù)據(jù)采集等.日志采集系統(tǒng)是針對各類平臺不斷產(chǎn)生的大量日志信息量身訂做的處理系統(tǒng),通過流式挖掘日志信息,達(dá)到動態(tài)提醒與預(yù)警功能.傳感器采集系統(tǒng)(物聯(lián)網(wǎng))通過采集傳感器的信息(通常包含時(shí)間、位置、環(huán)境和行為等內(nèi)容),實(shí)時(shí)分析提供動態(tài)的信息展示,目前主要應(yīng)用于智能交通、環(huán)境監(jiān)控、災(zāi)難預(yù)警等.Web數(shù)據(jù)采集系統(tǒng)是利用網(wǎng)絡(luò)爬蟲程序抓取萬維網(wǎng)上的內(nèi)容,通過清洗、歸類、分析并挖掘其數(shù)據(jù)價(jià)值.(b) 金融銀行業(yè)的應(yīng)用:在金融銀行領(lǐng)域的日常運(yùn)營過程中會產(chǎn)生大量數(shù)據(jù),這些數(shù)據(jù)的時(shí)效性往往較短,不僅有結(jié)構(gòu)化數(shù)據(jù),也會有半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù).通過對這些大數(shù)據(jù)的流式計(jì)算,發(fā)現(xiàn)隱含于其中的內(nèi)在特征,可幫助金融銀行進(jìn)行實(shí)時(shí)決策.這與傳統(tǒng)的商業(yè)智能(BI)分析不同,BI要求數(shù)據(jù)是靜態(tài)的,通過數(shù)據(jù)挖掘技術(shù),獲得數(shù)據(jù)的價(jià)值.然而在瞬息萬變的場景下,諸如股票期貨市場,數(shù)據(jù)挖掘技術(shù)不能及時(shí)地響應(yīng)需求,就需要借助流式數(shù)據(jù)處理的幫助.

總之,流式數(shù)據(jù)的特點(diǎn)是,數(shù)據(jù)連續(xù)不斷、來源眾多、格式復(fù)雜、物理順序不一、數(shù)據(jù)的價(jià)值密度低.而對應(yīng)的處理工具則需具備高性能、實(shí)時(shí)、可擴(kuò)展等特性.

1.2.2 代表性的處理系統(tǒng)

流式數(shù)據(jù)處理已經(jīng)在業(yè)界得到廣泛的應(yīng)用,典型的有Twitter的Storm,Facebook的Scribe,Linkedin的Samza,Cloudera的Flume,Apache的Nutch.

? Twitter的Storm系統(tǒng)

Storm[19]是一套分布式、可靠、可容錯(cuò)的用于處理流式數(shù)據(jù)的系統(tǒng).其流式處理作業(yè)被分發(fā)至不同類型的組件,每個(gè)組件負(fù)責(zé)一項(xiàng)簡單的、特定的處理任務(wù).Storm集群的輸入流由名為Spout的組件負(fù)責(zé).Spout將數(shù)據(jù)傳遞給名為Bolt的組件,后者將以指定的方式處理這些數(shù)據(jù),如持久化或者處理并轉(zhuǎn)發(fā)給另外的Bolt.Storm集群可以看成一條由Bolt組件組成的鏈(稱為一個(gè)Topology).每個(gè)Bolt對Spout產(chǎn)生出來的數(shù)據(jù)做某種方式的 處理.

Storm可用來實(shí)時(shí)處理新數(shù)據(jù)和更新數(shù)據(jù)庫,兼具容錯(cuò)性和擴(kuò)展性.Storm也可被用于連續(xù)計(jì)算,對數(shù)據(jù)流做連續(xù)查詢,在計(jì)算時(shí)將結(jié)果以流的形式輸出給用戶.它還可被用于分布式RPC,以并行的方式運(yùn)行復(fù)雜運(yùn)算.一個(gè)Storm集群分為3類節(jié)點(diǎn):(a) Nimbus節(jié)點(diǎn),負(fù)責(zé)提交任務(wù),分發(fā)執(zhí)行代碼,為每個(gè)工作結(jié)點(diǎn)指派任務(wù)和監(jiān)控失

程學(xué)旗 等:大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述 1893

敗的任務(wù);(b) Zookeeper節(jié)點(diǎn),負(fù)責(zé)Storm集群的協(xié)同操作;(c) Supervisor節(jié)點(diǎn),負(fù)責(zé)啟動多個(gè)Worker進(jìn)程,執(zhí)行 Topology的一部分,這個(gè)過程是通過Zookeeper節(jié)點(diǎn)與Nimbus節(jié)點(diǎn)通信完成的.因?yàn)镾torm將所有的集群狀態(tài)在保存在Zookeeper或者本地磁盤上,Supervisor節(jié)點(diǎn)是無狀態(tài)的,因此其失敗或者重啟不會引起全局的重新 計(jì)算.

Storm的主要特點(diǎn)是:(a) 簡單的編程模型:Storm提供類似于MapReduce的操作,降低了并行批處理與實(shí)時(shí)處理的復(fù)雜性.一個(gè)Storm作業(yè)只需實(shí)現(xiàn)一個(gè)Topology及其所包含的Spout與Bolt.通過指定它們的連接方式,Topology可以勝任大多數(shù)的流式作業(yè)需求;(b) 容錯(cuò)性:Storm利用Zookeeper管理工作進(jìn)程和節(jié)點(diǎn)的故障.在工作過程中,如果出現(xiàn)異常,Topology會失敗.但Storm將以一致的狀態(tài)重新啟動處理,這樣它可以正確地恢復(fù);(c) 水平擴(kuò)展:Storm擁有良好的水平擴(kuò)展能力,其流式計(jì)算過程是在多個(gè)線程、進(jìn)程和服務(wù)器之間并行進(jìn)行的.Nimbus節(jié)點(diǎn)將大量的協(xié)同工作都交由Zookeeper節(jié)點(diǎn)負(fù)責(zé),使得水平擴(kuò)展不會產(chǎn)生瓶頸;(d) 快速可靠的消息處理:Storm利用ZeroMQ作為消息隊(duì)列,極大提高了消息傳遞的速度,系統(tǒng)的設(shè)計(jì)也保證了消息能得到快速處理.Storm保證每個(gè)消息至少能得到一次完整處理.任務(wù)失敗時(shí),它會負(fù)責(zé)從消息源重試消息.

? Linkedin的Samza系統(tǒng)

Linkedin早期開發(fā)了一款名叫Kafka[20,21]的消息隊(duì)列,廣受業(yè)界的好評,許多流式數(shù)據(jù)處理系統(tǒng)都使用了Kafka作為底層的消息處理模塊.Kafka的工作過程簡要分為4個(gè)步驟,即生產(chǎn)者將消息發(fā)往中介(broker),消息被抽象為Key-Value對,Broker將消息按Topic劃分,消費(fèi)者向Broker拉取感興趣的Topic.2013年,Linkedin基于Kafka和YARN開發(fā)了自己的流式處理框架——Samza.Samza與Kafka的關(guān)系可以類比MapReduce與HDFS的關(guān)系.Samza系統(tǒng)由3個(gè)層次組成,包括流式數(shù)據(jù)層(Kafka)、執(zhí)行層(YARN)、處理層(Samza API).一個(gè)Samza任務(wù)的輸入與輸出均是流.Samza系統(tǒng)對流的模型有很嚴(yán)格的定義,它并不只是一個(gè)消息交換的機(jī)制.流在Samza的系統(tǒng)中是一系列劃分了的、可重現(xiàn)的、可多播的、無狀態(tài)的消息序列,每一個(gè)劃分都是有序的.流不僅是Samza系統(tǒng)的輸入與輸出,它還充當(dāng)系統(tǒng)中的緩沖區(qū),能夠隔離相互之間的處理過程.Samza利用YARN與Kafka提供了分步處理與劃分流的框架.Samza客戶端向Yarn的資源管理器提交流作業(yè),生成多個(gè)Task Runner進(jìn)程,這些進(jìn)程執(zhí)行用戶編寫的StreamTasks代碼.該系統(tǒng)的輸入與輸出來自于Kafka的Broker進(jìn)程.

Samza的主要特性有:(a) 高容錯(cuò):如果服務(wù)器或者處理器出現(xiàn)故障,Samza將與YARN一起重新啟動流處理器.(b) 高可靠性:Samza使用Kafka來保證所有消息都會按照寫入分區(qū)的順序進(jìn)行處理,絕對不會丟失任何消息.(c) 可擴(kuò)展性:Samza在各個(gè)等級進(jìn)行分割和分布;Kafka提供一個(gè)有序、可分割、可重部署、高容錯(cuò)的系統(tǒng);YARN提供了一個(gè)分布式環(huán)境供Samza容器運(yùn)行.

1.3 交互式數(shù)據(jù)處理

1.3.1 交互式數(shù)據(jù)處理的特征與典型應(yīng)用

(1) 交互式數(shù)據(jù)處理的特征

與非交互式數(shù)據(jù)處理相比,交互式數(shù)據(jù)處理靈活、直觀、便于控制.系統(tǒng)與操作人員以人機(jī)對話的方式一問一答——操作人員提出請求,數(shù)據(jù)以對話的方式輸入,系統(tǒng)便提供相應(yīng)的數(shù)據(jù)或提示信息,引導(dǎo)操作人員逐步完成所需的操作,直至獲得最后處理結(jié)果.采用這種方式,存儲在系統(tǒng)中的數(shù)據(jù)文件能夠被及時(shí)處理修改,同時(shí)處理結(jié)果可以立刻被使用.交互式數(shù)據(jù)處理具備的這些特征能夠保證輸入的信息得到及時(shí)處理,使交互方式繼續(xù)進(jìn)行下去.

(2) 典型應(yīng)用

在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)量的急劇膨脹是交互式數(shù)據(jù)處理系統(tǒng)面臨的首要問題.下面主要選擇信息處理系統(tǒng)領(lǐng)域和互聯(lián)網(wǎng)領(lǐng)域做為典型應(yīng)用場景進(jìn)行介紹.(a) 在信息處理系統(tǒng)領(lǐng)域中,主要體現(xiàn)了人機(jī)間的交互.傳統(tǒng)的交互式數(shù)據(jù)處理系統(tǒng)主要以關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(DBMS)為主,面向兩類應(yīng)用,即聯(lián)機(jī)事務(wù)處理(OLTP)和聯(lián)機(jī)分析處理(OLAP).OLTP基于關(guān)系型數(shù)據(jù)庫管理系統(tǒng),廣泛用于政府、醫(yī)療以及對操作序列有嚴(yán)格要求的工業(yè)控制領(lǐng)域;OLAP基于數(shù)據(jù)倉庫系統(tǒng)(data warehouse)廣泛用于數(shù)據(jù)分析、商業(yè)智能(BI)等.最具代表性的處理是數(shù)據(jù)鉆取,如在BI中,可以對于數(shù)據(jù)進(jìn)行切片和多粒度的聚合,從而通過多維分析技術(shù)實(shí)現(xiàn)數(shù)據(jù)的鉆取.目前,基

 

 

下載地址:大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述50.Doc

  【】

最新搜索

大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述

利基家族與人類起源探索(二)答案

《中國龍》教學(xué)設(shè)計(jì)與反思37

72第一篇 第六章 體溫控制

請從政治學(xué)的角度談?wù)勅绾畏锤?

掛燈籠數(shù)量有講究嗎

貴州土壤的耕作條件具有以下特點(diǎn)

35封山育林分析報(bào)告

食品安全自律工作提示

淺析體育課如何翻轉(zhuǎn)課堂39


  本文關(guān)鍵詞:大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述,由筆耕文化傳播整理發(fā)布。



本文編號:213747

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/xxkj/213747.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8a773***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
日韩精品视频高清在线观看| 日韩成人高清免费在线| 麻豆蜜桃星空传媒在线观看| 亚洲中文字幕免费人妻| 日韩国产亚洲欧美另类| 99国产一区在线播放| av免费视屏在线观看| 日韩人妻一区中文字幕| 欧美人妻免费一区二区三区| 久久精视频免费视频观看| 又大又长又粗又猛国产精品| 区一区二区三中文字幕| 国产成人精品99在线观看| 日韩精品在线观看一区| 国产亚洲精品一二三区| 日韩精品一区二区三区射精 | 91午夜少妇极品福利| 亚洲一区二区亚洲日本 | 亚洲综合色在线视频香蕉视频| 欧美日韩国产亚洲三级理论片 | 欧美一区二区不卡专区| 日韩无套内射免费精品| 视频一区二区 国产精品| 日本加勒比在线观看不卡| 国产不卡在线免费观看视频| 久久精品国产99国产免费| 欧美日韩国产精品自在自线| 中文久久乱码一区二区| 粉嫩国产美女国产av| 亚洲国产另类久久精品| 国产又粗又硬又大又爽的视频| 亚洲国产成人av毛片国产| 91偷拍视频久久精品| 久久天堂夜夜一本婷婷| 九九热国产这里只有精品| 免费性欧美重口味黄色| 经典欧美熟女激情综合网| 欧美日韩久久精品一区二区| 爱在午夜降临前在线观看| 隔壁的日本人妻中文字幕版| 亚洲国产欧美精品久久|