大數(shù)據(jù)處理綜述_大數(shù)據(jù)生態(tài)系統(tǒng)科學(xué)圖譜綜述
本文關(guān)鍵詞:大數(shù)據(jù)系統(tǒng)綜述,由筆耕文化傳播整理發(fā)布。
大數(shù)據(jù)生態(tài)系統(tǒng)科學(xué)圖譜綜述
次
分享:
導(dǎo)讀:就愛閱讀網(wǎng)友為您分享以下“大數(shù)據(jù)生態(tài)系統(tǒng)科學(xué)圖譜綜述”的資訊,希望對您有所幫助,感謝您對92to.com的支持!
河南工程學(xué)院《工程數(shù)據(jù)分析與應(yīng)用》
考查課課程作業(yè)
大數(shù)據(jù)生態(tài)系統(tǒng)科學(xué)圖譜綜述
學(xué)生姓名: 學(xué)院:管理工程學(xué)院
專業(yè)班級: 專業(yè)課程:工程數(shù)據(jù)分析與應(yīng)用
任課教師:
2016年5月15日
目錄
一、大數(shù)據(jù)生態(tài)系統(tǒng)概念、組成 ........................................................................ 1
(一)大數(shù)據(jù)生態(tài)系統(tǒng)的提出 .................................................................... 1
(二)大數(shù)據(jù)生態(tài)系統(tǒng)的組成結(jié)構(gòu) ............................................................ 2
(三)大數(shù)據(jù)生態(tài)系統(tǒng)的構(gòu)建措施 ............................................................ 2
(四)大數(shù)據(jù)處理生態(tài)系統(tǒng)構(gòu)建 ................................................................ 3
(五)大數(shù)據(jù)生態(tài)分析技術(shù) ........................................................................ 4
1.5.1 大數(shù)據(jù)生態(tài)分析技術(shù)的機遇與挑戰(zhàn) .......................................... 4
1.5.2 如何對異構(gòu)數(shù)據(jù)的處理 .............................................................. 5
1.5.3 大數(shù)據(jù)分析和處理技術(shù)的發(fā)展 .................................................. 6
1.5.4 大數(shù)據(jù)處理生態(tài)系統(tǒng)構(gòu)建 .......................................................... 6
二、大數(shù)據(jù)處理及分析理論、方法、技術(shù) ........................................................ 9
(一)大數(shù)據(jù)處理及分析建設(shè)的過程 ........................................................ 9
(二)大數(shù)據(jù)處理分析的基本理論 .......................................................... 10
(三)大數(shù)據(jù)處理及分析的方向 .............................................................. 10
(四)大數(shù)據(jù)處理及分析的方法 .............................................................. 12
(五)大數(shù)據(jù)處理的過程 .......................................................................... 12
(六)大數(shù)據(jù)處理的技術(shù) .......................................................................... 13
(七)大數(shù)據(jù)處理及分析的意義 .............................................................. 14
(八)大數(shù)據(jù)處理及分析的發(fā)展趨勢 ...................................................... 14
三、大數(shù)據(jù)處理系統(tǒng)架構(gòu)及技術(shù) ...................................................................... 16
(一)從分類大數(shù)據(jù)到選擇大數(shù)據(jù)解決方案 .......................................... 17
(二)依據(jù)大數(shù)據(jù)類型對業(yè)務(wù)問題進行分類 .......................................... 17
(三)數(shù)據(jù)分析平臺架構(gòu) .......................................................................... 20
(四)面對大數(shù)據(jù)OLAP分析的一些問題 ............................................. 21
四、大數(shù)據(jù)可視化理論及技術(shù) .......................................................................... 24
(一)大數(shù)據(jù)可視分析綜述 ...................................................................... 24
(二)大數(shù)據(jù)分析工具 .............................................................................. 24
4.2.1Hadoop ......................................................................................... 25
4.2.2HPCC ........................................................................................... 25
4.2.3Storm ............................................................................................ 26
4.2.4ApacheDrill .................................................................................. 27
4.2.5RapidMiner .................................................................................. 27
4.2.6PentahoBI ..................................................................................... 28
(三)數(shù)據(jù)化可視化分析綜述 .................................................................. 28
4.3.1信息可視化、人機交互、可視分析的基本概念 ..................... 28
4.3.2支持可視分析的基礎(chǔ)理論 ......................................................... 29
4.3.3面向大數(shù)據(jù)主流應(yīng)用的信息可視化技術(shù) ................................. 29
4.3.4支持可視分析的人機交互技術(shù) ................................................. 30
(四)數(shù)據(jù)可視化的問題與挑戰(zhàn) .............................................................. 31
五、大數(shù)據(jù)應(yīng)用及職業(yè)定位 .............................................................................. 33
(一)大數(shù)據(jù)應(yīng)用 ...................................................................................... 33
5.1 面向在線社交網(wǎng)絡(luò)大數(shù)據(jù)的應(yīng)用 ............................................... 34
5.2 醫(yī)療健康大數(shù)據(jù)應(yīng)用 ................................................................... 35
5.3 群智感知大數(shù)據(jù)的應(yīng)用 ............................................................... 36
5.4 智能電網(wǎng)大數(shù)據(jù)的應(yīng)用 ............................................................... 37
5.5 大數(shù)據(jù)在能源行業(yè)的應(yīng)用 ........................................................... 38
5.6 大數(shù)據(jù)在通信行業(yè)的應(yīng)用 ........................................................... 38
5.7大數(shù)據(jù)在零售業(yè)的應(yīng)用 ................................................................ 38
5.8大數(shù)據(jù)在生態(tài)環(huán)境應(yīng)用 ................................................................ 39
5.9大數(shù)據(jù)在工業(yè)污染監(jiān)控中的應(yīng)用 ................................................ 40
(二)大數(shù)據(jù)下的職業(yè)定位 ...................................................................... 41
六、大數(shù)據(jù)生態(tài)系統(tǒng)科學(xué)圖譜組成及 .............................................................. 42
(一)大數(shù)據(jù)的生態(tài)發(fā)展 .......................................................................... 42
(二)大數(shù)據(jù)生態(tài)系統(tǒng)的組建 .................................................................. 44
(三)大數(shù)據(jù)生態(tài)系統(tǒng)的內(nèi)涵 .................................................................. 46
(四)大數(shù)據(jù)生態(tài)系統(tǒng)的重新審視 .......................................................... 47
6.4.1產(chǎn)業(yè)環(huán)境:行業(yè)融合與細分協(xié)同演化 ..................................... 47
6.4.2運營模式:基于“大數(shù)據(jù)”的協(xié)同運作 ................................. 48
(五)大數(shù)據(jù)生態(tài)系統(tǒng)資源的多元化 ...................................................... 49
(六)大數(shù)據(jù)生態(tài)系統(tǒng)的個性化精準細分 .............................................. 50
(七)大數(shù)據(jù)生態(tài)系統(tǒng)的演化 .................................................................. 51
(八)大數(shù)據(jù)生態(tài)系統(tǒng)的構(gòu)建策略 .......................................................... 53
6.8.1構(gòu)筑以“大數(shù)據(jù)”為核心資源的企業(yè)生態(tài)系統(tǒng)商業(yè)模式 ..... 53
6.8.2暢通企業(yè)生態(tài)系統(tǒng)的數(shù)據(jù)交流渠道 ......................................... 54
6.8.3創(chuàng)新以“大數(shù)據(jù)”為基礎(chǔ)的關(guān)鍵業(yè)務(wù)和活動流程 ................. 54
6.8.4構(gòu)建精確的客戶關(guān)系管理系統(tǒng) ................................................. 55
6.8.5培育以“大數(shù)據(jù)”處理和應(yīng)用為中心的企業(yè)生態(tài)系統(tǒng)文化 . 55
(九)大數(shù)據(jù)分析系統(tǒng)架構(gòu)之探討 .......................................................... 56
6.9.1 Hadoop生態(tài)圈 ........................................................................... 56
6.9.2 Spark生態(tài)圈 .............................................................................. 58
七、結(jié)論 .............................................................................................................. 61
參考文獻 .............................................................................................................. 63
大數(shù)據(jù)生態(tài)系統(tǒng)科學(xué)圖譜綜述
摘要:大樹據(jù)時代已經(jīng)到來,人們對于大數(shù)據(jù)對整個社會所起到的推動作用已經(jīng)逐步認識到,但大數(shù)據(jù)的應(yīng)用需要整個系統(tǒng)的運作,需要數(shù)據(jù)的獲取渠道,數(shù)據(jù)的分析工具,數(shù)據(jù)分享的平臺,數(shù)據(jù)分析人員等。因此,大數(shù)據(jù)要得以應(yīng)用發(fā)展,必須建立大數(shù)據(jù)生態(tài)系統(tǒng)。隨著大數(shù)據(jù)相關(guān)企業(yè)的迅速崛起以及社會對大數(shù)據(jù)信息的需求推動,大數(shù)據(jù)產(chǎn)業(yè)正在逐步形成一個完整的體系,從數(shù)據(jù)產(chǎn)生到數(shù)據(jù)輸出的全過程,各個環(huán)節(jié)環(huán)環(huán)相扣,這一過程稱之為大數(shù)據(jù)生態(tài)系統(tǒng)。本文系統(tǒng)地描述了在大數(shù)據(jù)的系統(tǒng)建設(shè)中的各種理論概念及系統(tǒng)的介紹。
關(guān)鍵字:大數(shù)據(jù) 生態(tài)系統(tǒng) 綜述
Abstract:Tree era has arrived, and for big data is contribute to society as a whole has been recognized, but big data applications require operation of the entire system, requires data access, data analysis tools, data-sharing platform, data analysts, and so on. Therefore, large data to application development, we must build big data ecosystem. With the data related to the rapid rise and society's demand for data, big data industry is gradually formed a complete system, from the data to the data output of the whole process, all aspects of itself, this process is called data ecosystem. Paper describes data systems in the construction of a number of theoretical concepts and systems are introduced.
Keywords: big dataecosystemsummarize
一、大數(shù)據(jù)生態(tài)系統(tǒng)概念、組成
(一)大數(shù)據(jù)生態(tài)系統(tǒng)的提出
大樹據(jù)時代已經(jīng)到來,人們對于大數(shù)據(jù)對整個社會所起到的推動作用已經(jīng)逐步認識到,但大數(shù)據(jù)的應(yīng)用需要整個系統(tǒng)的運作,需要數(shù)據(jù)的獲取渠道,數(shù)據(jù)的
分析工具,數(shù)據(jù)分享的平臺,數(shù)據(jù)分析人員等。因此,大數(shù)據(jù)要得以應(yīng)用發(fā)展,必須建立大數(shù)據(jù)生態(tài)系統(tǒng)。隨著大數(shù)據(jù)相關(guān)企業(yè)的迅速崛起以及社會對大數(shù)據(jù)信息的需求推動,大數(shù)據(jù)產(chǎn)業(yè)正在逐步形成一個完整的體系,從數(shù)據(jù)產(chǎn)生到數(shù)據(jù)輸出的全過程,各個環(huán)節(jié)環(huán)環(huán)相扣,這一過程稱之為大數(shù)據(jù)生態(tài)系統(tǒng)。IBM架構(gòu)師對大數(shù)據(jù)生態(tài)系統(tǒng)進行了簡單描述,提出大數(shù)據(jù)生態(tài)系統(tǒng)就是數(shù)據(jù)的生命周期,即數(shù)據(jù)采集、存儲、查找、分析和可視化的過程。
(二)大數(shù)據(jù)生態(tài)系統(tǒng)的組成結(jié)構(gòu)
CTOCTO發(fā)布的大數(shù)據(jù)生態(tài)圖譜"將數(shù)百家大數(shù)據(jù)公司和IT企業(yè)從產(chǎn)品和商業(yè)模式劃分為2種,從中我們可以看到大數(shù)據(jù)的生態(tài)結(jié)構(gòu),以及其中各個環(huán)節(jié)的發(fā)展狀況和市場熱點)從圖譜上來看,大數(shù)據(jù)產(chǎn)業(yè)可以劃分為*大類:大數(shù)據(jù)基礎(chǔ)設(shè)施&大數(shù)據(jù)分析類&大數(shù)據(jù)應(yīng)用類&大數(shù)據(jù)數(shù)據(jù)源類&跨基礎(chǔ)設(shè)施分析&開源軟。大數(shù)據(jù)的概念目前被炒得非;鸨,但大數(shù)據(jù)應(yīng)用還不甚成熟,大數(shù)據(jù)市場仍處于初級階段,但大量的創(chuàng)業(yè)者已經(jīng)涌入其中,不少企業(yè)經(jīng)歷了失敗,但也有不少企業(yè)取得了可觀的成果。在競爭過程中,市場在逐步走向整合,IT巨頭在現(xiàn)階段已經(jīng)開始了收購大戰(zhàn),市場在競爭中,逐步走向成熟,大數(shù)據(jù)的價值即將接受實踐的檢驗。
(三)大數(shù)據(jù)生態(tài)系統(tǒng)的構(gòu)建措施
大數(shù)據(jù)生態(tài)系統(tǒng)的構(gòu)建對于企業(yè)的未來發(fā)展具有決定性的作用,未來市場競爭將更趨于信息化科學(xué)化,企業(yè)決策將依靠大量的量化信息。當然要建立大數(shù)據(jù)生態(tài)系統(tǒng)需要耗費企業(yè)大量的資源,由于目前技術(shù)還不是很穩(wěn)定,整個社會的數(shù)據(jù)環(huán)境還不甚好,企業(yè)構(gòu)建大數(shù)據(jù)生態(tài)系統(tǒng)存在較大的風(fēng)險)但提前做好準備,為未來搭建一個堅實的基礎(chǔ)是很有必要的。首先,要培養(yǎng)企業(yè)的數(shù)據(jù)文化,建立數(shù)據(jù)思維模式,充分理解數(shù)據(jù)作為一種資源對企業(yè)的重要性。從發(fā)現(xiàn)問題,查找數(shù)據(jù),解決問題的思維,逐步轉(zhuǎn)向使用數(shù)據(jù)進行預(yù)測,找出最優(yōu)實現(xiàn)方案的思維模式。
其次,開拓企業(yè)數(shù)據(jù)獲取渠道,隨著大數(shù)據(jù)時代到來,企業(yè)需要收集的數(shù)據(jù)類型將不再局限于關(guān)系型數(shù)據(jù),更多的是非結(jié)構(gòu)化的數(shù)據(jù),例如電子商務(wù)網(wǎng)站、
網(wǎng)上銀行和外部社交媒體網(wǎng)站等。將各種渠道的數(shù)據(jù)進行整合,突破傳統(tǒng)數(shù)據(jù)壁壘,構(gòu)建企業(yè)全面的數(shù)據(jù)信息視圖)最后,加強對數(shù)據(jù)資源的管理,數(shù)據(jù)作為企業(yè)的資產(chǎn),應(yīng)對其進行維護,管理大師湯姆彼得斯曾說過:一個組織如果沒有認識到管理數(shù)據(jù)和信息如同管理有形資產(chǎn)一樣重要,那么它在新經(jīng)濟時代將無法生存。因此,對于數(shù)據(jù)的管理,應(yīng)與資產(chǎn)管理一樣,能夠做到確認、計量、記錄、歸檔、銷毀。對于數(shù)據(jù)資源的確認首先要對數(shù)據(jù)資產(chǎn)作出明確的定義及其確認標準,符合確認條件的數(shù)據(jù)資源是能夠引起經(jīng)濟利益流入的資產(chǎn),在滿足資產(chǎn)的一般定義的情況下,同時要結(jié)合數(shù)據(jù)資源自身的特征。其次,數(shù)據(jù)資源的確認要進一步細化,對其進行歸類,分類的標準多種多樣,比如依據(jù)數(shù)據(jù)描述的對象進行初步分類,之后再按照關(guān)系密切程度進一步分類等等?傊,按照企業(yè)的業(yè)務(wù)需要,對數(shù)據(jù)資源在確認的基礎(chǔ)上,進一步分類,既有利于企業(yè)的數(shù)據(jù)資源的管理和核算,而且可以提高使用效率。數(shù)據(jù)資源的計量是數(shù)據(jù)作為資產(chǎn)所必不可少的一步,對此企業(yè)可建立自身的價值評估體系,對數(shù)據(jù)的價值加以衡量。另外,信息技術(shù)的發(fā)展為大數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)帶來了廣闊的前景。大數(shù)據(jù)生態(tài)系統(tǒng)構(gòu)建過程中,一大難題是基礎(chǔ)設(shè)施的高投資額,這使得企業(yè)不得不考慮大數(shù)據(jù)生態(tài)能夠為企業(yè)帶來多大的收益,然而目前大數(shù)據(jù)的應(yīng)用還在初級階段,前景還不是很明朗的情況下,企業(yè)只能駐足觀望。然而云計算的發(fā)展,以及與此相關(guān)的云服務(wù)產(chǎn)業(yè)為這一難題的解決帶來了極大的可能性。云服務(wù)包括三個層級的服務(wù),基礎(chǔ)設(shè)施服務(wù)、軟件研發(fā)平臺服務(wù)、租用基于web的軟件服務(wù),云服務(wù)為未來大數(shù)據(jù)技術(shù)的應(yīng)用提供了一種渠道,通過云服務(wù)可以節(jié)省大量的資金,降低企業(yè)風(fēng)險,提高使用效率。對于小型企業(yè),通過云服務(wù)可以在大數(shù)據(jù)時代獲取更大的利益。
(四)大數(shù)據(jù)處理生態(tài)系統(tǒng)構(gòu)建
隨著大數(shù)據(jù)和分析在企業(yè)應(yīng)用的深入,面臨的問題和挑戰(zhàn)也越來越多,主要有如下方面:第一,對大數(shù)據(jù)和分析平臺的企業(yè)級應(yīng)用的可靠性、穩(wěn)定性、安全性要求會越來越高;第二,大多數(shù)企業(yè)級用戶都面對著極為復(fù)雜的行業(yè)應(yīng)用場景,不同類型和來源的數(shù)據(jù)需要統(tǒng)一地被利用,在系統(tǒng)較多的企業(yè)中,如何對數(shù)據(jù)進行集成管理是很大的問題,特別是新的大數(shù)據(jù)方案如何與傳統(tǒng)的數(shù)據(jù)倉庫無縫集成;第三,大多數(shù)企業(yè)級客戶還處于對大數(shù)據(jù)和分析的探索初期,對于新問題的
初判和解決經(jīng)驗不足。
對于企業(yè)來說,隨著系統(tǒng)的復(fù)雜性上升,最為迫切也是最為重要的問題是,如何將不同來源、不同結(jié)構(gòu)的數(shù)據(jù)通過系統(tǒng)整合到一個平臺。在這個平臺上,全面涵蓋大數(shù)據(jù)和分析的各個應(yīng)用,采用統(tǒng)一架構(gòu),集成到一個系統(tǒng)。在這個系統(tǒng)上,建立全面覆蓋各種復(fù)雜行業(yè)應(yīng)用場景的企業(yè)級大數(shù)據(jù)和分析應(yīng)用解決方案,如靜態(tài)批量大數(shù)據(jù)處理、實時大數(shù)據(jù)業(yè)務(wù)處理、數(shù)據(jù)倉庫整合和數(shù)據(jù)集市構(gòu)建等,對于這些大量異構(gòu)數(shù)據(jù)系統(tǒng),整合的標準是一個非常關(guān)鍵的問題。同時企業(yè)又在不斷發(fā)展,未來要部署包括電商、移動商務(wù)、社交網(wǎng)絡(luò)等新的應(yīng)用,都需要在這個統(tǒng)一的平臺上展開。以上所有的應(yīng)用,構(gòu)成了一個大數(shù)據(jù)的生態(tài)系統(tǒng)。
(五)大數(shù)據(jù)生態(tài)分析技術(shù)
1.5.1大數(shù)據(jù)生態(tài)分析技術(shù)的機遇與挑戰(zhàn)
快速捕獲即時數(shù)據(jù),創(chuàng)造高速價值大數(shù)據(jù)最大的特點是數(shù)據(jù)的產(chǎn)生速度非?,每時每秒可以產(chǎn)生很多的數(shù)據(jù)。例如,每分鐘facebook上的視頻就可以多產(chǎn)生390萬部,大數(shù)據(jù)的產(chǎn)生速度是不可想象的。據(jù)調(diào)查,53%的高管表示大部分關(guān)鍵信息無法及時獲得,獲取信息的速度越快,采取行動的速度也就越快,快速行動創(chuàng)造的價值越高,數(shù)據(jù)的使用和分析效率真高,企業(yè)為實現(xiàn)卓越的運營,需要快速捕獲高速運轉(zhuǎn)。行中的大數(shù)據(jù),更加迅速地計算分析數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)為信息,信息轉(zhuǎn)為洞察,實時推進業(yè)務(wù)措施,立即采取行動,從而提升企業(yè)競爭力。在這里還有一點,當企業(yè)捕獲的數(shù)據(jù)越來越多,需要分析的數(shù)據(jù)量越多,需要對數(shù)據(jù)進行評判,這個數(shù)據(jù)的重要性是怎樣的,有的時候需要評判這個數(shù)據(jù)的價值是多少。通過更智能的方法,對數(shù)據(jù)加以篩選,對數(shù)據(jù)進行實時的判斷,提煉出有價值的數(shù)據(jù),最終將高速數(shù)據(jù)轉(zhuǎn)化為高速價值,體驗即時數(shù)據(jù)以及數(shù)據(jù)處理給我們帶來的便捷,進而實現(xiàn)實時大數(shù)據(jù)的美好前景,如圖1所示:
圖1.1: 大數(shù)據(jù)業(yè)務(wù)價值與響應(yīng)時間關(guān)系
1.5.2如何對異構(gòu)數(shù)據(jù)的處理
當今企業(yè)在發(fā)展中積累的新信息來源越來越廣泛,企業(yè)應(yīng)用不再是唯一的信息來源,數(shù)據(jù)來源還可以來自傳感器,有的是來自網(wǎng)絡(luò)線上交易,有的是來自消費者行為,有的是來自智能手機或者是移動設(shè)備,這些設(shè)備變得日益智能化和互聯(lián),智能設(shè)備將從2013年的13億部增長至2020年的125億部,非結(jié)構(gòu)化數(shù)據(jù)將超出傳統(tǒng)數(shù)據(jù)多個數(shù)量級?傮w來說數(shù)據(jù)來源可以分為人為生成、互聯(lián)網(wǎng)/云生成、機器生成這幾種類型,這些不同源頭的數(shù)據(jù)的格式也不一樣,我們必須用有效的方式高速捕獲、組織和分析。對于那些已經(jīng)規(guī)模較大,系統(tǒng)環(huán)境高度異構(gòu)的企業(yè)而言,數(shù)據(jù)越來越發(fā)揮其重要資產(chǎn)的作用,如何在架構(gòu)整合方面有所舉措,從全局的角度促進數(shù)據(jù)整合,將不同來源、不同類型的數(shù)據(jù)整合到一起同,對數(shù)據(jù)搜集、管理、分析與挖掘等領(lǐng)域都對技術(shù)與系統(tǒng)提出了更高的要求,使得數(shù)據(jù)能夠為企業(yè)所用。以前,數(shù)據(jù)都是分散在各個業(yè)務(wù)系統(tǒng),在大數(shù)據(jù)時代,企業(yè)需要考慮如何打破系統(tǒng)的邊界,把不同來源的數(shù)據(jù)整合在一起,企業(yè)不僅關(guān)注外部數(shù)據(jù)源對企業(yè)的價值,也需要關(guān)注消費者的情緒如何、對企業(yè)的評價如何,互聯(lián)網(wǎng)、微博等就是很好的信息獲取渠道,怎樣把結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)整合,怎樣把微信、微博等非結(jié)構(gòu)化數(shù)據(jù)植入商務(wù)分析,將虛擬數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)結(jié)合起來,這些外部數(shù)據(jù)源對企業(yè)也具有十分重要的意義。如何整合架構(gòu),將異構(gòu)數(shù)據(jù)整合到一個系統(tǒng),并在此基礎(chǔ)上,實現(xiàn)業(yè)務(wù)系統(tǒng)和分析系統(tǒng)的一體化,加
速并分析大數(shù)據(jù),滿足企業(yè)的實時業(yè)務(wù)需求和分析需求,是目前亟待解決的技術(shù)難題。
1.5.3 大數(shù)據(jù)分析和處理技術(shù)的發(fā)展
正因為大數(shù)據(jù)所呈現(xiàn)的新的特點(4V),大數(shù)據(jù)的意義并不僅僅在于“容量之大”,其更大的意義在于通過對海量數(shù)據(jù)進行整合和分析,發(fā)現(xiàn)新知識,創(chuàng)造新價值。傳統(tǒng)的數(shù)據(jù)分析方法和工具已不適應(yīng)大數(shù)據(jù)的管理,大數(shù)據(jù)不同于普通的數(shù)據(jù)倉庫、數(shù)據(jù)挖掘和商業(yè)智能分析,如沒有恰當?shù)拇髷?shù)據(jù)分析工具,大數(shù)據(jù)將無法發(fā)揮其價值。大數(shù)據(jù)多樣、高速、海量的特點從各個領(lǐng)域推動著行業(yè)的技術(shù)創(chuàng)新,給數(shù)據(jù)的抓取、存儲和分析帶來了新的挑戰(zhàn),工具、開源以及框架設(shè)施對于大數(shù)據(jù)行業(yè)來說非常重要,開源包括軟件和硬件的開源。當前,較為成熟的技術(shù)是通過采用分布式計算模式實現(xiàn),如當前IT業(yè)的巨頭(如谷歌等)MapReduce的云計算模型以及Hadoop的開源方案。Hadoop已經(jīng)成為新的主流范式,而十幾年前用的軟件開發(fā)范式已經(jīng)不適用了。之前幾年的軟件開發(fā)范式只適合處理結(jié)構(gòu)化的數(shù)據(jù),面對非結(jié)構(gòu)化的數(shù)據(jù),Hadoop是主流。Hadoop有一個有效的框架,可以處理非結(jié)構(gòu)的數(shù)據(jù),尤其是處理分布式數(shù)據(jù)。其中,Hadoop是一種分布式系統(tǒng)的平臺,通過它可以很輕松地搭建一個高效、高質(zhì)量的分布系統(tǒng),有著高容錯性的特點,并且設(shè)計用來部署在低廉的硬件上。Hadoop在可伸縮性、健壯性、計算性能和成本上具有無可替代的優(yōu)勢,事實上已成為當前互聯(lián)網(wǎng)企業(yè)主流的大數(shù)據(jù)分析平臺。MapReduce是Hadoop的核心組件之一,可以通過MapReduce很容易在Hadoop平臺上進行分布式的計算編程。
1.5.4 大數(shù)據(jù)處理生態(tài)系統(tǒng)構(gòu)建
隨著大數(shù)據(jù)和分析在企業(yè)應(yīng)用的深入,面臨的問題和挑戰(zhàn)也越來越多,主要有如下方面:
第一,對大數(shù)據(jù)和分析平臺的企業(yè)級應(yīng)用的可靠性、穩(wěn)定性、安全性要求會越來越高
第二,大多數(shù)企業(yè)級用戶都面對著極為復(fù)雜的行業(yè)應(yīng)用場景,不同類型和來源的數(shù)據(jù)需要統(tǒng)一地被利用,在系統(tǒng)較多的企業(yè)中,如何對數(shù)據(jù)進行集成管理是
很大的問題,特別是新的大數(shù)據(jù)方案如何與傳統(tǒng)的數(shù)據(jù)倉庫無縫集成;
第三,大多數(shù)企業(yè)級客戶還處于對大數(shù)據(jù)和分析的探索初期,對于新問題的初判和解決經(jīng)驗不足。
對于企業(yè)來說,隨著系統(tǒng)的復(fù)雜性上升,最為迫切也是最為重要的問題是,如何將不同來源、不同結(jié)構(gòu)的數(shù)據(jù)通過系統(tǒng)整合到一個平臺。在這個平臺上,全面涵蓋大數(shù)據(jù)和分析的各個應(yīng)用,采用統(tǒng)一架構(gòu),集成到一個系統(tǒng)。在這個系統(tǒng)上,建立全面覆蓋各種復(fù)雜行業(yè)應(yīng)用場景的企業(yè)級大數(shù)據(jù)和分析應(yīng)用解決方案,如靜態(tài)批量大數(shù)據(jù)處理、實時大數(shù)據(jù)業(yè)務(wù)處理、數(shù)據(jù)倉庫整合和數(shù)據(jù)集市構(gòu)建等,對于這些大量異構(gòu)數(shù)據(jù)系統(tǒng),整合的標準是一個非常關(guān)鍵的問題。同時企業(yè)又在不斷發(fā)展,未來要部署包括電商、移動商務(wù)、社交網(wǎng)絡(luò)等新的應(yīng)用,都需要在這個統(tǒng)一的平臺上展開。以上所有的應(yīng)用,構(gòu)成了一個大數(shù)據(jù)的生態(tài)系統(tǒng)。這個生態(tài)系統(tǒng)應(yīng)具備以下特點,如圖2所示:
最新
數(shù)據(jù),實時
捕獲
無需準備數(shù)據(jù),無需預(yù)先聚合,無需調(diào) 優(yōu)
圖1.2:大數(shù)據(jù)生態(tài)系統(tǒng)特點
(1) 高度整合的實時數(shù)據(jù)平臺
對于現(xiàn)代企業(yè)來說,隨著業(yè)務(wù)應(yīng)用范圍的廣泛深入、企業(yè)積累的數(shù)據(jù)類型越來越多,包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),交易數(shù)據(jù)與非交易數(shù)據(jù),
數(shù)據(jù)量呈幾何級
次激增,甚至達到Z、Y級,如何高效地捕獲和分析這些大數(shù)據(jù),是企業(yè)廣泛關(guān)注的事情,企業(yè)亟需一個平臺,可以捕獲和管理大數(shù)據(jù)的所有維度,整合數(shù)據(jù)孤島,將不同來源、不同類型的數(shù)據(jù)庫,通過整合的開發(fā)環(huán)境,在技術(shù)架構(gòu)基礎(chǔ)上,通過單一系統(tǒng)實現(xiàn)大數(shù)據(jù)并行計算列式平臺管理把ERP的業(yè)務(wù)數(shù)據(jù)、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)整合到一個系統(tǒng),直接在整個數(shù)據(jù)平臺建模、計算、分析、預(yù)測,再借助BI進行圖形化展示。所有可使用數(shù)據(jù)的人,實時獲得分析結(jié)果,如財務(wù)數(shù)據(jù),你只需用自然語言輸入查詢條件,系統(tǒng)提供實時解決方案,像花瓣一樣呈現(xiàn)。在這樣的平臺,能夠快速、高效地捕獲并整合海量多元化的任意數(shù)據(jù),實現(xiàn)快速分析處理海量信息,實時進行商業(yè)決策,實現(xiàn)業(yè)務(wù)系統(tǒng)和分析系統(tǒng)的一體化,能夠同時滿足企業(yè)的實時業(yè)務(wù)需求和分析需求,不但降低了企業(yè)對服務(wù)器等硬件的需求,還減少了數(shù)據(jù)從業(yè)務(wù)系統(tǒng)到分析系統(tǒng)過程中所需的數(shù)據(jù)抽取、清洗等操作,大大提高了效率。
(2)基于云的生態(tài)系統(tǒng)構(gòu)建
2012年是中國的大數(shù)據(jù)元年,云計算概念的爭論漸漸平息,而大數(shù)據(jù)的熱潮隨之到來。隨著大數(shù)據(jù)的到來,大家對云計算的“中國夢”開始有了更清晰的認識,云計算如何落地為雨,成為2013年中國云計算的主旋律。對于大部分企業(yè)而言,“云計算之旅”都將是一場速度與耐力的較量,關(guān)鍵是部署的靈活性。如何在整個價值鏈中獲得出色競爭優(yōu)勢,快速分析數(shù)據(jù),發(fā)現(xiàn)并響應(yīng)業(yè)務(wù)網(wǎng)絡(luò)中的各種變化,借助廣泛的托管功能選擇,從高度安全的環(huán)境和云技術(shù)的經(jīng)濟優(yōu)勢中獲益,是每個企業(yè)所要達到的理想效果。
大數(shù)據(jù)時代,云計算所發(fā)揮的主要作用是為大數(shù)據(jù)提供按需服務(wù),主要體現(xiàn)在云存儲、云計算、私用云、公有云的服務(wù)方面,將云共享的思想應(yīng)用于企業(yè),主要有有幾種主要方式,其中一種就是嵌入式企業(yè)原有平臺的OEM方式,包括移動平臺、商務(wù)分析平臺和數(shù)據(jù)庫平臺等。另一種方式是托管私有云服務(wù)的方式,那就是構(gòu)建一個充滿活力的生態(tài)系統(tǒng),為企業(yè)提供選擇上的自由,既可以選擇在企業(yè)本地來搭建這個平臺,也可以享受在云端來實現(xiàn)這個服務(wù),實現(xiàn)從本地向云端的遷移。充分利用與企業(yè)原有的ERP核心系統(tǒng)的無縫集成,又能夠與企業(yè)其他來源、其他類型的數(shù)據(jù)、其他系統(tǒng)如BI、ETL和備份工具的集成,實現(xiàn)更廣泛的用戶支持、數(shù)據(jù)尋源以及對現(xiàn)有投資的再利用,以達到協(xié)同、共同參與、分享的
目的,有效實現(xiàn)數(shù)據(jù)分析處理中“溫數(shù)據(jù)”到“熱數(shù)據(jù)”的瞬間響應(yīng),從而幫助其客戶獲取實時、精準的數(shù)據(jù)分析,把握瞬息萬變的市場動態(tài),獲取商機。所構(gòu)建的生態(tài)系統(tǒng)不僅僅是數(shù)據(jù)庫,而是創(chuàng)新的基于云框架的計算平臺,具有出色的云靈活性,支持自動配置計算資源,簡化日常管理,將突破傳統(tǒng)的游戲規(guī)則,它從數(shù)據(jù)到?jīng)Q策覆蓋了整個企業(yè)的業(yè)務(wù)流程。這樣一個生態(tài)系統(tǒng),應(yīng)基于開放式標準,提供安全可靠、易于使用的開發(fā)和運行環(huán)境。它所具備的能力主要有:加速在線交易處理,同時可以作為數(shù)據(jù)倉庫進行海量數(shù)據(jù)分析;既能夠加速傳統(tǒng)的關(guān)系型數(shù)據(jù),又能連接外部的Hadoop做非結(jié)構(gòu)化數(shù)據(jù)處理,它將是一個“全能”平臺,將企業(yè)日常的數(shù)據(jù)需求全部集中在一個生態(tài)系統(tǒng)中,企業(yè)可以根據(jù)自己的需求,個性化地選擇,比如,可以任意選擇各種類型的業(yè)務(wù)應(yīng)用和數(shù)據(jù)處理,做交易用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,運行報表應(yīng)用企業(yè)的數(shù)據(jù)倉庫(EDW),處理大數(shù)據(jù)用NoSQL或者Hadoop,在這樣一個大而全的生態(tài)平臺,可以實現(xiàn)簡化的IT架構(gòu),即想即得,企業(yè)將高效地應(yīng)用諸多大數(shù)據(jù)技術(shù)手段,諸如分布式計算、并行處理、實時計算、高級分析與決策、數(shù)據(jù)可視化,進而實時獲取答案,幫助企業(yè)快速獲取洞察力,助力企業(yè)轉(zhuǎn)型與發(fā)展,重塑無限可能。
二、大數(shù)據(jù)處理及分析理論、方法、技術(shù)
(一)大數(shù)據(jù)處理及分析建設(shè)的過程 隨著數(shù)據(jù)的越來越多,如何在這些海量的數(shù)據(jù)中找出我們需要的信息變得尤其重要,而這也是大數(shù)據(jù)的產(chǎn)生和發(fā)展原因,那么究竟什么是大數(shù)據(jù)呢?當下我國大數(shù)據(jù)研發(fā)建設(shè)又有哪些方面著力呢?
一是建立一套運行機制。大數(shù)據(jù)建設(shè)是一項有序的、動態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程,必須建立良好的運行機制,以促進建設(shè)過程中各個環(huán)節(jié)的正規(guī)有序,實現(xiàn)統(tǒng)合,搞好頂層設(shè)計。
二是規(guī)范一套建設(shè)標準。沒有標準就沒有系統(tǒng)。應(yīng)建立面向不同主題、覆蓋各個領(lǐng)域、不斷動態(tài)更新的大數(shù)據(jù)建設(shè)標準,為實現(xiàn)各級各類信息系統(tǒng)的網(wǎng)絡(luò)互連、信息互通、資源共享奠定基礎(chǔ)。
9
三是搭建一個共享平臺。數(shù)據(jù)只有不斷流動和充分共享,才有生命力。應(yīng)在各專用數(shù)據(jù)庫建設(shè)的基礎(chǔ)上,通過數(shù)據(jù)集成,實現(xiàn)各級各類指揮信息系統(tǒng)的數(shù)據(jù)交換和數(shù)據(jù)共享。
四是培養(yǎng)一支專業(yè)隊伍。大數(shù)據(jù)建設(shè)的每個環(huán)節(jié)都需要依靠專業(yè)人員完成,因此,必須培養(yǎng)和造就一支懂指揮、懂技術(shù)、懂管理的大數(shù)據(jù)建設(shè)專業(yè)隊伍。
(二)大數(shù)據(jù)處理分析的基本理論
圖2.1:大數(shù)據(jù)特征概括為5個V
(三)大數(shù)據(jù)處理及分析的方向
眾所周知,大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大的事實了,而最重要的現(xiàn)實是對大數(shù)據(jù)進行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。
10
那么越來越多的應(yīng)用涉及到大數(shù)據(jù),而這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素;谌绱说恼J識,大數(shù)據(jù)分析普遍存在的方法理論有哪些呢?
表2.1:數(shù)據(jù)分析的五個方面 可視化
分析 數(shù)據(jù)挖掘耍法 預(yù)測語義數(shù)據(jù)質(zhì)量與數(shù)據(jù)管理 性分析能引擎
力
大數(shù)據(jù) 大數(shù)據(jù)分析的大數(shù) 大大數(shù)據(jù)分分析的使用理論核心就是數(shù)據(jù)挖據(jù)分析最數(shù)據(jù)分析析離不開數(shù)據(jù)者有大數(shù)據(jù)掘算法,各種數(shù)據(jù)挖終要的應(yīng)廣泛應(yīng)用質(zhì)量和數(shù)據(jù)管分析專家,同掘的算法基于不同的用領(lǐng)域之于網(wǎng)絡(luò)數(shù)理,高質(zhì)量的數(shù)時還有普通數(shù)據(jù)類型和格式才能一就是預(yù)據(jù)挖掘,可據(jù)和有效的數(shù)用戶,但是他更加科學(xué)的呈現(xiàn)出數(shù)測性分從用戶的據(jù)管理,無論是們二者對于據(jù)本身具備的特點,析,從大搜索關(guān)鍵在學(xué)術(shù)研究還大數(shù)據(jù)分析也正是因為這些被全數(shù)據(jù)中挖詞、標簽關(guān)是在商業(yè)應(yīng)用最基本的要世界統(tǒng)計學(xué)家所公認掘出特鍵詞、或其領(lǐng)域,都能夠保求就是可視的各種統(tǒng)計方法(可點,通過他輸入語證分析結(jié)果的化分析,因為以稱之為真理)才能科學(xué)的建義,分析,真實和有價值?梢暬治錾钊霐(shù)據(jù)內(nèi)部,挖掘立模型,判斷用戶大數(shù)據(jù)分析的能夠直觀的出公認的價值。另外之后便可需求,從而基礎(chǔ)就是以上呈現(xiàn)大數(shù)據(jù)一個方面也是因為有以通過模實現(xiàn)更好五個方面,當然特點,同時能這些數(shù)據(jù)挖掘的算法型帶入新的用戶體更加深入大數(shù)夠非常容易才能更快速的處理大的數(shù)據(jù),驗和廣告據(jù)分析的話,還被讀者所接數(shù)據(jù),如果一個算法從而預(yù)測匹配。
受,就如同看得花上好幾年才能得未來的數(shù)
圖說話一樣出結(jié)論,那大數(shù)據(jù)的據(jù)。
簡單明了。 價值也就無從說起
了。
11
有很多很多更加有特點的、更加深入的、更加專業(yè)的大數(shù)據(jù)分析方法。
(四)大數(shù)據(jù)處理及分析的方法
越來越多的應(yīng)用涉及到大數(shù)據(jù),這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性,所以,大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。
(五)大數(shù)據(jù)處理的過程
大數(shù)據(jù)處理數(shù)據(jù)時代理念的三大轉(zhuǎn)變:要全體不要抽樣,要效率不要絕對精確,要相關(guān)不要因果。具體的大數(shù)據(jù)處理方法其實有很多,但是根據(jù)長時間的實踐,筆者總結(jié)了一個基本的大數(shù)據(jù)處理流程,并且這個流程應(yīng)該能夠?qū)Υ蠹依眄槾髷?shù)據(jù)的處理有所幫助。整個處理流程可以概括為四步,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計和分析,以及挖掘。
1.采集
大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。
2.統(tǒng)計/分析
統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。
3.導(dǎo)入/預(yù)處理
雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。也有一些用戶會在導(dǎo)入時使用來自Twitter的Storm來對數(shù)據(jù)進行流式計算,來滿足
12
部分業(yè)務(wù)的實時計算需求。導(dǎo)入與預(yù)處理過程的特點和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會達到百兆,甚至千兆級別。
4.挖掘
與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,從而起到預(yù)測的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的K-Means、用于統(tǒng)計學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,還有,常用數(shù)據(jù)挖掘算法都以單線程為主。
(六)大數(shù)據(jù)處理的技術(shù) 數(shù)據(jù)采集:ETL工具負責將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
數(shù)據(jù)存。宏P(guān)系數(shù)據(jù)庫、NOSQL、SQL等。
基礎(chǔ)架構(gòu):云存儲、分布式文件存儲等。
數(shù)據(jù)處理:自然語言處理是研究人與計算機交互的語言問題的一門學(xué)科。處理自然語言的關(guān)鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解,也稱為計算語言學(xué)。一方面它是語言信息處理的一個分支,另一方面它是人工智能的核心課題之一。
統(tǒng)計分析:假設(shè)檢驗、顯著性檢驗、差異分析、相關(guān)分析、T檢驗、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應(yīng)分析、多元對應(yīng)分析(最優(yōu)尺度分析)、bootstrap技術(shù)等等。
數(shù)據(jù)挖掘:分類、估計、預(yù)測、相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚類、描述和可視化、、復(fù)雜數(shù)據(jù)類型挖掘(Text,Web,圖形圖像,視頻,音頻等)
模型預(yù)測:預(yù)測模型、機器學(xué)習(xí)、建模仿真。
結(jié)果呈現(xiàn):云計算、標簽云、關(guān)系圖等。
(七)大數(shù)據(jù)處理及分析的意義 大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。
從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。
隨著云時代的來臨,大數(shù)據(jù)(Bigdata)也吸引了越來越多的關(guān)注!吨婆_》的分析師團隊認為,大數(shù)據(jù)(Bigdata)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
(八)大數(shù)據(jù)處理及分析的發(fā)展趨勢
隨著數(shù)據(jù)的增多,人民對大數(shù)據(jù)的信息需求也在不斷地增加,而大數(shù)據(jù)的未來發(fā)展趨勢更人人民所關(guān)心,故未來的數(shù)據(jù)發(fā)展正在朝著以下的幾個趨勢發(fā)展。
圖2.2:大數(shù)據(jù)的發(fā)展趨勢圖
何為資源化,是指大數(shù)據(jù)成為企業(yè)和社會關(guān)注的重要戰(zhàn)略資源,并已成為大家爭相搶奪的新焦點。因而,企業(yè)必須要提前制定大數(shù)據(jù)營銷戰(zhàn)略計劃,搶占市場先機。
大數(shù)據(jù)離不開云處理,云處理為大數(shù)據(jù)提供了彈性可拓展的基礎(chǔ)設(shè)備,是產(chǎn)生大數(shù)據(jù)的平臺之一。自2013年開始,大數(shù)據(jù)技術(shù)已開始和云計算技術(shù)緊密結(jié)合,預(yù)計未來兩者關(guān)系將更為密切。除此之外,物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等新興計算形態(tài),也將一齊助力大數(shù)據(jù)革命,讓大數(shù)據(jù)營銷發(fā)揮出更大的影響力。
隨著大數(shù)據(jù)的快速發(fā)展,就像計算機和互聯(lián)網(wǎng)一樣,大數(shù)據(jù)很有可能是新一輪的技術(shù)革命。隨之興起的數(shù)據(jù)挖掘、機器學(xué)習(xí)和人工智能等相關(guān)技術(shù),可能會改變數(shù)據(jù)世界里的很多算法和基礎(chǔ)理論,實現(xiàn)科學(xué)技術(shù)上的突破。
未來,數(shù)據(jù)科學(xué)將成為一門專門的學(xué)科,被越來越多的人所認知。各大高校將設(shè)立專門的數(shù)據(jù)科學(xué)類專業(yè),也會催生一批與之相關(guān)的新的就業(yè)崗位。與此同時,基于數(shù)據(jù)這個基礎(chǔ)平臺,也將建立起跨領(lǐng)域的數(shù)據(jù)共享平臺,之后,數(shù)據(jù)共享將擴展到企業(yè)層面,并且成為未來產(chǎn)業(yè)的核心一環(huán)。
未來幾年數(shù)據(jù)泄露事件的增長率也許會達到100%,除非數(shù)據(jù)在其源頭就能夠得到安全保障?梢哉f,在未來,每個財富500強企業(yè)都會面臨數(shù)據(jù)攻擊,無論他們是否已經(jīng)做好安全防范。而所有企業(yè),無論規(guī)模大小,都需要重新審視今天的安全定義。在財富500強企業(yè)中,超過50%將會設(shè)置首席信息安全官這一職位。企業(yè)需要從新的角度來確保自身以及客戶數(shù)據(jù),所有數(shù)據(jù)在創(chuàng)建之初便需要獲得安全保障,而并非在數(shù)據(jù)保存的最后一個環(huán)節(jié),僅僅加強后者的安全措施已被證明于事無補。
數(shù)據(jù)管理成為核心競爭力,直接影響財務(wù)表現(xiàn)。當“數(shù)據(jù)資產(chǎn)是企業(yè)核心資產(chǎn)”的概念深入人心之后,企業(yè)對于數(shù)據(jù)管理便有了更清晰的界定,將數(shù)據(jù)管理作為企業(yè)核心競爭力,持續(xù)發(fā)展,戰(zhàn)略性規(guī)劃與運用數(shù)據(jù)資產(chǎn),成為企業(yè)數(shù)據(jù)管理的核心。數(shù)據(jù)資產(chǎn)管理效率與主營業(yè)務(wù)收入增長率、銷售收入增長率顯著正相關(guān);此外,對于具有互聯(lián)網(wǎng)思維的企業(yè)而言,數(shù)據(jù)資產(chǎn)競爭力所占比重為36.8%,數(shù)據(jù)資產(chǎn)的管理效果將直接影響企業(yè)的財務(wù)表現(xiàn)。
采用自助式商業(yè)智能工具進行大數(shù)據(jù)處理的企業(yè)將會脫穎而出。其中要面臨的一個挑戰(zhàn)是,很多數(shù)據(jù)源會帶來大量低質(zhì)量數(shù)據(jù)。想要成功,企業(yè)需要理解原始數(shù)據(jù)與數(shù)據(jù)分析之間的差距,從而消除低質(zhì)量數(shù)據(jù)并通過BI獲得更佳決策。
三、大數(shù)據(jù)處理系統(tǒng)架構(gòu)及技術(shù)
大數(shù)據(jù)可通過許多方式來存儲、獲取、處理和分析。每個大數(shù)據(jù)來源都有不同的特征,包括數(shù)據(jù)的頻率、量、速度、類型和真實性。處理并存儲大數(shù)據(jù)時,會涉及到更多維度,比如治理、安全性和策略。選擇一種架構(gòu)并構(gòu)建合適的大數(shù)據(jù)解決方案極具挑戰(zhàn),因為需要考慮非常多的因素。
這個“大數(shù)據(jù)架構(gòu)和模式”系列提供了一種結(jié)構(gòu)化和基于模式的方法來簡化定義完整的大數(shù)據(jù)架構(gòu)的任務(wù)。因為評估一個業(yè)務(wù)場景是否存在大數(shù)據(jù)問題很重要,所以我們包含了一些線索來幫助確定哪些業(yè)務(wù)問題適合采用大數(shù)據(jù)解決方案。
(一)從分類大數(shù)據(jù)到選擇大數(shù)據(jù)解決方案
如果我們花時間研究過大數(shù)據(jù)解決方案,那么就一定知道它不是一個簡單的任務(wù)。我們首先介紹術(shù)語“大數(shù)據(jù)”所描述的數(shù)據(jù)類型。為了簡化各種大數(shù)據(jù)類型的復(fù)雜性,我們依據(jù)各種參數(shù)對大數(shù)據(jù)進行了分類,為任何大數(shù)據(jù)解決方案中涉及的各層和高級組件提供一個邏輯架構(gòu)。接下來,我們通過定義原子和復(fù)合分類模式,提出一種結(jié)構(gòu)來分類大數(shù)據(jù)業(yè)務(wù)問題。這些模式有助于確定要應(yīng)用的合適的解決方案模式。我們提供了來自各行各業(yè)的示例業(yè)務(wù)問題。
(二)依據(jù)大數(shù)據(jù)類型對業(yè)務(wù)問題進行分類
業(yè)務(wù)問題可分類為不同的大數(shù)據(jù)問題類型。以后,我們將使用此類型確定合適的分類模式(原子或復(fù)合)和合適的大數(shù)據(jù)解決方案。但第一步是將業(yè)務(wù)問題映射到它的大數(shù)據(jù)類型。下表列出了常見的業(yè)務(wù)問題并為每個問題分配了一種大數(shù)據(jù)類型。
表3.1:不同類型的大數(shù)據(jù)業(yè)務(wù)問題
業(yè)務(wù)問題 大數(shù)據(jù)問題 描述
客戶情緒必須與客戶概要數(shù)據(jù)相集成,才能得到有意義的
結(jié)果。依據(jù)客戶的人口統(tǒng)計特征,客戶反饋可能有所不同。
IT部門正在依靠大數(shù)據(jù)解決方案來分析應(yīng)用程序日志,客戶服以便獲取可提高系統(tǒng)性能的洞察。來自各種應(yīng)用程序供應(yīng)務(wù):呼叫人類生成的 商的日志文件具有不同的格式;必須將它們標準化,然后監(jiān)視 IT部門才能使用它們。
零售:基
于面部識Web和社交
別和社交數(shù)據(jù)
媒體的個生物識別
性化消息 零售商可結(jié)合使用面部識別技術(shù)和來自社交媒體的照片,根據(jù)購買行為和位置向客戶提供個性化的營銷信息。 此功能對零售商忠誠度計劃具有很大的影響,但它具有嚴格的隱私限制。零售商需要在實現(xiàn)這些應(yīng)用程序之前進行適當?shù)碾[私披露。
零售商可根據(jù)位置數(shù)據(jù)為客戶提供特定的促銷活動和優(yōu)零售和營惠券。解決方案通常旨在在用戶進入一個店鋪時檢測用戶銷:移動機器生成的的位置,或者通過GPS檢測用戶的位置。 數(shù)據(jù)和基數(shù)據(jù) 位置數(shù)據(jù)與來自社交網(wǎng)絡(luò)的客戶偏好數(shù)據(jù)相結(jié)合,使零售于位置的交易數(shù)據(jù) 商能夠根據(jù)購買歷史記錄針對性地開展在線和店內(nèi)營銷目標 活動。通知是通過移動應(yīng)用程序、SMS和電子郵件提供的。
欺詐管理可預(yù)測給定交易或客戶帳戶遇到欺詐的可能性。
解決方案可實時分析事務(wù),生成建議的立即執(zhí)行的措施,
這對阻止第三方欺詐、第一方欺詐和對帳戶特權(quán)的蓄意濫
用至關(guān)重要。
解決方案通常旨在檢測和阻止多個行業(yè)的眾多欺詐和風(fēng)
險類型,其中包括:
機器生成的信用卡和借記卡欺詐 FSS、醫(yī)療數(shù)據(jù) 存款帳戶欺詐 保健:欺交易數(shù)據(jù) 技術(shù)欺詐 詐檢測 人類生成的 壞賬
醫(yī)療欺詐
醫(yī)療補助計劃和醫(yī)療保險欺詐
財產(chǎn)和災(zāi)害保險欺詐
工傷賠償欺詐
保險欺詐
電信欺詐
按類型對大數(shù)據(jù)問題分類,更容易看到每種數(shù)據(jù)的特征。這些特征可幫助我們了解如何獲取數(shù)據(jù),如何將它處理為合適的格式,以及新數(shù)據(jù)出現(xiàn)的頻率。來自不同來源的數(shù)據(jù)具有不同的特征;例如,社交媒體數(shù)據(jù)包含不斷傳入的視頻、圖像和非結(jié)構(gòu)化文本(比如博客文章)。
使用大數(shù)據(jù)類型對大數(shù)據(jù)特征進行分類。按特定方向分析大數(shù)據(jù)的特征會有所幫助,例如以下特征:數(shù)據(jù)如何收集、分析和處理。對數(shù)據(jù)進行分類后,就可以將它與合適的大數(shù)據(jù)模式匹配。
分析類型對數(shù)據(jù)執(zhí)行實時分析還是批量分析。請仔細考慮分析類型的選擇,因為這會影響一些有關(guān)產(chǎn)品、工具、硬件、數(shù)據(jù)源和預(yù)期的數(shù)據(jù)頻率的其他決策。一些用例可能需要混合使用兩種類型:欺詐檢測、分析必須實時或近實時地完成。針對戰(zhàn)略性業(yè)務(wù)決策的趨勢分析,分析可采用批量模式。
處理方法要應(yīng)用來處理數(shù)據(jù)的技術(shù)類型(比如預(yù)測、分析、臨時查詢和報告)。業(yè)務(wù)需求確定了合適的處理方法?山Y(jié)合使用各種技術(shù)。處理方法的選擇,有助于識別要在您的大數(shù)據(jù)解決方案中使用的合適的工具和技術(shù)。
數(shù)據(jù)頻率和大小—預(yù)計有多少數(shù)據(jù)和數(shù)據(jù)到達的頻率多高。知道頻率和大小,有助于確定存儲機制、存儲格式和所需的預(yù)處理工具。數(shù)據(jù)頻率和大小依賴于數(shù)據(jù)源。按需分析,與社交媒體數(shù)據(jù)一樣,實時、持續(xù)提供(天氣數(shù)據(jù)、交易數(shù)據(jù)時序。數(shù)據(jù)類型、要處理數(shù)據(jù)類型、交易、歷史、主數(shù)據(jù)等。知道數(shù)據(jù)類型,有助于將數(shù)據(jù)隔離在存儲中。
內(nèi)容格式結(jié)構(gòu)化、非結(jié)構(gòu)化或半結(jié)構(gòu)化。格式確定了需要如何處理傳入的數(shù)據(jù),這是選擇工具、技術(shù)以及從業(yè)務(wù)角度定義解決方案的關(guān)鍵。
數(shù)據(jù)源--數(shù)據(jù)的來,比如Web和社交媒體、機器生成、人類生成等。識別所有數(shù)據(jù)源有助于從業(yè)務(wù)角度識別數(shù)據(jù)范圍。該圖顯示了使用最廣泛的數(shù)據(jù)源。
數(shù)據(jù)使用者—處理的數(shù)據(jù)的所有可能使用者的列表:
圖3.1:處理的數(shù)據(jù)的所有可能使用者
硬件將在其上實現(xiàn)大數(shù)據(jù)解決方案的硬件類型,包括商用硬件或最先進的硬件。理解硬件的限制,有助于指導(dǎo)大數(shù)據(jù)解決方案的選擇。
圖3.2描繪用于分類大數(shù)據(jù)的各種類別。定義大數(shù)據(jù)模式的關(guān)鍵類別已識別并在藍色方框中突出顯示。大數(shù)據(jù)模式來自這些類別的組合。
圖3.2:大數(shù)據(jù)分類
(三)數(shù)據(jù)分析平臺架構(gòu)
隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,誰也無法否認,我們已經(jīng)切實地迎來了一個海量數(shù)據(jù)的時代,數(shù)據(jù)調(diào)查公司IDC預(yù)計2011年的數(shù)據(jù)總量將達到
1.8萬億GB,對這些海量數(shù)據(jù)的分析已經(jīng)成為一個非常重要且緊迫的需求。作為一家互聯(lián)網(wǎng)數(shù)據(jù)分析公司,我們在海量數(shù)據(jù)的分析領(lǐng)域那真是被“逼上梁山”。多年來在嚴苛的業(yè)務(wù)需求和數(shù)據(jù)壓力下,我們幾乎嘗試了所有可能的大數(shù)據(jù)分析方法,最終落地于Hadoop平臺之上。Hadoop在可伸縮性、健壯性、計算性能和成本上具有無可替代的優(yōu)勢,事實上已成為當前互聯(lián)網(wǎng)企業(yè)主流的大數(shù)據(jù)分析平臺。本文主要介紹一種基于Hadoop平臺的多維分析和數(shù)據(jù)挖掘平臺架構(gòu)。
3.3.1 大數(shù)據(jù)分析的分類
Hadoop平臺對業(yè)務(wù)的針對性較強,為了讓你明確它是否符合你的業(yè)務(wù),現(xiàn)粗略地從幾個角度將大數(shù)據(jù)分析的業(yè)務(wù)需求分類,針對不同的具體需求,應(yīng)采用不同的數(shù)據(jù)分析架構(gòu)。
(1)按照數(shù)據(jù)分析的實時性,分為實時數(shù)據(jù)分析和離線數(shù)據(jù)分析兩種。實時數(shù)據(jù)分析一般用于金融、移動和互聯(lián)網(wǎng)B2C等產(chǎn)品,往往要求在數(shù)秒內(nèi)返回上億行數(shù)據(jù)的分析,從而達到不影響用戶體驗的目的。要滿足這樣的需求,可以采用精心設(shè)計的傳統(tǒng)關(guān)系型數(shù)據(jù)庫組成并行處理集群,或者采用一些內(nèi)存計算平臺,或者采用HDD的架構(gòu),這些無疑都需要比較高的軟硬件成本。目前比較新的海量數(shù)據(jù)實時分析工具有EMC的Greenplum、SAP的HANA等。
(2)按照大數(shù)據(jù)的數(shù)據(jù)量,分為內(nèi)存級別、BI級別、海量級別三種。
這里的內(nèi)存級別指的是數(shù)據(jù)量不超過集群的內(nèi)存最大值。不要小看今天內(nèi)存的容量,F(xiàn)acebook緩存在內(nèi)存的Memcached中的數(shù)據(jù)高達320TB,而目前的PC服務(wù)器,內(nèi)存也可以超過百GB。因此可以采用一些內(nèi)存數(shù)據(jù)庫,將熱點數(shù)據(jù)常駐內(nèi)存之中,從而取得非?焖俚姆治瞿芰Γ浅_m合實時分析業(yè)務(wù)。圖1是一種實際可行的MongoDB分析架構(gòu)。
MongoDB大集群目前存在一些穩(wěn)定性問題,會發(fā)生周期性的寫堵塞和主從同步失效,但仍不失為一種潛力十足的可以用于高速數(shù)據(jù)分析的NoSQL。此外,目前大多數(shù)服務(wù)廠商都已經(jīng)推出了帶4GB以上SSD的解決方案,利用內(nèi)存+SSD,也可以輕易達到內(nèi)存分析的性能。隨著SSD的發(fā)展,內(nèi)存數(shù)據(jù)分析必然能得到更加廣泛的應(yīng)用。
而大多數(shù)統(tǒng)計分析,機器學(xué)習(xí)問題可以用MapReduce算法改寫。MapReduce目前最擅長的計算領(lǐng)域有流量統(tǒng)計、推薦引擎、趨勢分析、用戶行為分析、數(shù)據(jù)挖掘分類器、分布式索引等。
而大多數(shù)統(tǒng)計分析,機器學(xué)習(xí)問題可以用MapReduce算法改寫。MapReduce目前最擅長的計算領(lǐng)域有流量統(tǒng)計、推薦引擎、趨勢分析、用戶行為分析、數(shù)據(jù)挖掘分類器、分布式索引等。
(四)面對大數(shù)據(jù)OLAP分析的一些問題
OLAP分析需要進行大量的數(shù)據(jù)分組和表間關(guān)聯(lián),而這些顯然不是NoSQL和傳統(tǒng)數(shù)據(jù)庫的強項,往往必須使用特定的針對BI優(yōu)化的數(shù)據(jù)庫。比如絕大多數(shù)針對BI優(yōu)化的數(shù)據(jù)庫采用了列存儲或混合存儲、壓縮、延遲加載、對存儲數(shù)據(jù)塊的預(yù)統(tǒng)計、分片索引等技術(shù)。
Hadoop平臺上的OLAP分析,同樣存在這個問題,F(xiàn)acebook針對Hive開發(fā)的RCFile數(shù)據(jù)格式,就是采用了上述的一些優(yōu)化技術(shù),從而達到了較好的數(shù)據(jù)分析性能。
然而,對于Hadoop平臺來說,單單通過使用Hive模仿出SQL,對于數(shù)據(jù)分析來說遠遠不夠,首先Hive雖然將HiveQL翻譯MapReduce的時候進行了優(yōu)化,但依然效率低下。多維分析時依然要做事實表和維度表的關(guān)聯(lián),維度一多性能必然大幅下降。其次,RCFile的行列混合存儲模式,事實上限制死了數(shù)據(jù)格式,也就是說數(shù)據(jù)格式是針對特定分析預(yù)先設(shè)計好的,一旦分析的業(yè)務(wù)模型有所改動,海量數(shù)據(jù)轉(zhuǎn)換格式的代價是極其巨大的。最后,HiveQL對OLAP業(yè)務(wù)分析人員依然是非常不友善的,維度和度量才是直接針對業(yè)務(wù)人員的分析語言。
而且目前OLAP存在的最大問題是:業(yè)務(wù)靈活多變,必然導(dǎo)致業(yè)務(wù)模型隨之經(jīng)常發(fā)生變化,而業(yè)務(wù)維度和度量一旦發(fā)生變化,技術(shù)人員需要把整個Cube(多維立方體)重新定義并重新生成,業(yè)務(wù)人員只能在此Cube上進行多維分析,這樣就限制了業(yè)務(wù)人員快速改變問題分析的角度,從而使所謂的BI系統(tǒng)成為死板的日常報表系統(tǒng)。
使用Hadoop進行多維分析,首先能解決上述維度難以改變的問題,利用Hadoop中數(shù)據(jù)非結(jié)構(gòu)化的特征,采集來的數(shù)據(jù)本身就是包含大量冗余信息的。同時也可以將大量冗余的維度信息整合到事實表中,這樣可以在冗余維度下靈活地改變問題分析的角度。其次利用HadoopMapReduce強大的并行化處理能力,無論OLAP分析中的維度增加多少,開銷并不顯著增長。換言之,Hadoop可以支持一個巨大無比的Cube,包含了無數(shù)你想到或者想不到的維度,而且每次多維分析,都可以支持成千上百個維度,并不會顯著影響分析的性能。
因此,我們的大數(shù)據(jù)分析架構(gòu)在這個巨大Cube的支持下,直接把維度和度量的生成交給業(yè)務(wù)人員,由業(yè)務(wù)人員自己定義好維度和度量之后,將業(yè)務(wù)的維度和度量直接翻譯成MapReduce運行,并最終生成報表?梢院唵卫斫鉃橛脩艨焖僮远x的“MDX”(多維表達式,或者多維立方體查詢)語言→MapReduce的轉(zhuǎn)換工具。同時OLAP分析和報表結(jié)果的展示,依然兼容傳統(tǒng)的BI和報表產(chǎn)品。
一種Hadoop多維分析平臺的架構(gòu)整個架構(gòu)由四大部分組成:數(shù)據(jù)采集模塊、數(shù)據(jù)冗余模塊、維度定義模塊、并行分析模塊。如圖3.3所示。
圖3.3:Hadoop多維分析平臺架構(gòu)圖
數(shù)據(jù)采集模塊采用了Cloudera的Flume,將海量的小日志文件進行高速傳輸和合并,并能夠確保數(shù)據(jù)的傳輸安全性。單個collector宕機之后,數(shù)據(jù)也不會丟失,并能將agent數(shù)據(jù)自動轉(zhuǎn)移到其他的colllecter處理,不會影響整個采集系統(tǒng)的運行。
數(shù)據(jù)冗余模塊不是必須的,但如果日志數(shù)據(jù)中沒有足夠的維度信息,或者需要比較頻繁地增加維度,則需要定義數(shù)據(jù)冗余模塊。通過冗余維度定義器定義需要冗余的維度信息和來源(數(shù)據(jù)庫、文件、內(nèi)存等),并指定擴展方式,將信息寫入數(shù)據(jù)日志中。在海量數(shù)據(jù)下,數(shù)據(jù)冗余模塊往往成為整個系統(tǒng)的瓶頸,建議使用一些比較快的內(nèi)存NoSQL來冗余原始數(shù)據(jù),并采用盡可能多的節(jié)點進行并行冗余;或者也完全可以在Hadoop中執(zhí)行批量Map,進行數(shù)據(jù)格式的轉(zhuǎn)化。
維度定義模塊是面向業(yè)務(wù)用戶的前端模塊,用戶通過可視化的定義器從數(shù)據(jù)日志中定義維度和度量,并能自動生成一種多維分析語言,同時可以使用可視化的分析器通過GUI執(zhí)行剛剛定義好的多維分析命令。
并行分析模塊接受用戶提交的多維分析命令,并將通過核心模塊將該命令解析為Map-Reduce,提交給Hadoop集群之后,生成報表供報表中心展示。
核心模塊是將多維分析語言轉(zhuǎn)化為MapReduce的解析器,讀取用戶定義的維度和度量,將用戶的多維分析命令翻譯成MapReduce程序。
根據(jù)JobConf參數(shù)進行Map和Reduce類的拼裝并不復(fù)雜,難點是很多實際問題很難通過一個MapReduce解決,必須通過多個MapReduceJob組成工作流(WorkFlow),這里是最需要根據(jù)業(yè)務(wù)進行定制的部分。
MapReduce的輸出一般是統(tǒng)計分析的結(jié)果,數(shù)據(jù)量相較于輸入的海量數(shù)據(jù)會小很多,這樣就可以導(dǎo)入傳統(tǒng)的數(shù)據(jù)報表產(chǎn)品中進行展現(xiàn)。
當然,這樣的多維分析架構(gòu)也不是沒有缺點。由于MapReduce本身就是以蠻力去掃描大部分數(shù)據(jù)進行計算,因此無法像傳統(tǒng)BI產(chǎn)品一樣對條件查詢做優(yōu)化,也沒有緩存的概念。往往很多很小的查詢需要“興師動眾”。盡管如此,開源的Hadoop還是解決了很多人在大數(shù)據(jù)下的分析問題,真可謂是“功德無量”。Hadoop集群軟硬件的花費極低,每GB存儲和計算的成本是其他企業(yè)級產(chǎn)品的百分之一甚至千分之一,性能卻非常出色。我們可以輕松地進行千億乃至萬億數(shù)據(jù)級別的多維統(tǒng)計分析和機器學(xué)習(xí)。
四、大數(shù)據(jù)可視化理論及技術(shù)
(一)大數(shù)據(jù)可視分析綜述
可視分析是大數(shù)據(jù)分析的重要方法。大數(shù)據(jù)可視分析旨在利用計算機自動化分析能力的同時,充分挖掘人對于可視化信息的認知能力優(yōu)勢,將人、機的各自強項進行有機融合,借助人機交互式分析方法和交互技術(shù),輔助人們更為直觀和高效地洞悉大數(shù)據(jù)背后的信息、知識與智慧。主要從可視分析領(lǐng)域所強調(diào)的認知、可視化、人機交互的綜合視角出發(fā),分析了支持大數(shù)據(jù)可視分析的基礎(chǔ)理論,包括支持分析過程的認知理論、信息可視化理論、人機交互與用戶界面理論。在此基礎(chǔ)上,討論了面向大數(shù)據(jù)主流應(yīng)用的信息可視化技術(shù)——面向文本、網(wǎng)絡(luò)(圖)、時空、多維的可視化技術(shù)。同時探討了支持可視分析的人機交互技術(shù),包括支持可視分析過程的界面隱喻與交互組件、多尺度/多焦點/多側(cè)面交互技術(shù)、面向Post-WIMP的自然交互技術(shù)。最后,指出了大數(shù)據(jù)可視分析領(lǐng)域面臨的瓶頸問題與技術(shù)挑戰(zhàn)。
(二)大數(shù)據(jù)分析工具
大數(shù)據(jù)是一個含義廣泛的術(shù)語,是指數(shù)據(jù)集,如此龐大而復(fù)雜的,他們需要專門設(shè)計的硬件和軟件工具進行處理。該數(shù)據(jù)集通常是萬億或EB的大小。這些
數(shù)據(jù)集收集自各種各樣的來源:傳感器,氣候信息,公開的信息,如雜志,報紙,文章。大數(shù)據(jù)產(chǎn)生的其他例子包括購買交易記錄,網(wǎng)絡(luò)日志,病歷,軍事監(jiān)控,視頻和圖像檔案,及大型電子商務(wù)。
在大數(shù)據(jù)和大數(shù)據(jù)分析,他們對企業(yè)的影響有一個興趣高漲。大數(shù)據(jù)分析是研究大量的數(shù)據(jù)的過程中尋找模式,相關(guān)性和其他有用的信息,可以幫助企業(yè)更好地適應(yīng)變化,并做出更明智的決策。大數(shù)據(jù)分析的常用工具通常有以下介紹的幾種。
4.2.1Hadoop
Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架。但是Hadoop是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop是可靠的,因為它假設(shè)計算元素和存儲會失敗,因此它維護多個工作數(shù)據(jù)副本,確保能夠針對失敗的節(jié)點重新分布處理。Hadoop是高效的,因為它以并行的方式工作,通過并行處理加快處理速度。Hadoop還是可伸縮的,能夠處理PB級數(shù)據(jù)。此外,Hadoop依賴于社區(qū)服務(wù)器,因此它的成本比較低,任何人都可以使用。
Hadoop帶有用Java語言編寫的框架,因此運行在Linux生產(chǎn)平臺上是非常理想的。
Hadoop上的應(yīng)用程序也可以使用其他語言編寫,比如C++。
4.2.2HPCC
HPCC,HighPerformanceComputing andCommunications(高性能計算與通信)的縮寫。1993年,由美國科學(xué)、工程、技術(shù)聯(lián)邦協(xié)調(diào)理事會向國會提交了“重大挑戰(zhàn)項目:高性能計算與通信”的報告,也就是被稱為HPCC計劃的報告,即美國總統(tǒng)科學(xué)戰(zhàn)略項目,其目的是通過加強研究與開發(fā)解決一批重要的科學(xué)與技術(shù)挑戰(zhàn)問題。HPCC是美國實施信息高速公路而上實施的計劃,該計劃的實施將耗資百億美元,其主要目標要達到:開發(fā)可擴展的計算系統(tǒng)及相關(guān)軟件,以支持太位級網(wǎng)絡(luò)傳輸性能,開發(fā)千兆比特網(wǎng)絡(luò)技術(shù),擴展研究和教育機構(gòu)及網(wǎng)絡(luò)連接能力。
該項目主要由五部分組成:
高性能計算機系統(tǒng)(HPCS),內(nèi)容包括今后幾代計算機系統(tǒng)的研究、系統(tǒng)設(shè)計工具、先進的典型系統(tǒng)及原有系統(tǒng)的評價等;
先進軟件技術(shù)與算法(ASTA),內(nèi)容有巨大挑戰(zhàn)問題的軟件支撐、新算法設(shè)計、軟件分支與工具、計算計算及高性能計算研究中心等;
國家科研與教育網(wǎng)格(NREN),內(nèi)容有中接站及10億位級傳輸?shù)难芯颗c開發(fā); 基本研究與人類資源(BRHR),內(nèi)容有基礎(chǔ)研究、培訓(xùn)、教育及課程教材,被設(shè)計通過獎勵調(diào)查者-開始的,長期的調(diào)查在可升級的高性能計算中來增加創(chuàng)新意識流,通過提高教育和高性能的計算訓(xùn)練和通信來加大熟練的和訓(xùn)練有素的人員的聯(lián)營,和來提供必需的基礎(chǔ)架構(gòu)來支持這些調(diào)查和研究活動;
信息基礎(chǔ)結(jié)構(gòu)技術(shù)和應(yīng)用(IITA),目的在于保證美國在先進信息技術(shù)開發(fā)方面的領(lǐng)先地位。
4.2.3Storm Storm是自由的開源軟件,一個分布式的、容錯的實時計算系統(tǒng)。Storm可以非常可靠的處理龐大的數(shù)據(jù)流,用于處理Hadoop的批量數(shù)據(jù)。Storm很簡單,
支持許多種編程語言,使用起來非常有趣。Storm由Twitter開源而來,其它知名的應(yīng)用企業(yè)包括Groupon、淘寶、支付寶、阿里巴巴、樂元素、Admaster等等。
Storm有許多應(yīng)用領(lǐng)域:實時分析、在線機器學(xué)習(xí)、不停頓的計算、分布式RPC(遠過程調(diào)用協(xié)議,一種通過網(wǎng)絡(luò)從遠程計算機程序上請求服務(wù))、ETL(Extraction-Transformation-Loading的縮寫,即數(shù)據(jù)抽取、轉(zhuǎn)換和加載)等等。Storm的處理速度驚人:經(jīng)測試,每個節(jié)點每秒鐘可以處理100萬個數(shù)據(jù)元組。Storm是可擴展、容錯,很容易設(shè)置和操作。
4.2.4ApacheDrill 為了幫助企業(yè)用戶尋找更為有效、加快Hadoop數(shù)據(jù)查詢的方法,Apache軟件基金會近日發(fā)起了一項名為“Drill”的開源項目。ApacheDrill實現(xiàn)了Google'sDremel。
據(jù)Hadoop廠商MapRTechnologies公司產(chǎn)品經(jīng)理TomerShiran介紹,“Drill”已經(jīng)作為Apache孵化器項目來運作,將面向全球軟件工程師持續(xù)推廣。該項目將會創(chuàng)建出開源版本的谷歌DremelHadoop工具(谷歌使用該工具來為Hadoop數(shù)據(jù)分析工具的互聯(lián)網(wǎng)應(yīng)用提速)。而“Drill”將有助于Hadoop用戶實現(xiàn)更快查詢海量數(shù)據(jù)集的目的。
“Drill”項目其實也是從谷歌的Dremel項目中獲得靈感:該項目幫助谷歌實現(xiàn)海量數(shù)據(jù)集的分析處理,包括分析抓取Web文檔、跟蹤安裝在AndroidMarket上的應(yīng)用程序數(shù)據(jù)、分析垃圾郵件、分析谷歌分布式構(gòu)建系統(tǒng)上的測試結(jié)果等等。
通過開發(fā)“Drill”Apache開源項目,組織機構(gòu)將有望建立Drill所屬的API接口和靈活強大的體系架構(gòu),從而幫助支持廣泛的數(shù)據(jù)源、數(shù)據(jù)格式和查詢語言。
4.2.5RapidMiner
RapidMiner是世界領(lǐng)先的數(shù)據(jù)挖掘解決方案,在一個非常大的程度上有著先進技術(shù)。它數(shù)據(jù)挖掘任務(wù)涉及范圍廣泛,包括各種數(shù)據(jù)藝術(shù),能簡化數(shù)據(jù)挖掘過程的設(shè)計和評價。
4.2.6PentahoBI PentahoBI平臺不同于傳統(tǒng)的BI產(chǎn)品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在于將一系列企業(yè)級BI產(chǎn)品、開源軟件、API等等組件集成起來,方便商務(wù)智能應(yīng)用的開發(fā)。它的出現(xiàn),使得一系列的面向商務(wù)智能的獨立產(chǎn)品如Jfree、Quartz等等,能夠集成在一起,構(gòu)成一項項復(fù)雜的、完整的商務(wù)智能解決方案。
PentahoSDK共包含五個部分:Pentaho平臺、Pentaho示例數(shù)據(jù)庫、可獨立運行的Pentaho平臺、Pentaho解決方案示例和一個預(yù)先配制好的Pentaho網(wǎng)絡(luò)服務(wù)器。其中Pentaho平臺是Pentaho平臺最主要的部分,囊括了Pentaho平臺源代碼的主體;Pentaho數(shù)據(jù)庫為Pentaho平臺的正常運行提供的數(shù)據(jù)服務(wù),包括配置信息、Solution相關(guān)的信息等等,對于Pentaho平臺來說它不是必須的,通過配置是可以用其它數(shù)據(jù)庫服務(wù)取代的;可獨立運行的Pentaho平臺是Pentaho平臺的獨立運行模式的示例,它演示了如何使Pentaho平臺在沒有應(yīng)用服務(wù)器支持的情況下獨立運行;Pentaho解決方案示例是一個Eclipse工程,用來演示如何為Pentaho平臺開發(fā)相關(guān)的商業(yè)智能解決方案。
PentahoBI平臺構(gòu)建于服務(wù)器,引擎和組件的基礎(chǔ)之上。這些提供了系統(tǒng)的J2EE服務(wù)器,安全,portal,工作流,規(guī)則引擎,圖表,協(xié)作,內(nèi)容管理,數(shù)據(jù)集成,分析和建模功能。這些組件的大部分是基于標準的,可使用其他產(chǎn)品替換之。
(三)數(shù)據(jù)化可視化分析綜述
4.3.1信息可視化、人機交互、可視分析的基本概念
Card等人對信息可視化的定義為:對抽象數(shù)據(jù)使用計算機支持的、交互的、可視化的表示形式以增強認知能力。與傳統(tǒng)計算機圖形學(xué)以及科學(xué)可視化研究不同,信息可視化的研究重點更加側(cè)重于通過可視化圖形呈現(xiàn)數(shù)據(jù)中隱含的信息和規(guī)律,所研究的創(chuàng)新性可視化表征旨在建立符合人的認知規(guī)律的心理映像。經(jīng)過20余年的發(fā)展,信息可視化已經(jīng)成為人們分析復(fù)雜問題的強有力工具。
人機交互的定義為:人與系統(tǒng)之間通過某種對話語言,在一定的交互方式和技術(shù)支持下的信息交換過程。其中的系統(tǒng)可以是各類機器,也可以是計算機和軟件。用戶界面或人機界面指的是人機交互所依托的介質(zhì)和對話接口,通常包含硬件和軟件系統(tǒng)。
信息可視化的概念最早即是在ACM“用戶界面軟件與技術(shù)”會議中提出,其本質(zhì)是一種交互式的圖形用戶界面范型。人機交互的發(fā)展一方面強調(diào)研究智能化的用戶界面,將計算機系統(tǒng)變成一個有思想、有個性、有觀點的智能機器人;另一方面強調(diào)充分利用計算機系統(tǒng)和人各自的優(yōu)勢,彌補彼此的不足,共同協(xié)作來分析和解決問題。
大數(shù)據(jù)可視分析是指在大數(shù)據(jù)自動分析挖掘方法的同時,利用支持信息可視化的用戶界面以及支持分析過程的人機交互方式與技術(shù),有效融合計算機的計算能力和人的認知能力,以獲得對于大規(guī)模復(fù)雜數(shù)據(jù)集的洞察力。
4.3.2支持可視分析的基礎(chǔ)理論
可視化分析需要有多樣的理論支持,而其中支持分析的主要認知理論模型、意義建構(gòu)理論模型、人機交互分析過程的用戶認知模型、分布式認知理論、信息可視化理論模型、信息可視化理論模型、人機交互與用戶界面理論模型等,這些為大數(shù)據(jù)的可視化處理的實現(xiàn)提供了堅實的理論基礎(chǔ)。
4.3.3面向大數(shù)據(jù)主流應(yīng)用的信息可視化技術(shù)
大數(shù)據(jù)可視化技術(shù)涉及傳統(tǒng)的科學(xué)可視化和信息可視化,從大數(shù)據(jù)分析將掘取信息和洞悉知識作為目標的角度出發(fā),信息可視化技術(shù)將在大數(shù)據(jù)可視化中扮演更為重要的角色。Shneiderman根據(jù)信息的特征把信息可視化技術(shù)分為一維信息(1-dimensional)、二維信息(2-dimensional)、三維信息(3-dimensional)、多維信息(multi-dimensional)、層次信息(tree)、網(wǎng)絡(luò)信息(network)、時序信息(temporal)可視化20年來,研究者圍繞著上述信息類型提出眾多的信息可視化新方法和新技術(shù),并獲得了廣泛的應(yīng)用。
隨著大數(shù)據(jù)的興起與發(fā)展,互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、地理信息系統(tǒng)、企業(yè)商業(yè)智能、社會公共服務(wù)等主流應(yīng)用領(lǐng)域逐漸催生了幾類特征鮮明的信息類型,主要包
括文本、網(wǎng)絡(luò)或圖、時空、及多維數(shù)據(jù)等。這些與大數(shù)據(jù)密切相關(guān)的信息類型與Shneiderman的分類交叉融合,將成為大數(shù)據(jù)可視化的主要研究領(lǐng)域。
表4.1:可視化的分類比較
4.3.4支持可視分析的人機交互技術(shù)
信息可視化中的人機交互技術(shù)主要可概括為5類:動態(tài)過濾技術(shù)與動態(tài)過濾
用戶界面、整體+詳細技術(shù)與用戶界面、平移+縮放技術(shù)與可縮放用戶界面(ZUI)、焦點+上下文技術(shù)與用戶界面、多視圖關(guān)聯(lián)協(xié)調(diào)技術(shù)與關(guān)聯(lián)多視圖用戶界面。根據(jù)上面對可視分析相關(guān)的任務(wù)建模的討論,大數(shù)據(jù)可視分析中涉及的人機交互技術(shù)在融合與發(fā)展上述幾大類交互基礎(chǔ)之上,還需要重點研究對可視分析推理過程提供界面支持的人機交互技術(shù)以及更符合分析過程認知理論的自然、高效的人機交互技術(shù)。
(四)數(shù)據(jù)可視化的問題與挑戰(zhàn)
大數(shù)據(jù)在可視化的發(fā)展過程中也面臨著以下的問題和挑戰(zhàn)。 (1)多源、異構(gòu)、非完整、非一致、非準確數(shù)據(jù)的集成與接口
大數(shù)據(jù)可視化與可視分析所依賴的基礎(chǔ)是數(shù)據(jù),而大數(shù)據(jù)時代數(shù)據(jù)的來源眾多,且多來自于異構(gòu)環(huán)境。即使獲得數(shù)據(jù)源,得到的數(shù)據(jù)的完整性、一致性、準確性都難以保證,數(shù)據(jù)質(zhì)量的不確定問題將直接影響可視分析的科學(xué)性和準確性。大數(shù)據(jù)可視化的前提是建立在集成的數(shù)據(jù)接口,并且與可視分析系統(tǒng)形成松耦合的接口關(guān)系,以供各種可視化算法方便的調(diào)用,使得可視分析系統(tǒng)的研發(fā)者和使用者不需要關(guān)系數(shù)據(jù)接口背后的復(fù)雜機理?梢,大數(shù)據(jù)的集成和接口問題將是大數(shù)據(jù)可視分析面臨的第一個挑戰(zhàn)。
(2)匹配心理映像的可視化表征設(shè)計與評估
科學(xué)/信息可視化領(lǐng)域經(jīng)過幾十年的發(fā)展,積累了大量各具特色的可視化表征,這將為大數(shù)據(jù)可視化提供有力的支持。然而,絕大多數(shù)在當時看來創(chuàng)新的可視化技術(shù),只能被少部分研究人員所接收,卻難以獲得廣泛的認可和應(yīng)用。原因在于:大量的可視化表征的創(chuàng)造僅僅在于追求技術(shù)角度的創(chuàng)新,而忽視了可視化尤其是信息可視化領(lǐng)域的本源——符合人的認知規(guī)律和心理映像。針對大數(shù)據(jù)所固有的特點,未來仍將涌現(xiàn)更多的可視化表征。
(3)最大限度發(fā)揮人、機各自優(yōu)勢的人機交互與最優(yōu)化協(xié)作求解
如前所述,人和機器各自擁有無可替代的優(yōu)勢,人具有機器所不具備的視覺系統(tǒng)以及強大的感知認知能力,并且具有非邏輯理性的直覺判斷和分析解讀能力,但是人的工作記憶卻只有7個左右的信息塊;而計算機擁有巨大的存儲系統(tǒng)和強大的數(shù)據(jù)處理能力,能夠根據(jù)數(shù)據(jù)挖掘模型在短時間內(nèi)完成大規(guī)模的計算量。因
此,大數(shù)據(jù)可視分析的過程就是充分利用各自優(yōu)勢并且緊密協(xié)作的過程。然而,目前大數(shù)據(jù)可視分析領(lǐng)域仍未能十分清晰和細致地界定在問題分析過程中,人機交互的多層次多粒度任務(wù)應(yīng)該如何最優(yōu)化地分布在人、機兩側(cè)。而且,目前正處于從WIMP走向Post-WIMP的過渡期,各種交互技術(shù)如何最優(yōu)的匹配具體的分析任務(wù),仍有待深入的研究與驗證。
(4)以用戶為中心的系統(tǒng)設(shè)計與開發(fā)方法論、框架以及工具
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算的迅猛發(fā)展,數(shù)據(jù)隨處可見、觸手可及。政府的政策制定、經(jīng)濟與社會的發(fā)展、企業(yè)的生存與競爭以及每個人日常生活的衣食住行無不與大數(shù)據(jù)有關(guān)。因此,未來任何領(lǐng)域的普通個人均存在著大數(shù)據(jù)分析的需求!叭巳硕级髷(shù)據(jù)、人人都能可視化”將是大數(shù)據(jù)領(lǐng)域的發(fā)展目標之一?梢暬I(lǐng)域大量極具潛力的創(chuàng)新技術(shù),之所以未能從學(xué)術(shù)界推廣至產(chǎn)業(yè)界,一個重要的原因是缺乏簡單易行的、以用戶為中心的系統(tǒng)設(shè)計與開發(fā)方法論、框架以及工具。具體應(yīng)用領(lǐng)域的用戶往往不懂看似高深的可視化和交互技術(shù),他們通常只提出問題需求或提供大數(shù)據(jù)。如何能使得最終用戶快捷方便地、自助式地實現(xiàn)大數(shù)據(jù)可視分析系統(tǒng),滿足自己的個性化需求,將是大數(shù)據(jù)可視分析走向大范圍應(yīng)用并充分發(fā)揮價值的關(guān)鍵。
(5)可擴展性問題
大數(shù)據(jù)的數(shù)據(jù)規(guī)模目前已經(jīng)呈現(xiàn)爆炸式增長,數(shù)據(jù)量的無限積累與數(shù)據(jù)的持續(xù)演化,導(dǎo)致普通計算機的處理能力難以達到理想的范圍。同時,主流顯示設(shè)備的像素數(shù)也難以跟上大數(shù)據(jù)增長的腳步,造成像素的總和還不如要可視化的數(shù)據(jù)多。而且,大量在較小的數(shù)據(jù)規(guī)模下可行的可視化技術(shù)在面臨極端大規(guī)模數(shù)據(jù)時將無能為力。然而,大數(shù)據(jù)可視分析系統(tǒng)應(yīng)具有很好的可擴展性,即感知擴展性和交互擴展性只取決于可視化的精度而不依賴數(shù)據(jù)規(guī)模的大小,以支持實時的可視化與交互操作。因此,未來如何對于超高維數(shù)據(jù)的降維以降低數(shù)據(jù)規(guī)模、如何結(jié)合大規(guī)模并行處理方法與超級計算機、如何將目前有價值的可視化算法和人機交互技術(shù)提升和拓展到大數(shù)據(jù)領(lǐng)域,將是未來最嚴峻的挑戰(zhàn)。
五、大數(shù)據(jù)應(yīng)用及職業(yè)定位
大數(shù)據(jù)應(yīng)用,是利用大數(shù)據(jù)分析的結(jié)果!為用戶提供輔助決策!發(fā)掘潛在價值的過程。在說大數(shù)據(jù)的應(yīng)用之前,讓我們先來說說大數(shù)據(jù)與大規(guī)模數(shù)據(jù)、海量數(shù)據(jù)的差別:
從對象角度看,大數(shù)據(jù)是大小超出典型數(shù)據(jù)庫軟件采集、儲存、管理和分析等能力的數(shù)據(jù)集合。需要注意的是,大數(shù)據(jù)并非大量數(shù)據(jù)的簡單無意義的堆積,數(shù)據(jù)量大并不意味著一定具有可觀的利用前景。由于最終目標是從大數(shù)據(jù)中獲取更多有價值的“新”信息,所以必然要求這些大量的數(shù)據(jù)之間存在著或遠或近、或直接或間接的關(guān)聯(lián)性,才具有相當?shù)姆治鐾诰騼r值。數(shù)據(jù)間是否具有結(jié)構(gòu)性和關(guān)聯(lián)性,是“大數(shù)據(jù)”與“大規(guī)模數(shù)據(jù)”的重要差別。
從技術(shù)角度看,大數(shù)據(jù)技術(shù)是從各種各樣類型的大數(shù)據(jù)中,快速獲得有價值信息的技術(shù)及其集成!按髷(shù)據(jù)”與“大規(guī)模數(shù)據(jù)”、“海量數(shù)據(jù)”等類似概念間的最大區(qū)別,就在于“大數(shù)據(jù)”這一概念中包含著對數(shù)據(jù)對象的處理行為。為了能夠完成這一行為,從大數(shù)據(jù)對象中快速挖掘更多有價值的信息,使大數(shù)據(jù)“活起來”,就需要綜合運用靈活的、多學(xué)科的方法,包括數(shù)據(jù)聚類、數(shù)據(jù)挖掘、分布式處理等,而這就需要擁有對各類技術(shù)、各類軟硬件的集成應(yīng)用能力。可見,大數(shù)據(jù)技術(shù)是使大數(shù)據(jù)中所蘊含的價值得以發(fā)掘和展現(xiàn)的重要工具。
從應(yīng)用角度看,大數(shù)據(jù)是對特定的大數(shù)據(jù)集合、集成應(yīng)用大數(shù)據(jù)技術(shù)、獲得有價值信息的行為。正由于與具體應(yīng)用緊密聯(lián)系,甚至是一對一的聯(lián)系,才使得“應(yīng)用”成為大數(shù)據(jù)不可或缺的內(nèi)涵之一。
需要明確的是,大數(shù)據(jù)分析處理的最終目標,是從復(fù)雜的數(shù)據(jù)集合中發(fā)現(xiàn)新的關(guān)聯(lián)規(guī)則,繼而進行深度挖掘,得到有效用的新信息。如果數(shù)據(jù)量不小,但數(shù)據(jù)結(jié)構(gòu)簡單,重復(fù)性高,分析處理需求也僅僅是根據(jù)已有規(guī)則進行數(shù)據(jù)分組歸類,未與具體業(yè)務(wù)緊密結(jié)合,依靠已有基本數(shù)據(jù)分析處理技術(shù)已足夠,則不能算作是完全的“大數(shù)據(jù)”,只是“大數(shù)據(jù)”的初級發(fā)展階段。
(一)大數(shù)據(jù)應(yīng)用
大數(shù)據(jù)的類型大致可分為三類:
33
(1)傳統(tǒng)企業(yè)數(shù)據(jù)(Traditionalenterprisedata):包括CRMsystems的消費者數(shù)據(jù),傳統(tǒng)的ERP數(shù)據(jù),庫存數(shù)據(jù)以及賬目數(shù)據(jù)等;
(2)機器和傳感器數(shù)據(jù)(Machine-generated/sensordata):包括呼叫記錄(CallDetailRecords),智能儀表,工業(yè)設(shè)備傳感器,設(shè)備日志(通常是Digitalexhaust),交易數(shù)據(jù)等;
(3)社交數(shù)據(jù)(Socialdata):包括用戶行為記錄,反饋數(shù)據(jù)等。如Twitter,F(xiàn)acebook這樣的社交媒體平臺。
從三大產(chǎn)業(yè)的角度將大數(shù)據(jù)的核心商業(yè)價值分類討論。大數(shù)據(jù)應(yīng)用,是利用大數(shù)據(jù)分析的結(jié)果,為用戶提供輔助決策,發(fā)掘潛在價值的過程。從理論上來看:所有產(chǎn)業(yè)都會從大數(shù)據(jù)的發(fā)展中受益。但由于數(shù)據(jù)缺乏以及從業(yè)人員本身的原因,第一、第二產(chǎn)業(yè)的發(fā)展速度相對于第三產(chǎn)業(yè)來說會遲緩一些。
各個行業(yè)利用大數(shù)據(jù)價值的難易度以及發(fā)展?jié)摿σ约癘penData時代里七大行業(yè)潛在的經(jīng)濟價值,自上而下分別是教育,運輸,消費品、電力、石油與天然氣、醫(yī)療護理、消費金融。
5.1面向在線社交網(wǎng)絡(luò)大數(shù)據(jù)的應(yīng)用
在線社交網(wǎng)絡(luò),是一種在信息網(wǎng)絡(luò)上由社會個體集合及個體之間的連接關(guān)系構(gòu)成的社會性結(jié)構(gòu)。在線社交網(wǎng)絡(luò)大數(shù)據(jù)主要來自即時消息、在線社交、微博和共享空間4類應(yīng)用。由于在線社交網(wǎng)絡(luò)大數(shù)據(jù)代表了人的各類活動,因此對于此類數(shù)據(jù)的分析得到了更多關(guān)注。在線社交網(wǎng)絡(luò)大數(shù)據(jù)分析是從網(wǎng)絡(luò)結(jié)構(gòu)、群體互動和信息傳播3個維度,通過基于數(shù)學(xué)、信息學(xué)、社會學(xué)、管理學(xué)等多個學(xué)科的融合理論和方法,為理解人類社會中存在的各種關(guān)系提供的一種可計算的分析方法。目前,在線社交網(wǎng)絡(luò)大數(shù)據(jù)的應(yīng)用包括網(wǎng)絡(luò)輿情分析、網(wǎng)絡(luò)情報搜集與分析、社會化營銷、政府決策支持、在線教育等。
2013年4月,美國計算搜索引擎WolframAlpha,通過對Facebook中100多萬美國用戶社交數(shù)據(jù)進行分析,試圖研究用戶的社會行為規(guī)律。根據(jù)分析發(fā)現(xiàn),大部分Facebook用戶在20歲出頭時開始戀愛,27歲左右時訂婚,30歲左右結(jié)婚,而30~60歲之間,婚姻關(guān)系變化緩慢。這個研究結(jié)果與美國人口普查數(shù)據(jù)相比,幾乎完全一致。
34
總得說來,在線社交網(wǎng)絡(luò)大數(shù)據(jù)應(yīng)用可以從以下3方而幫助我們了解人的行為,以及掌握社會和經(jīng)濟活動的變化規(guī)律:(1)前期警告,通過檢測用戶使用電子設(shè)備及服務(wù)中出現(xiàn)的異常,在出現(xiàn)危機時可以更快速地應(yīng)對。(2)實時監(jiān)控,通過對用戶當前行為、情感和意愿等方而的監(jiān)控,可以為政策和方案的制定提供準確的信息。(3)實時反饋,在實時監(jiān)控的基礎(chǔ)上,可以針對某些社會活動獲得群體的反饋信息。
5.2醫(yī)療健康大數(shù)據(jù)應(yīng)用 醫(yī)療健康數(shù)據(jù)是持續(xù)、高增長的復(fù)雜數(shù)據(jù),蘊涵的信息價值也是豐富多樣。對其進行有效的存儲、處理、查詢和分析,可以開發(fā)出其潛在價值。對于醫(yī)療大數(shù)據(jù)的應(yīng)用,將會深遠的影響人類的健康。
谷歌有一個名為“谷歌流感趨勢”的工具,它通過跟蹤搜索詞相關(guān)數(shù)據(jù)來判斷全美地區(qū)的流感情況(比如患者會搜索流感兩個字)。近日,這個工具發(fā)出警告,全美的流感已經(jīng)進入“緊張”級別。它對于健康服務(wù)產(chǎn)業(yè)和流行病專家來說是非常有用的,因為它的時效性極強,能夠很好地幫助到疾病暴發(fā)的跟蹤和處理。事實也證明,通過海量搜索詞的跟蹤獲得的趨勢報告是很有說服力的,僅波士頓地區(qū),就有700例流感得到確認,該地區(qū)目前已宣布進入公共健康緊急狀態(tài)。
這個工具工作的原理大致是這樣的:設(shè)計人員置入了一些關(guān)鍵詞(比如溫度計、流感癥狀、肌肉疼痛、胸悶等),只要用戶輸入這些關(guān)鍵詞,系統(tǒng)就會展開跟蹤分析,創(chuàng)建地區(qū)流感圖表和流感地圖。谷歌多次把測試結(jié)果(藍線)與美國疾病控制和預(yù)防中心的報告(黃線)做比對,從圖1-1可知,兩者結(jié)論存在很大相關(guān)性。
谷歌把測試結(jié)果(藍線)與美國疾病控制和預(yù)防中心的報告(黃線)做比對但它比線下收集的報告強在“時效性”上,因為患者只要一旦自覺有流感癥狀,在搜索和去醫(yī)院就診這兩件事上,前者通常是他首先會去做的。就醫(yī)很麻煩而且價格不菲,如果能自己通過搜索來尋找到一些自我救助的方案,人們就會第一時間使用搜索引擎。故而,還存在一種可能是,醫(yī)院或官方收集到的病例只能說明一小部分重病患者,輕度患者是不會去醫(yī)院而成為它們的樣本的。
35
SetonHealthcare是采用IBM最新沃森技術(shù)醫(yī)療保健內(nèi)容分析預(yù)測的首個客戶。該技術(shù)允許企業(yè)找到大量病人相關(guān)的臨床醫(yī)療信息,通過大數(shù)據(jù)處理,更好地分析病人的信息。
在加拿大多倫多的一家醫(yī)院,針對早產(chǎn)嬰兒,每秒鐘有超過3000次的數(shù)據(jù)讀取。通過這些數(shù)據(jù)分析,醫(yī)院能夠??知道哪些早產(chǎn)兒出現(xiàn)問題并且有針對性地采取措施,避免早產(chǎn)嬰兒夭折。
大數(shù)據(jù)讓更多的創(chuàng)業(yè)者更方便地開發(fā)產(chǎn)品,比如通過社交網(wǎng)絡(luò)來收集數(shù)據(jù)的健康類App。也許未來數(shù)年后,它們搜集的數(shù)據(jù)能讓醫(yī)生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測到你的血液中藥劑已經(jīng)代謝完成會自動??你再次服藥。
5.3群智感知大數(shù)據(jù)的應(yīng)用 隨著技術(shù)的發(fā)展,智能手機和平板電腦等移動設(shè)備集成了越來越多的傳感器,計算和感知能力也愈發(fā)強大。在移動設(shè)備被廣泛使用的背景下,群智感知開始成為移動計算領(lǐng)域的應(yīng)用熱點。大量用戶使用移動智能設(shè)備作為基本節(jié)點,通過藍牙、無線網(wǎng)絡(luò)和移動互聯(lián)網(wǎng)等方式進行協(xié)作,分發(fā)感知任務(wù)分發(fā),收集、利用感知數(shù)據(jù),最終完成大規(guī)模的、復(fù)雜的社會感知任務(wù)。群智感知對參與者的要求很低,用戶并不需要相關(guān)的專業(yè)知識或技能,只需擁有一臺移動智能設(shè)備。
眾包(crowdsourcing)是一種極具代表性的群智感知模式,是一種新型的解決問題的方式。眾包以用戶為基礎(chǔ),以自由參與的方式分發(fā)任務(wù)。目前眾包己經(jīng)被運用于人力密集的應(yīng)用,如語言翻譯、語音識別、圖像地理信息標記、定位與導(dǎo)航、城市道路交通感知、市場預(yù)測、意見挖掘等。眾包的核心思想是將任務(wù)分而治之,通過參與者的協(xié)作來完成個體不可能或者說根本想不到要完成的任務(wù)。無需部署感知模塊和雇傭?qū)I(yè)人員,眾包就可以將感知范圍擴展至城市規(guī)模甚至更大。
其實,眾包的應(yīng)用早于大數(shù)據(jù)的興起,寶潔、寶馬、奧迪等許多公司都曾借助眾包提升自身的研發(fā)和設(shè)計能力。而在大數(shù)據(jù)時代,空間眾包服務(wù)(spatialcrowdsourcing)成為了大家關(guān)注的熱點?臻g眾包服務(wù)的工作框架如下:服務(wù)請求方要求獲取與特定地點相關(guān)的資源,而愿意接受任務(wù)請求的參與者
36
將到達指定地點,利用移動設(shè)備獲取相關(guān)數(shù)據(jù)(視頻、音頻或圖片),最后將這些數(shù)據(jù)發(fā)送給服務(wù)請求方。隨著移動設(shè)備使用的高速增長以及移動設(shè)備提供的功能越來越復(fù)雜,可以預(yù)見空間眾包將會變得比傳統(tǒng)形式的眾包服務(wù)更加流行,如AmazonTurk和Crowdflower。
5.4智能電網(wǎng)大數(shù)據(jù)的應(yīng)用 智能電網(wǎng),是指將現(xiàn)代信息技術(shù)融入傳統(tǒng)能源網(wǎng)絡(luò)構(gòu)成新的電網(wǎng),通過用戶的用電習(xí)慣等信息,優(yōu)化電能的生產(chǎn)、供給和消耗,是大數(shù)據(jù)在電力系統(tǒng)上的應(yīng)用。智能電網(wǎng)可以解決以下幾方而的問題:
(1)電網(wǎng)規(guī)劃:通過對智能電網(wǎng)中的數(shù)據(jù)進行分析,可以知道哪些地區(qū)的用電負荷和停電頻率過高,甚至可以預(yù)測哪些線路可能出現(xiàn)故障。這些分析結(jié)果,可以有助于電網(wǎng)的升級、改造、維護等工作。例如,美國加州大學(xué)洛杉磯分校的研究者就根據(jù)大數(shù)據(jù)理論設(shè)計了一款”電力地圖”,將人口調(diào)查信息、電力企業(yè)提供的用戶實時用電信息和地理、氣象等信息全部集合在一起,制作了一款加州地圖。該圖以街區(qū)為單位,展示每個街區(qū)在當下時刻的用電量,甚至還可以將這個街區(qū)的用電量與該街區(qū)人的平均收入和建筑物類型等相比照,從而得出更為準確的社會各群體的用電習(xí)慣信息。這個地圖為城市和電網(wǎng)規(guī)劃提供了直觀有效的負荷數(shù)預(yù)測依據(jù),也可以按照圖中顯示的停電頻率較高、過載較為嚴重的街區(qū)進行電網(wǎng)設(shè)施的優(yōu)先改造。
(2)發(fā)電與用電的互動:理想的電網(wǎng),應(yīng)該是發(fā)電與用電的平衡。但是,傳統(tǒng)電網(wǎng)的建設(shè)是基于發(fā)-輸-變-配-用的單向思維,無法根據(jù)用電量的需求調(diào)整發(fā)電量,造成電能的冗余浪費。為了實現(xiàn)用電與發(fā)電的互動,提高供電效率,研究者開發(fā)出了智能的用電設(shè)備-智能電表。德克薩斯電力公司(TXUEnergy)己經(jīng)廣泛使用智能電表,并取得了巨大的成效。供電公司能每隔15min就讀一次用電數(shù)據(jù),而不是過去的一月一次。這不僅僅節(jié)省了抄表的人工費用,而且由于能高頻率快速采集分析用電數(shù)據(jù),供電公司能根據(jù)用電高峰和低谷時段制定不同的電價,利用這種價格杠桿來平抑用電高峰和低谷的波動幅度,智能電表和大數(shù)據(jù)應(yīng)用讓分時動態(tài)定價成為可能,而且這對于TXUEnergy和用戶來說是一個雙贏變化。
37
(3)間歇式可再生能源的接入:目前許多新能源也被接入電網(wǎng),但是風(fēng)能和太陽能等新能源,其發(fā)電能力與氣候條件密切相關(guān),具有隨機性和間歇性的特點,因此難以直接并入電網(wǎng)。如果通過對電網(wǎng)大數(shù)據(jù)的分析,則可對這些間歇式新能源進行有效調(diào)節(jié),在其產(chǎn)生電能時,根據(jù)電網(wǎng)中的數(shù)據(jù)將其調(diào)配給電力緊缺地區(qū),與傳統(tǒng)的水火電能進行有效地互補。
5.5大數(shù)據(jù)在能源行業(yè)的應(yīng)用 智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當你的太陽能有多余電的時候還可以買回來。通過電網(wǎng)收集每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來的這些數(shù)據(jù)可以用來預(yù)測客戶的用電習(xí)慣等,從而推斷出在未來2-3個月時間里,整個電網(wǎng)大概需要多少電。有了這個預(yù)測后,就可以向發(fā)電或者供電企業(yè)購買一定數(shù)量的電。因為電有點像期貨一樣,如果??買就會比較便宜,買現(xiàn)貨就比較貴。通過這個預(yù)測后,可以降低采購成本。維斯塔斯風(fēng)力系統(tǒng),依靠的是BigInsights軟件和IBM超級計算機,然后對氣象數(shù)據(jù)進行分析,找出安裝風(fēng)力渦輪機和整個風(fēng)電場最佳的地點。利用大數(shù)據(jù),以往需要數(shù)周的分析工作,現(xiàn)在僅需要不足1小時便可完成。
5.6大數(shù)據(jù)在通信行業(yè)的應(yīng)用
電信業(yè)者透過數(shù)以千萬計的客戶資料,能分析出多種使用者行為和趨勢,賣給需要的企業(yè),這是全新的資料經(jīng)濟。中國移動通過大數(shù)據(jù)分析,對企業(yè)運營的全業(yè)務(wù)進行針對性的監(jiān)控、預(yù)警、跟蹤。系統(tǒng)在第一時間自動捕捉市場變化,再以最快捷的方式推送給指定負責人,使他在最短時間內(nèi)獲知市場行情。
NTTdocomo把手機位置信息和互聯(lián)網(wǎng)上的信息結(jié)合起來,為顧客??附近的餐飲店信息,接近末班車時間時,??末班車信息服務(wù)。
5.7大數(shù)據(jù)在零售業(yè)的應(yīng)用
我們的某個客戶,是一家領(lǐng)先的專業(yè)時裝零售商,通過當?shù)氐陌儇浬痰、網(wǎng)絡(luò)及其郵購目錄業(yè)務(wù)為客戶??服務(wù)。公司希望向客戶??差異化服務(wù),如何定位
38
公司的差異化,他們通過從Twitter和Facebook上收集社交信息,更深入的理解化妝品的營銷模式,隨后他們認識到必須保留兩類有價值的客戶:高消費者和高影響者。希望通過接受免費化妝服務(wù),讓用戶進行口碑宣傳,這是交易數(shù)據(jù)與交互數(shù)據(jù)的完美結(jié)合,為業(yè)務(wù)挑戰(zhàn)??了解決方案。Informatica的技術(shù)幫助這家零售商用社交平臺上的數(shù)據(jù)充實了客戶主數(shù)據(jù),使他的業(yè)務(wù)服務(wù)更具有目標性。
零售企業(yè)也監(jiān)控客戶的店內(nèi)走動情況以及與商品的互動。它們將這些數(shù)據(jù)與交易記錄相結(jié)合來展開分析,從而在銷售哪些商品、如何擺放貨品以及何時調(diào)整售價上給出意見,此類方法已經(jīng)幫助某領(lǐng)先零售企業(yè)減少了17%的存貨,同時在保持市場份額的前??,增加了高利潤率自有品牌商品的比例。
5.8大數(shù)據(jù)在生態(tài)環(huán)境應(yīng)用 環(huán)保業(yè)務(wù)系統(tǒng)數(shù)據(jù)量大、數(shù)據(jù)類型多元、模型算法復(fù)雜,因此利用大數(shù)據(jù)分析的手段對環(huán)境數(shù)據(jù)資源開發(fā),可以成為解決環(huán)保管理問題的鑰匙。而近年來,“互聯(lián)網(wǎng)+”為解決環(huán)境管理問題創(chuàng)造了諸多便利條件。政府決策部門通過互聯(lián)網(wǎng),可以實現(xiàn)環(huán)境數(shù)據(jù)、信息等要素互通共享,從而推動環(huán)境問題得到整體有效解決。公眾輿論借助互聯(lián)網(wǎng)將對企業(yè)排污形成巨大壓力,督促其有效治污,從而推動環(huán)境改善因素由單一政府向全社會延伸。
對環(huán)保行政主管部門而言,環(huán)保大數(shù)據(jù)的應(yīng)用更加強調(diào)數(shù)據(jù)獲取后的分析預(yù)測和價值挖掘。借助物聯(lián)網(wǎng)技術(shù),把傳感器和裝備嵌入到各種環(huán)境監(jiān)控對象中,通過云計算技術(shù)將環(huán)保領(lǐng)域的各物聯(lián)網(wǎng)設(shè)備整合起來,實現(xiàn)人類社會與環(huán)境業(yè)務(wù)系統(tǒng)的整合,以更加精確和動態(tài)的方式實現(xiàn)環(huán)境管理和決策的“智慧”。
對企業(yè)而言,隨著“互聯(lián)網(wǎng)+生態(tài)環(huán)保大數(shù)據(jù)”的蓬勃發(fā)展以及各界對于“互聯(lián)網(wǎng)+”對于“大數(shù)據(jù)”的關(guān)注與重視,環(huán)境大數(shù)據(jù)變革對于排污企業(yè)就意味著違法排污將有更多雙眼睛盯著,更多緊箍咒壓著,污染付出的代價將會越來越沉重。而對于環(huán)保企業(yè)而言,將助力企業(yè)加快產(chǎn)業(yè)轉(zhuǎn)型升級,打開更大市場空間,迎來產(chǎn)業(yè)可持續(xù)發(fā)展黃金期。
“互聯(lián)網(wǎng)+生態(tài)環(huán)保大數(shù)據(jù)”也將提升公眾服務(wù)能力,通過大數(shù)據(jù)整理計算采集來的社交信息數(shù)據(jù)、公眾互動數(shù)據(jù)等,可以幫助環(huán)保部門進行公眾服務(wù)的水平化設(shè)計和碎片化擴散?梢越柚缃幻襟w中公開的海量數(shù)據(jù),通過大數(shù)據(jù)信息
39
交叉驗證技術(shù)、分析數(shù)據(jù)內(nèi)容之間的關(guān)聯(lián)度等,進而面向社會化用戶開展精細化服務(wù),為公眾提供更多便利,產(chǎn)生更大價值。
環(huán)境數(shù)據(jù)中心集污染源和環(huán)境質(zhì)量數(shù)據(jù)整合、數(shù)據(jù)集成、數(shù)據(jù)交換、數(shù)據(jù)管理、數(shù)據(jù)分析、數(shù)據(jù)協(xié)同共享功能于一體,將分散的各類環(huán)境數(shù)據(jù)統(tǒng)一集成,提高了數(shù)據(jù)的標準化水平和數(shù)據(jù)的可用性,按照數(shù)據(jù)資源規(guī)劃設(shè)計的數(shù)據(jù)標準規(guī)范以及數(shù)據(jù)模型進行統(tǒng)一組織,依據(jù)國家有關(guān)技術(shù)規(guī)范和環(huán)境信息行業(yè)技術(shù)標準分類體系構(gòu)建的數(shù)據(jù)集,對各類業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進行分類和梳理,按照不同的專題和用途進行分類存儲和使用,同時可以完成數(shù)據(jù)的共享和交換工作,解決各部門、各業(yè)務(wù)系統(tǒng)之間數(shù)據(jù)無法共享的問題,即解決“數(shù)據(jù)孤島”現(xiàn)象,為環(huán)境管理者和決策者提供可靠、及時、全面的環(huán)境信息,從而為環(huán)境管理科學(xué)決策奠定堅實基礎(chǔ)。
5.9大數(shù)據(jù)在工業(yè)污染監(jiān)控中的應(yīng)用 工業(yè)污染源全過程監(jiān)控系統(tǒng)是在污染源在線監(jiān)控的基礎(chǔ)之上,為了確保數(shù)據(jù)可靠性和監(jiān)控有效性,對企業(yè)污染治理設(shè)施的運行狀態(tài)的關(guān)鍵參數(shù)進行實時監(jiān)控。
利用工業(yè)污染源全過程監(jiān)控系統(tǒng),通過現(xiàn)場端監(jiān)測設(shè)備對環(huán)境污染治理設(shè)施進行連續(xù)的、實時的跟蹤監(jiān)控,通過實時采集環(huán)境污染治理設(shè)施的關(guān)鍵參數(shù),包括電氣參數(shù)(如電壓、電流、頻率等)、工藝參數(shù)(物位、流量、壓力、溫度等),與系統(tǒng)內(nèi)置的算法規(guī)則進行比對,監(jiān)控其運行狀況和治污效果并對排污超標及污染治理設(shè)施非正常運行提供報警。
通過對污染物排放和污染治理設(shè)施的在線監(jiān)控,對排污生產(chǎn)進行自動控制,從而準確反映污染源的實際排放情況,有效減少污染物排放量,調(diào)動排污企業(yè)治理污染的積極性,預(yù)防環(huán)境污染突發(fā)事件。
針對某電廠工況數(shù)據(jù)進行分析,通過兩周數(shù)據(jù)進行訓(xùn)練得到預(yù)測模型,去預(yù)測下周污染物排放數(shù)據(jù),99.5%預(yù)測數(shù)據(jù)的相對誤差<20%
污染源排放清單動態(tài)管理系統(tǒng)是基于污染源普查數(shù)據(jù)及環(huán)境統(tǒng)計基礎(chǔ)數(shù)據(jù)、GIS地理信息系統(tǒng)和區(qū)域土地利用信息,整合重點點源實時排放數(shù)據(jù),形成針對點源、線源、面源等各類大氣污染源,綜合反映區(qū)域污染源空間分布和時間排放規(guī)律信息的網(wǎng)格化區(qū)域大氣污染物排放清單數(shù)據(jù)庫平臺。
40
它不僅為區(qū)域?qū)崟r污染物排放狀況提供了最為詳實和全面的實時數(shù)據(jù)信息及空間、時間變化模型,為區(qū)域重污染天氣及空氣質(zhì)量預(yù)測預(yù)報工作提供有效的基礎(chǔ)數(shù)據(jù)支持。更重要的還為環(huán)保部門提供了區(qū)域污染源系統(tǒng)化管理工具,為區(qū)域落實污染防治政策和總量削減行動計劃提供快速決策工具,從而服務(wù)于國家及地方環(huán)境保護總體戰(zhàn)略。
(二)大數(shù)據(jù)下的職業(yè)定位 事實上,麥肯錫全球研究院的研究預(yù)測在未來6年,僅在美國本土就可能面臨缺乏14萬至19萬具備深入分析數(shù)據(jù)能力人才的情況,同時具備通過分析大數(shù)據(jù)并為企業(yè)做出有效決策的數(shù)據(jù)的管理人員和分析師也有150萬人的缺口。
Ventana研究公司的分析師DavidMenninger指出在其公司最近所作的一項調(diào)查顯示,在169位公司高管中有四分之三的人認為技術(shù)人員缺乏是企業(yè)無從應(yīng)對大數(shù)據(jù)挑戰(zhàn)的重要因素。
Hadoop除了核心設(shè)計思想MapReduce和HDFS(HadoopDistributedFileSystem)外,Hadoop還包括了從類SQL查詢語言HQL,到NoSQLHBase數(shù)據(jù)庫(NoSQL數(shù)據(jù)庫通常用來處理非結(jié)構(gòu)化的數(shù)據(jù),包括音頻、視頻等。),以及機器學(xué)習(xí)庫Mahout等內(nèi)容。Cloudera、Hortonworks和MapR都已在他們的分布式系統(tǒng)中加入了Hadoop項目。
而MapReduce編程模式可以被認作是云計算技術(shù)實現(xiàn)的靈魂。MapReduce是一種處理大型及超大型數(shù)據(jù)集并生成相關(guān)的的執(zhí)行的編程模型,其主要思想是從函數(shù)式編程語言借鑒而來,同時包括從矢量編程語言借來的特性。
TechTarget的特約編輯BethStackpole就指出當今管理傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)環(huán)境的團隊確實相當專業(yè),但面對向Hadoop和MapReduce等開源大數(shù)據(jù)技術(shù)時則顯得有些無從應(yīng)對。導(dǎo)致這其中的原因是應(yīng)對傳統(tǒng)關(guān)系數(shù)據(jù)庫的技能無法轉(zhuǎn)化為應(yīng)對大數(shù)據(jù)世界中海量非結(jié)構(gòu)化數(shù)據(jù)的技能。而NoSQL數(shù)據(jù)庫技術(shù)恰恰是根據(jù)新型平臺核心構(gòu)建的。
大數(shù)據(jù)時代的熱門職業(yè)將會有以下多種:
1.大數(shù)據(jù)處理平臺開發(fā)人員
大數(shù)據(jù)處理平臺開發(fā)人員負責構(gòu)建大數(shù)據(jù)處理平臺以及用來分析數(shù)據(jù)的應(yīng)用。由于其在開發(fā)領(lǐng)域已具備相關(guān)的經(jīng)驗,所以比較熟悉相關(guān)的工具或算法。這在編寫、優(yōu)化以及部署各種復(fù)雜的MapReduce的工作時會有所幫助。運用大數(shù)據(jù)相關(guān)技術(shù)的從業(yè)人員的作用類似傳統(tǒng)數(shù)據(jù)庫世界中DBA的定位。
2.大數(shù)據(jù)處理系統(tǒng)管理員
大數(shù)據(jù)處理系統(tǒng)管理員負責日常Hadoop集群正常運行。例如直接或間接的管理硬件,當需要添加硬件時需保證集群仍能夠穩(wěn)定運行。同時還要負責系統(tǒng)監(jiān)控和配置,保證Hadoop與其他系統(tǒng)的有機結(jié)合。
3.數(shù)據(jù)管家
企業(yè)要提高數(shù)據(jù)質(zhì)量必須考慮任命數(shù)據(jù)管家。數(shù)據(jù)管家需利用Hadoop匯集企業(yè)周圍的大量數(shù)據(jù),并將數(shù)據(jù)通過ETL的過程被清洗和規(guī)范化,進入到數(shù)據(jù)倉庫中,成為一個可用的版本。然后,通過報表和分析技術(shù),數(shù)據(jù)被切片、切塊,并交付給成千上萬的人。擔當數(shù)據(jù)管家保證市場數(shù)據(jù)的完整性,準確性,唯一性,真實性和不冗余。
4.數(shù)據(jù)分析和數(shù)據(jù)科學(xué)家
數(shù)據(jù)分析和數(shù)據(jù)科學(xué)家基本屬于同一類別的工作,這些具備專業(yè)領(lǐng)域知識的人士研究相應(yīng)的算法分析對應(yīng)的問題,而數(shù)據(jù)挖掘也是其應(yīng)掌握的重要技術(shù)。幫助創(chuàng)建推動業(yè)務(wù)發(fā)展的相應(yīng)的大數(shù)據(jù)產(chǎn)品和大數(shù)據(jù)解決方案。
雖然現(xiàn)今面臨技術(shù)人員匱乏的狀況,但也并非絕望。Cloudera公司的OmerTrajman就指出Hadoop做為大數(shù)據(jù)技術(shù)的解決方案并不像學(xué)習(xí)如何制造火箭那樣困難。幾年前,了解Hadoop的人還寥寥無幾,但現(xiàn)在越來越多的人開始學(xué)習(xí)Hadoop。企業(yè)應(yīng)當鼓勵并培養(yǎng)技術(shù)人員學(xué)習(xí)Hadoop技術(shù)。
六、大數(shù)據(jù)生態(tài)系統(tǒng)科學(xué)圖譜組成及
(一)大數(shù)據(jù)的生態(tài)發(fā)展
在喜新厭舊的技術(shù)初創(chuàng)企業(yè)界,已有3年歷史“大數(shù)據(jù)”聽起來似乎已經(jīng)過氣了。雖然Hadoop在2006年已經(jīng)出來,但“大數(shù)據(jù)”這個概念大概是在2011
到2014年左右才真正火起來的。也就是在這段時間里,至少是在媒體或者專家眼里,“大數(shù)據(jù)”成為了新的“金子”或者“石油”。然而,至少在我跟業(yè)界人士交談中,大家越來越感覺到這項技術(shù)已經(jīng)在某種程度上陷入了停滯。2015年可能是數(shù)據(jù)領(lǐng)域的那些酷小子轉(zhuǎn)移興趣,開始沉迷于AI以及機器智能、深度學(xué)習(xí)等許多相關(guān)概念的年份。
圖6.1:2016年大數(shù)據(jù)版圖
拋開不可避免的炒作周期曲線態(tài)勢不管,我們的“大數(shù)據(jù)版圖”已經(jīng)進入第4個年頭了,趁這個時候退一步來反思一下去年發(fā)生了什么,思考一下這個行業(yè)的未來會怎樣是很有意義的。
大數(shù)據(jù)有趣的一點在于,它不再像當初經(jīng)歷過那樣有可能成為炒作的題材了。 經(jīng)過炒作周期后仍能引起廣泛興趣的產(chǎn)品和服務(wù)往往那些大家能夠接觸、可以感知,或者與大眾相關(guān)聯(lián)的:比如移動應(yīng)用、社交網(wǎng)絡(luò)、可穿戴、虛擬現(xiàn)實等。
但大數(shù)據(jù)基本上就是管道設(shè)施的一種。當然,大數(shù)據(jù)為許多消費者或商業(yè)用戶體驗提供了動力,但它的核心是企業(yè)技術(shù):數(shù)據(jù)庫、分析等,這些東西都是在后端運行的,沒幾個人能看得見。就像在那個世界工作的任何人都知道那樣,用一個晚上的時間就想適應(yīng)企業(yè)端的新技術(shù)是不可能的。
大數(shù)據(jù)現(xiàn)象在早期主要是受到了與一批骨干互聯(lián)網(wǎng)公司的共生關(guān)系的推動,這些公司既是核心大數(shù)據(jù)技術(shù)的重度用戶,同時也是這些技術(shù)的創(chuàng)造者。
這些公
司突然間面對著規(guī)模前所未有的龐大數(shù)據(jù)時,由于本身缺乏傳統(tǒng)的(昂貴的)基礎(chǔ)設(shè)施,也沒有辦法招募到一些最好的工程師,所以只好自己動手來開發(fā)所需的技術(shù)。后來隨著開源運動的迅速發(fā)展,一大批此類新技術(shù)開始共享到更廣的范圍。然后,一些互聯(lián)網(wǎng)大公司的工程師離職去創(chuàng)辦自己的大數(shù)據(jù)初創(chuàng)企業(yè)。其他的一些“數(shù)字原生”公司,包括嶄露頭角的獨角獸公司,也開始面臨著互聯(lián)網(wǎng)大公司的類似需求,由于它們自身也沒有傳統(tǒng)的基礎(chǔ)設(shè)施,所以自然就成為了那些大數(shù)據(jù)技術(shù)的早期采用者。而早期的成功又導(dǎo)致了更多的創(chuàng)業(yè)活動發(fā)生,并獲得了更多的VC資助,從而帶動了大數(shù)據(jù)的起勢。
快速發(fā)展了幾年之后,現(xiàn)在我們面臨的是更加廣闊、但也更加棘手的機遇:讓中等規(guī)模到跨國公司級別的更大一批企業(yè)采用大數(shù)據(jù)技術(shù)。這些公司跟“數(shù)字原生”公司不一樣的是,他們沒有從零開始的有利條件。而且他們失去的會更多:這些公司絕大部分的現(xiàn)有技術(shù)基礎(chǔ)設(shè)施都是成功的。那些基礎(chǔ)設(shè)施當然未必是功能完備的,組織內(nèi)部許多人也意識到對自己的遺留基礎(chǔ)設(shè)施進行現(xiàn)代化應(yīng)該是早點好過晚點,但他們不會一夜間就把自己的關(guān)鍵業(yè)務(wù)取代掉。任何革命都需要過程、預(yù)算、項目管理、試點、局部部署以及完備的安全審計等。大企業(yè)對由年輕的初創(chuàng)企業(yè)來處理自己基礎(chǔ)設(shè)施的關(guān)鍵部分的謹慎是可以理解的。還有,令創(chuàng)業(yè)者感到絕望的是,許多企業(yè)仍頑固地拒絕把數(shù)據(jù)遷移到云端。
(二)大數(shù)據(jù)生態(tài)系統(tǒng)的組建
還需要理解的另一個關(guān)鍵是:大數(shù)據(jù)的成功組建不在于實現(xiàn)技術(shù)的某一方面,而是需要把一連串的技術(shù)、人和流程糅合到一起。你得捕捉數(shù)據(jù)、存儲數(shù)據(jù)、清洗數(shù)據(jù)、查詢數(shù)據(jù)、分析數(shù)據(jù)并對數(shù)據(jù)進行可視化。這些工作一部分可以由產(chǎn)品來完成,而有的則需要人來做。一切都需要無縫集成起來。最后,要想讓所有這一切發(fā)揮作用,整個公司從上到下都需要樹立以數(shù)據(jù)驅(qū)動的文化,這樣大數(shù)據(jù)才不僅僅是個“東西”,而且就是那個關(guān)鍵的“東西”。即有一堆艱苦的工作要做。
所以,這就是在經(jīng)過幾年引人矚目的初創(chuàng)企業(yè)如雨后春筍冒頭,VC投資頻登頭條后,我們開始步入大數(shù)據(jù)的部署期和早期成熟期的原因。
更有前瞻性的大公司在2011到2013年間開始實驗大數(shù)據(jù)技術(shù),推出了若干的Hadoop試點計劃或者嘗試一些點方案。他們招募了各種各樣此前并不存在的
崗位。他們進行了各種努力,包括把全部數(shù)據(jù)都堆到一個數(shù)據(jù)容器,然后希望緊跟著就會發(fā)生奇跡。在逐步建設(shè)自己的內(nèi)部能力,試驗了各種供應(yīng)商,從試點計劃到生產(chǎn)中的局部部署,然后到現(xiàn)在爭論要不要全企業(yè)鋪開。許多情況下,他們正處在這樣一個重要的拐點上,即經(jīng)過大數(shù)據(jù)基礎(chǔ)設(shè)施的數(shù)年建設(shè)后,能夠展示的成果還不多,至少在公司內(nèi)部的商業(yè)用戶看來是這樣的。但是大量吃力不討好的工作已經(jīng)做完了,現(xiàn)在開始進入到有影響力的應(yīng)用部署階段了。只是從目前來看,這種建構(gòu)在核心架構(gòu)之上的應(yīng)用數(shù)量還不成比例。
接下來的一波大公司大多數(shù)時候?qū)Υ髷?shù)據(jù)技術(shù)是持觀望態(tài)度的,對于整個大數(shù)據(jù)方面的東西,他們還在心存一定程度困惑中觀望。直到最近,他們還在指望某個大型供應(yīng)商會提供一個一站式的解決方案,不過現(xiàn)在看來這種情況近期內(nèi)并不會出現(xiàn)。他們看待這個大數(shù)據(jù)版圖的態(tài)度是心懷恐懼,在想自己是不是真的需要跟這一堆看起來并沒有什么不同的初創(chuàng)企業(yè)合作,然后修補出各種解決方案。
隨著該領(lǐng)域的創(chuàng)業(yè)活動持續(xù)進行以及資金的不斷流入,加上適度的少量退出,以及越來越活躍的技術(shù)巨頭,使得這個領(lǐng)域的公司日益增多,最后匯成了這幅2016版的大數(shù)據(jù)版圖。
這張圖已經(jīng)很擠了,而且還有很多都沒辦法列進去,但在基本趨勢方面,行動開始慢慢從左轉(zhuǎn)到右,從基礎(chǔ)設(shè)施層轉(zhuǎn)移到分析層乃至應(yīng)用層,“大數(shù)據(jù)原生應(yīng)用”已經(jīng)在迅速冒頭—這多少符合了我們原先的一些預(yù)期。
即便在數(shù)據(jù)庫的世界里,新興的廠家也越來越多。多到市場已經(jīng)難以承受的地步,這里發(fā)生了很多令人興奮的事情,從圖形數(shù)據(jù)庫的成熟,到專門數(shù)據(jù)庫的推出,乃至于CockroachDB的出現(xiàn),數(shù)據(jù)倉庫也在演變。
其實最近出現(xiàn)復(fù)興的AI很大程度上算是大數(shù)據(jù)的產(chǎn)物。深度學(xué)習(xí)背后的算法基本上是幾十年前就誕生了的,但直到最近能夠以足夠便宜、足夠快速地應(yīng)用到大規(guī)模數(shù)據(jù)之后才發(fā)揮出了它的最大潛能。AI與大數(shù)據(jù)之間的關(guān)系如此緊密,以至于業(yè)界專家現(xiàn)在認為AI已經(jīng)令人懊惱地“與大數(shù)據(jù)陷入了熱戀當中”。
不過反過來,AI現(xiàn)在也在幫助大數(shù)據(jù)實現(xiàn)后者的承諾。分析對AI/機器學(xué)習(xí)越來越多的關(guān)注也符合大數(shù)據(jù)下一步演進的趨勢:現(xiàn)在數(shù)據(jù)我都有了,但究竟從中能得到什么樣的洞察呢?當然,這件事情可以讓數(shù)據(jù)科學(xué)家來解決,從一開始他們的角色就是實現(xiàn)機器學(xué)習(xí),否則的話就得想出模型來發(fā)現(xiàn)數(shù)據(jù)的意義。但是
機器智能現(xiàn)在正在逐漸發(fā)揮輔助數(shù)據(jù)科學(xué)家的作用—只需要倒騰數(shù)據(jù),新興的產(chǎn)品就能從中提煉出數(shù)學(xué)公式或者自動建立和推薦最有可能返回最佳結(jié)果的數(shù)據(jù)科學(xué)模型。一批新的AI公司提供的產(chǎn)品能夠自動識別像圖像這樣的復(fù)雜實體,或者提供強大的預(yù)測性分析。
但不管怎樣,AI/機器學(xué)習(xí)絕不是大數(shù)據(jù)分析唯一值得關(guān)注的趨勢。大數(shù)據(jù)BI平臺的普遍成熟及其日益增強的實時能力也是一個令人興奮的趨勢。
隨著一些核心基礎(chǔ)設(shè)施的挑戰(zhàn)得到解決,大數(shù)據(jù)應(yīng)用層正在快速構(gòu)建。在企業(yè)內(nèi)部,已經(jīng)出現(xiàn)了各種工具來幫助跨多個核心職能的企業(yè)用戶。比方說,銷售和營銷的大數(shù)據(jù)應(yīng)用通過處理大規(guī)模的內(nèi)外部數(shù)據(jù)來幫助找出哪位客戶可能會購買、續(xù)約或者流失,且速度越來越實時化?头(yīng)用幫助個性化服務(wù)。人力應(yīng)用幫助找出如何吸引和挽留最好的員工等。
專門的大數(shù)據(jù)應(yīng)用幾乎在任何一個垂直行業(yè)都有出現(xiàn),從醫(yī)療保健到金融、時尚乃至于執(zhí)法。有兩個趨勢值得強調(diào)一下:
首先,這些應(yīng)用很多都是“大數(shù)據(jù)原生”的,本身都是依托在最新的大數(shù)據(jù)技術(shù)基礎(chǔ)上開發(fā)的,代表了一種客戶無須部署底層大數(shù)據(jù)技術(shù)即可利用大數(shù)據(jù)的有趣方式—因為那些底層技術(shù)已經(jīng)是打包的,至少對于特定功能來說是這樣的。比方說,ActionIQ就是在Spark基礎(chǔ)上開發(fā)的,所以它的客戶能夠在營銷部門利用Spark的威力而不需要自己部署Spark,這種情況下是沒有“裝配線”的。
其次,AI在應(yīng)用層也有很強大的存在。比方說,在貓捉老鼠的安全領(lǐng)域中,AI被廣泛用來對付黑客,實時識別和對抗網(wǎng)絡(luò)攻擊。去年已經(jīng)出現(xiàn)了一個AI驅(qū)動的數(shù)字助手行業(yè),支持從任務(wù)自動化到會議安排以及購物等幾乎一切事情。這些解決方案對AI的依賴程度不一,從幾乎100%自動化到“有人參與”等情況各不相同,但是可以明確的是,人的能力在AI幫助下得到了增強。
(三)大數(shù)據(jù)生態(tài)系統(tǒng)的內(nèi)涵
大數(shù)據(jù)企業(yè)生態(tài)系統(tǒng)最早是由美國學(xué)者JamesMoore提出的,他借用生態(tài)學(xué)的概念來解釋企業(yè)組織及其與環(huán)境之間的關(guān)系。Moore,J.認為企業(yè)生態(tài)系統(tǒng)是指由相互作用的企業(yè)組織與個人所形成的經(jīng)濟群體,包括生產(chǎn)商、銷售商、消費者、供應(yīng)商、投資商、競爭者、互補者、企業(yè)所有者以及有關(guān)的政府。該概念表
示企業(yè)生態(tài)系統(tǒng)是一個相對開放的系統(tǒng),這個系統(tǒng)中所有的組成要素相互影響、相互促進;同時,企業(yè)生態(tài)系統(tǒng)也會受到外部環(huán)境的制約和影響,企業(yè)生態(tài)系統(tǒng)在各種內(nèi)外部力量的作用下得到演化和發(fā)展。
“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)和外部環(huán)境之間的邊界日趨模糊,信息共享和知識溢出已成為企業(yè)生態(tài)系統(tǒng)中各成員合作競爭與協(xié)同演化的主要方式之
一。在這種競爭環(huán)境下,信息和知識成了企業(yè)經(jīng)營管理中的重要生產(chǎn)要素,也是決定企業(yè)創(chuàng)新能力的關(guān)鍵。通過選擇和構(gòu)建良好的企業(yè)生態(tài)系統(tǒng),從外界獲取有價值的數(shù)據(jù)和知識,是企業(yè)提高核心競爭力、獲取持續(xù)競爭優(yōu)勢的重要途徑。
(四)大數(shù)據(jù)生態(tài)系統(tǒng)的重新審視
6.4.1產(chǎn)業(yè)環(huán)境:行業(yè)融合與細分協(xié)同演化
企業(yè)生態(tài)理論認為,包含眾多企業(yè)的企業(yè)生態(tài)系統(tǒng)與外部環(huán)境相互交流相互影響,企業(yè)生態(tài)系統(tǒng)不僅受到外部環(huán)境的制約,同時它也具備影響甚至改變環(huán)境的能力。隨著“大數(shù)據(jù)”時代的到來,企業(yè)生態(tài)系統(tǒng)的產(chǎn)業(yè)環(huán)境發(fā)生了革命性的變化,呈現(xiàn)出產(chǎn)業(yè)融合與細分協(xié)同演化格局。一方面,產(chǎn)業(yè)融合愈發(fā)明顯,以前認為不相關(guān)的行業(yè)通過“大數(shù)據(jù)”技術(shù)有了內(nèi)在的關(guān)聯(lián),行業(yè)之間潛在的價值關(guān)聯(lián)有了新的表現(xiàn)形式。如傳統(tǒng)的零售企業(yè)開始進軍電子商務(wù);物業(yè)管理公司通過對社區(qū)視頻數(shù)據(jù)分析能夠開展個性化的廣告業(yè)務(wù);從事電子商務(wù)的阿里巴巴已涉及金融、物流、云計算等行業(yè)。因此,“大數(shù)據(jù)”的挖掘和應(yīng)用促進了行業(yè)間的融合,也創(chuàng)新了企業(yè)的盈利模式。
另一方面,“大數(shù)據(jù)”時代企業(yè)生態(tài)系統(tǒng)變得更加開放,競爭異常激烈,廣泛而清晰地對“大數(shù)據(jù)”進行挖掘和細分,找到企業(yè)在垂直領(lǐng)域的業(yè)務(wù)和應(yīng)用,已經(jīng)成為企業(yè)脫穎而出形成競爭優(yōu)勢的重要方式。如社交網(wǎng)絡(luò)的發(fā)展,誕生了一批專注開發(fā)導(dǎo)購應(yīng)用程序的企業(yè),通過收集客戶社交數(shù)據(jù)挖掘其內(nèi)在的商品偏好和需求,為相關(guān)的電子商務(wù)企業(yè)提供商品導(dǎo)購服務(wù)。例如,“大數(shù)據(jù)”也不再是企業(yè)生態(tài)系統(tǒng)中的大企業(yè)所獨占,中小企業(yè)也可以從“大數(shù)據(jù)”中挖掘有價值的信息,成為細分市場的核心資源,為自身的業(yè)務(wù)提供支持。
因此,在“大數(shù)據(jù)”時代,企業(yè)生態(tài)系統(tǒng)面臨的產(chǎn)業(yè)環(huán)境精彩紛呈,這種產(chǎn)
業(yè)環(huán)境的變化改變了企業(yè)對外部資源需求的內(nèi)容和方式,創(chuàng)新了企業(yè)創(chuàng)造價值、傳遞價值的方式和路徑,模糊化了企業(yè)生態(tài)系統(tǒng)的資源邊界、市場邊界和契約邊界,企業(yè)生態(tài)系統(tǒng)必將形成以“大數(shù)據(jù)”為核心資源的業(yè)務(wù)融合與市場細分協(xié)同演化,重構(gòu)其內(nèi)部價值網(wǎng)絡(luò)和外部關(guān)系網(wǎng)絡(luò)。
6.4.2運營模式:基于“大數(shù)據(jù)”的協(xié)同運作
在“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)的協(xié)同合作更為緊密和精確,基于“大數(shù)據(jù)”資源構(gòu)建以流程優(yōu)化和客戶訂單為導(dǎo)向的協(xié)同運作模式已成為企業(yè)生態(tài)系統(tǒng)的主要運營模式,基于“大數(shù)據(jù)”應(yīng)用的協(xié)同運作主要表現(xiàn)為:
協(xié)同設(shè)計。在產(chǎn)品的設(shè)計階段,加強伙伴間的合作與溝通,傾聽客戶的心聲、考慮產(chǎn)品對環(huán)境的影響是提高產(chǎn)品競爭優(yōu)勢的關(guān)鍵,這就需要企業(yè)生態(tài)系統(tǒng)的各成員共同參與進行協(xié)同設(shè)計。傳統(tǒng)的設(shè)計都是基于企業(yè)自身收集的歷史數(shù)據(jù)和靜態(tài)數(shù)據(jù),不能實時動態(tài)的把握客戶的需求變化!按髷(shù)據(jù)”資源的開發(fā)和應(yīng)用,為企業(yè)生態(tài)系統(tǒng)的協(xié)同設(shè)計提供了數(shù)據(jù)支撐和智力支持,企業(yè)通過構(gòu)建基于“大數(shù)據(jù)”的協(xié)同產(chǎn)品設(shè)計平臺,實時獲取設(shè)計研發(fā)企業(yè)、生產(chǎn)制造企業(yè)、銷售企業(yè)等成員企業(yè)的反饋信息和知識溢出,為提高產(chǎn)品設(shè)計質(zhì)量提供了智力支持。同時,“大數(shù)據(jù)”技術(shù)的應(yīng)用,能實時捕捉客戶的需求數(shù)據(jù),針對每一個消費者進行完全個性化設(shè)計。例如,玩具行業(yè)巨頭樂高基于在線訂購的允許客戶組裝他們自己樂高套件的樂高工廠,對其所需的玩具進行自我設(shè)計,以實現(xiàn)客戶參與玩具的創(chuàng)造。
協(xié)同生產(chǎn)。協(xié)同生產(chǎn)的本質(zhì)就是企業(yè)在應(yīng)用CAD、CAM、CAPP、ERP等管理信息系統(tǒng)的基礎(chǔ)上,將任務(wù)實時合理的安排給各成員企業(yè)和企業(yè)內(nèi)部的各制造單元。這個過程難度最大的就是對來自企業(yè)內(nèi)外部制造過程中多態(tài)的、異構(gòu)的、實時數(shù)據(jù)的整合和應(yīng)用,“大數(shù)據(jù)”技術(shù)開發(fā)和平臺應(yīng)用為實現(xiàn)協(xié)同生產(chǎn)提供了便利。如以MapReduce和Hadoop為代表的非關(guān)系數(shù)據(jù)分析技術(shù),可以直接對復(fù)雜異構(gòu)的數(shù)據(jù)進行分析,避免了傳統(tǒng)數(shù)據(jù)庫耗費大量時間從不同來源抽取數(shù)據(jù)加以合并才能用于分析的復(fù)雜過程。通過應(yīng)用這些“大數(shù)據(jù)”處理技術(shù),企業(yè)實時收集處理供應(yīng)商數(shù)據(jù)、客戶訂單數(shù)據(jù)、生產(chǎn)車間信息、競爭對手信息、外部市場需求等信息,協(xié)調(diào)原材料提供商、半成品生產(chǎn)企業(yè)、產(chǎn)品生產(chǎn)企業(yè)等合作伙伴的生產(chǎn)決
策,優(yōu)化企業(yè)生態(tài)系統(tǒng)的流程,實現(xiàn)協(xié)同生產(chǎn)。
協(xié)同庫存。傳統(tǒng)的企業(yè)庫存管理中,滿足客戶需求的同時又盡可能地降低庫存成本一直是企業(yè)需要破解的難題,“大數(shù)據(jù)”的開發(fā)和應(yīng)用為解決這一難題提供了可能。企業(yè)生態(tài)系統(tǒng)中的合作伙伴,通過對客戶企業(yè)的實時交易數(shù)據(jù)、實時生產(chǎn)信息、消費信息等數(shù)據(jù)的分析,能提前預(yù)判客戶市場的需要并進行庫存補給和管理。例如,全球最大的零售企業(yè)沃爾瑪和寶潔公司,建立了基于衛(wèi)星分析的聯(lián)合庫存管理系統(tǒng),寶潔公司每天能對沃爾瑪銷售自己產(chǎn)品的實時數(shù)據(jù)進行分析,并根據(jù)分析結(jié)果預(yù)測和補充庫存,既保證了客戶的需要又降低了庫存成本。
協(xié)同物流。物流運輸規(guī)劃的基石是數(shù)據(jù),“大數(shù)據(jù)”的特征為企業(yè)生態(tài)系統(tǒng)中各合作伙伴實施協(xié)同物流提供了天然優(yōu)勢。企業(yè)通過實時收集和分析供應(yīng)鏈系統(tǒng)中原材料、半成品、產(chǎn)品的物流運輸信息,從供應(yīng)鏈系統(tǒng)視角對各節(jié)點企業(yè)的倉儲選址、物流配送線路、逆向物流進行協(xié)調(diào)優(yōu)化,充分利用物流信息資源提高物流效率。如Teradata天睿公司通過建立了“大數(shù)據(jù)”分析系統(tǒng),通過獲取、整合、分析客戶企業(yè)、物流設(shè)備、物流運輸線路、天氣等的信息數(shù)據(jù),做到智能化的實時安排物流線路,實現(xiàn)整個合作伙伴的協(xié)同物流。
因此,通過“大數(shù)據(jù)”的整合和分析,企業(yè)生態(tài)系統(tǒng)的合作伙伴能優(yōu)化企業(yè)內(nèi)外部流程,提高產(chǎn)品質(zhì)量,降低資源消耗,實現(xiàn)個性化定制生產(chǎn)的同時能更好地適應(yīng)環(huán)境的變化,以實現(xiàn)協(xié)同運作。
(五)大數(shù)據(jù)生態(tài)系統(tǒng)資源的多元化
在“大數(shù)據(jù)”背景下,信息數(shù)據(jù)已經(jīng)成為企業(yè)生態(tài)系統(tǒng)中核心資產(chǎn),數(shù)據(jù)傳遞、信息共享已經(jīng)成為企業(yè)生態(tài)系統(tǒng)中成員的重要合作途徑。由于“大數(shù)據(jù)”資源的動態(tài)配置和應(yīng)用,企業(yè)生態(tài)系統(tǒng)的合作方式呈現(xiàn)出多元化,主要有:
業(yè)務(wù)外包(Outsourcing)。以“大數(shù)據(jù)”為核心資源的運營體系中,“大數(shù)據(jù)”運行的基礎(chǔ)設(shè)施和技術(shù)開發(fā)具有投入成本大、風(fēng)險高等特征;同時,“大數(shù)據(jù)”資源具有易復(fù)制、易傳播、價值流失快等特點,這就使得企業(yè)在“大數(shù)據(jù)”資源獲取和利用方面傾向選擇生態(tài)系統(tǒng)中合作伙伴的分享與合作,以實現(xiàn)企業(yè)生態(tài)系統(tǒng)中“大數(shù)據(jù)”資源的柔性配置和規(guī)模效率,因此,業(yè)務(wù)外包已經(jīng)成為企業(yè)生態(tài)系統(tǒng)協(xié)同商務(wù)的主要形式之一,如IT設(shè)施外包、“大數(shù)據(jù)”軟件開發(fā)外包、數(shù)據(jù)
管理外包等。
眾包(Crowdsourcing)。眾包是指把傳統(tǒng)上由指定代理人(如雇員)完成的任務(wù)以公開選拔的形式外包給大量不特定的個人去做的行為。眾包模式的實質(zhì)是對離散、零亂的資源的有效利用,深度挖掘“大數(shù)據(jù)”蘊含企業(yè)生態(tài)系統(tǒng)的集體智慧,為企業(yè)提供創(chuàng)意設(shè)計、生產(chǎn)規(guī)劃、市場推廣、策略評估等服務(wù)。如IT產(chǎn)業(yè),開源社區(qū)(openSourceCommunity)就是眾包的典型模式,各大IT巨頭都爭相采取這種模式構(gòu)建自己的創(chuàng)新生態(tài)系統(tǒng)。許多世界性大公司也都建立了自己的網(wǎng)絡(luò)平臺或者借助眾包中介(CrowdsourcingIntermediates)以眾包方式解決技術(shù)、創(chuàng)意、設(shè)計等原來由企業(yè)內(nèi)部流程和資源完成的活動。例如,加拿大礦產(chǎn)公司GoldCorp為解決RedLake礦區(qū)的礦脈定位問題,在網(wǎng)絡(luò)上公布了該礦區(qū)幾十年來全部的地質(zhì)數(shù)據(jù),在短短幾周內(nèi)收到大量網(wǎng)民的積極反饋,并根據(jù)網(wǎng)民建議從110個礦點中準確地發(fā)現(xiàn)了80多處礦藏。
共同創(chuàng)造(Co-creation)。共同創(chuàng)造就是讓企業(yè)生態(tài)系統(tǒng)中各成員企業(yè)、消費者、投資商、競爭者、互補者、政府組織等主體共同參與產(chǎn)品的價值創(chuàng)造。從企業(yè)生態(tài)系統(tǒng)商務(wù)圈的視角看,實現(xiàn)共同創(chuàng)造的基本途徑就是企業(yè)整合來自多元系統(tǒng)的數(shù)據(jù),包括外部生態(tài)系統(tǒng)、外部供應(yīng)商、消費者等獲取信息數(shù)據(jù)以共創(chuàng)產(chǎn)品。例如,玩具行業(yè)巨頭樂高基于在線訂購的允許客戶組裝他們自己樂高套件的樂高工廠,以實現(xiàn)客戶參與玩具的創(chuàng)造。
(六)大數(shù)據(jù)生態(tài)系統(tǒng)的個性化精準細分
當今市場的競爭日趨激烈,客戶需求高度個性化,產(chǎn)品的生命周期越來越短,傳統(tǒng)的企業(yè)數(shù)據(jù)主要來自客戶信息、產(chǎn)品、交易等結(jié)構(gòu)化數(shù)據(jù),難以對客戶的潛在需求進行精確的預(yù)判和個性化的細分!按髷(shù)據(jù)”技術(shù)的開發(fā)和應(yīng)用,使得企業(yè)進行客戶市場決策所依賴的市場信息在數(shù)據(jù)量、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)模態(tài)和時效上都發(fā)生了根本性的變化,能對客戶的行為、狀態(tài)、商務(wù)圈等非結(jié)構(gòu)化的數(shù)據(jù)進行動態(tài)的監(jiān)控和實時挖掘,深刻洞察用戶消費動機和偏好。
因此,這種“大數(shù)據(jù)”的變化引發(fā)了企業(yè)生態(tài)系統(tǒng)營銷環(huán)境的變革,讓企業(yè)在目標市場選擇和營銷管理決策時進行定量分析和提前預(yù)判,通過對其生態(tài)系統(tǒng)中客戶信息全面的分析和處理,就能實現(xiàn)精準營銷,降低營銷成本,提高營銷效
果。
(七)大數(shù)據(jù)生態(tài)系統(tǒng)的演化
6.7.1“大數(shù)據(jù)”時代企業(yè)生態(tài)系統(tǒng)演化的內(nèi)在機理
企業(yè)生態(tài)系統(tǒng)是一個動態(tài)、復(fù)雜系統(tǒng),其演化過程表現(xiàn)出很強的自組織過程特征,根據(jù)耗散結(jié)構(gòu)理論,系統(tǒng)產(chǎn)生自組織現(xiàn)象,形成耗散結(jié)構(gòu),必須滿足以下條件:開放及開放到一定程度、遠離平衡態(tài)、非線性相互作用和漲落。這些條件在企業(yè)生態(tài)系統(tǒng)的形成過程中均有著自己的作用,也是促使企業(yè)生態(tài)系統(tǒng)演化的內(nèi)在條件和動力。在“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)這些自組織形成的條件顯得更加明顯和充分。
企業(yè)生態(tài)系統(tǒng)的開放性及開放程度。企業(yè)生態(tài)系統(tǒng)不是封閉孤立的系統(tǒng),一方面,它必須不斷從周圍環(huán)境輸入維持其運行與發(fā)展所必需的能量、物質(zhì)與信息;另一方面,它又必須將自身所產(chǎn)生的能量、物質(zhì)或信息輸出給周圍環(huán)境,如產(chǎn)品提供、知識溢出、環(huán)境污染等。在“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)的開放性更加明顯,開放程度更高。表現(xiàn)為:①以互聯(lián)網(wǎng)、海量數(shù)據(jù)存儲、云計算等為代表的信息技術(shù)讓企業(yè)生態(tài)系統(tǒng)的成員從外界獲取產(chǎn)品、客戶、市場、競爭對手等方面的數(shù)據(jù)更加便利;②“大數(shù)據(jù)”的處理和應(yīng)用,企業(yè)生態(tài)系統(tǒng)內(nèi)部各合作伙伴之間的數(shù)據(jù)傳遞和信息共享更加頻繁,對企業(yè)決策的影響愈發(fā)明顯;③各企業(yè)生態(tài)系統(tǒng)之間的知識溢出更加豐富,合作與競爭呈現(xiàn)出多元化趨勢。
因此,基于“大數(shù)據(jù)”的連接與融合,企業(yè)生態(tài)系統(tǒng)傳統(tǒng)的企業(yè)邊界、行業(yè)邊界愈發(fā)模糊,企業(yè)生態(tài)系統(tǒng)的開放性更加明顯,企業(yè)不僅要適應(yīng)環(huán)境,參與開放系統(tǒng)的競爭,而且也具備了影響和改變環(huán)境的條件和能力。
企業(yè)生態(tài)系統(tǒng)遠離平衡態(tài)。企業(yè)生態(tài)系統(tǒng)遠離平衡態(tài)意味著系統(tǒng)內(nèi)部存在著物質(zhì)轉(zhuǎn)換、能量流動、信息傳遞等各種活動狀態(tài),呈現(xiàn)出各種活動的交鋒與激烈碰撞,這種碰撞在企業(yè)生態(tài)系統(tǒng)中表現(xiàn)為遠離平衡態(tài)的企業(yè)間橫向整合和縱向應(yīng)用,如行業(yè)競爭對手的消失以及潛在威脅者的加入、企業(yè)戰(zhàn)略聯(lián)盟的形成與瓦解、供應(yīng)鏈中節(jié)點企業(yè)的退出與新合作伙伴的加入,客戶的維系與流失。
企業(yè)生態(tài)系統(tǒng)內(nèi)部的非線性相互作用。根據(jù)自組織理論,企業(yè)生態(tài)系統(tǒng)的自組織演化就是在其內(nèi)部大量子系統(tǒng)以及企業(yè)和其他組織在既競爭又協(xié)同的非線
性相互作用下發(fā)生、發(fā)展的!按髷(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)的非線性作用一方面表現(xiàn)為企業(yè)間的競爭關(guān)系,各企業(yè)力爭通過對“大數(shù)據(jù)”的分析來獲取資源、技術(shù)、客戶,并采取保密和限制等措施防止自身的數(shù)據(jù)外泄和知識溢出,以使自身取得功能上的有利態(tài)勢與協(xié)商中的有利地位,從而加速了非平衡的競爭關(guān)系。另一方面,“大數(shù)據(jù)”技術(shù)促使企業(yè)生態(tài)系統(tǒng)內(nèi)部進一步協(xié)同合作,以電子商務(wù)平臺以及中介網(wǎng)絡(luò)平臺的雙方或多方互動數(shù)據(jù),掌握了更精確更豐富的決策信息,對降低市場中供需雙方的信息不對稱、解決市場失效、提高企業(yè)利潤起著關(guān)鍵的作用;如供應(yīng)鏈伙伴之間通過監(jiān)測、分析、共享各環(huán)節(jié)的數(shù)據(jù)實現(xiàn)聯(lián)合庫存和準時制造,提升了整個生態(tài)系統(tǒng)伙伴的競爭力。因此,“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)各要素之間表現(xiàn)為既競爭又合作的非線性作用,推動企業(yè)生態(tài)系統(tǒng)的優(yōu)化和動態(tài)發(fā)展。
企業(yè)生態(tài)系統(tǒng)的漲落。漲落指系統(tǒng)參量在一個數(shù)值上下震蕩的現(xiàn)象,它是系統(tǒng)形成有序結(jié)構(gòu)的原始動力,企業(yè)生態(tài)系統(tǒng)漲落的結(jié)果是使偏離平衡態(tài)的系統(tǒng)恢復(fù)到原來的狀態(tài),或者使處于某一臨界點上的系統(tǒng)達到一種新的穩(wěn)定狀態(tài),呈現(xiàn)出原有狀態(tài)所不具備的新功能,實現(xiàn)企業(yè)生態(tài)系統(tǒng)的升級與進化!按髷(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)的各成員表現(xiàn)得更為動態(tài)和不確定性,其結(jié)構(gòu)也更具脆弱性,以知識為核心要素的技術(shù)創(chuàng)新對企業(yè)生態(tài)系統(tǒng)漲落的沖擊力更大。因此,有價值的數(shù)據(jù)是企業(yè)制定戰(zhàn)略決策、技術(shù)創(chuàng)新、挖掘顧客需求的指南針,也是改變企業(yè)生態(tài)系統(tǒng)的有序結(jié)構(gòu)、形成企業(yè)生態(tài)系統(tǒng)耗散結(jié)構(gòu)的觸發(fā)器,從而促使企業(yè)生態(tài)系統(tǒng)偏離原有的穩(wěn)定狀態(tài),進入新的穩(wěn)定狀態(tài)。
6.7.2“大數(shù)據(jù)”時代企業(yè)生態(tài)系統(tǒng)演化的外部機制
上面基于自組織理論分析了“大數(shù)據(jù)”時代企業(yè)生態(tài)系統(tǒng)演化的內(nèi)在機理,這是決定企業(yè)生態(tài)系統(tǒng)演化的方向和狀態(tài),但各組織在企業(yè)生態(tài)系統(tǒng)演化的過程中還得經(jīng)過環(huán)境的選擇,只有適應(yīng)環(huán)境并得以健康發(fā)展的企業(yè)生態(tài)系統(tǒng)才是真正的演化,所以,環(huán)境選擇成為企業(yè)生態(tài)系統(tǒng)演化的外部機制。
在“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)面對的環(huán)境選擇更為復(fù)雜,外部環(huán)境可能是企業(yè)生態(tài)系統(tǒng)的穩(wěn)定有序演化的助推器,也可能是破壞和干擾企業(yè)生態(tài)系統(tǒng)有序運行的導(dǎo)火線。外部環(huán)境的選擇主要包括三個方面:第一,企業(yè)生態(tài)系統(tǒng)之間的復(fù)雜競爭關(guān)系,企業(yè)生態(tài)系統(tǒng)之間基于數(shù)據(jù)情報的市場爭奪、技術(shù)競爭和產(chǎn)
品較量更為直接和激烈;另一方面,被“大數(shù)據(jù)”信息包圍的企業(yè)生態(tài)系統(tǒng)開放程度更高、界限更為模糊,企業(yè)生態(tài)系統(tǒng)之間呈現(xiàn)出協(xié)同、融合等狀態(tài),如企業(yè)生態(tài)系統(tǒng)之間的知識溢出、技術(shù)創(chuàng)新呈現(xiàn)出相互學(xué)習(xí)、相互促進。這種基于“大數(shù)據(jù)”的連接與融合,會突破傳統(tǒng)的企業(yè)生態(tài)系統(tǒng)邊界,引發(fā)基于“大數(shù)據(jù)”的產(chǎn)業(yè)鏈延伸和行業(yè)變革。第二,“大數(shù)據(jù)”背景下,社會、經(jīng)濟、文化等環(huán)境因素的改變,包括客戶需求和消費習(xí)慣呈現(xiàn)出完全的個性化和多樣化、“大數(shù)據(jù)”技術(shù)引導(dǎo)的政府政策的設(shè)計和選擇、企業(yè)生態(tài)文化融合性等方面都會直接沖擊到企業(yè)生態(tài)系統(tǒng)演化的速度和效果。第三,自然界因素,如企業(yè)生態(tài)系統(tǒng)生存發(fā)展過程中所需的自然資源、物質(zhì)介質(zhì)等自然界的因素。
因此,“大數(shù)據(jù)”的處理和應(yīng)用,企業(yè)不僅能適應(yīng)環(huán)境,參與開放系統(tǒng)的競爭,而且也具備了影響和改變環(huán)境的條件和能力。在企業(yè)生態(tài)系統(tǒng)自組織的內(nèi)部動力和外部環(huán)境相互作用下,會進行方向性的戰(zhàn)略選擇,實現(xiàn)整個企業(yè)生態(tài)系統(tǒng)的優(yōu)化和升級。
(八)大數(shù)據(jù)生態(tài)系統(tǒng)的構(gòu)建策略
在“大數(shù)據(jù)”時代,遵循企業(yè)生態(tài)系統(tǒng)的特征和演化規(guī)律,建構(gòu)良好的企業(yè)生態(tài)系統(tǒng)是企業(yè)獲取持續(xù)競爭優(yōu)勢的關(guān)鍵。
6.8.1構(gòu)筑以“大數(shù)據(jù)”為核心資源的企業(yè)生態(tài)系統(tǒng)商業(yè)模式
“大數(shù)據(jù)”技術(shù)的發(fā)展為信息的分離提供了平臺和工具,通過對“大數(shù)據(jù)”資源的分類整理和重新聚合,能夠形成新的信息和資源。對“大數(shù)據(jù)”資源規(guī)模經(jīng)濟和范圍經(jīng)濟的追求促使了以“大數(shù)據(jù)”為中心的價值鏈延伸,通過數(shù)據(jù)挖掘、分享、價值傳遞,必將引起企業(yè)生態(tài)系統(tǒng)的價值主張、業(yè)務(wù)流程、盈利模式、價值網(wǎng)絡(luò)等商業(yè)模式要素的改變,形成企業(yè)生態(tài)系統(tǒng)新的商業(yè)模式。例如,淘寶網(wǎng)在運行的過程中采集和存儲了海量的交易數(shù)據(jù),并構(gòu)建了自己高性能的云存儲系統(tǒng)OceanBase,該云存儲系統(tǒng)形成了面向進駐商家的多項數(shù)據(jù)產(chǎn)品,不僅能為商品企業(yè)、淘寶賣家、交易中介、消費者提供各類優(yōu)化工具和數(shù)據(jù)服務(wù);同時,利用OceanBase開源還可以為非淘寶的其他電子商務(wù)網(wǎng)站提供數(shù)據(jù)產(chǎn)品服務(wù),為各類網(wǎng)站及社區(qū)提供電子商務(wù)解決方案,徹底完成了從交易平臺到為整個生態(tài)系統(tǒng)
提供商務(wù)服務(wù)的角色轉(zhuǎn)變,創(chuàng)新了以“大數(shù)據(jù)”為核心資源的商業(yè)模式。
6.8.2暢通企業(yè)生態(tài)系統(tǒng)的數(shù)據(jù)交流渠道
“大數(shù)據(jù)”具有多樣化、數(shù)據(jù)量大、生產(chǎn)的和處理的速度快等特征,一般無法在可容忍的時間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對其進行感知、獲取、管理和服務(wù)。因此,建立在“大數(shù)據(jù)”基礎(chǔ)的企業(yè)生態(tài)系統(tǒng)必須打造先進的基礎(chǔ)設(shè)施,構(gòu)建良好的數(shù)據(jù)處理和知識共享環(huán)境,暢通企業(yè)生態(tài)系統(tǒng)的數(shù)據(jù)交流渠道。這主要包括:
①加大對計算機基礎(chǔ)設(shè)施建設(shè)的投入,建設(shè)高效的企業(yè)生態(tài)系統(tǒng)網(wǎng)絡(luò)、服務(wù)器處理和存儲系統(tǒng)、云計算平臺等硬件系統(tǒng),提高處理數(shù)據(jù)的效率;
②促進數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫系統(tǒng)的建設(shè),建立對非結(jié)構(gòu)化數(shù)據(jù)、非數(shù)值型數(shù)據(jù)進行有效管理的數(shù)據(jù)存儲系統(tǒng);
③開發(fā)科學(xué)的數(shù)據(jù)挖掘系統(tǒng),建立良好的數(shù)據(jù)收集、處理、挖掘、決策支持等軟件系統(tǒng);
④要結(jié)合企業(yè)生態(tài)系統(tǒng)的實際應(yīng)用開辟數(shù)據(jù)交流與共享的渠道,如電子社區(qū)、企業(yè)生態(tài)系統(tǒng)內(nèi)部網(wǎng)、供應(yīng)鏈協(xié)同知識管理系統(tǒng)等。通過構(gòu)建良好的數(shù)據(jù)處理和知識共享系統(tǒng),就能形成“大數(shù)據(jù)”核心資產(chǎn),提高“大數(shù)據(jù)”的傳遞和應(yīng)用效益。
6.8.3創(chuàng)新以“大數(shù)據(jù)”為基礎(chǔ)的關(guān)鍵業(yè)務(wù)和活動流程
“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)的主體、資源、結(jié)構(gòu)、價值、邊界網(wǎng)絡(luò)等要素進行不斷的動態(tài)演化和重構(gòu),創(chuàng)新以“大數(shù)據(jù)”為基礎(chǔ)的關(guān)鍵業(yè)務(wù)和活動流程是企業(yè)生態(tài)系統(tǒng)獲取競爭優(yōu)勢的動力源泉。創(chuàng)新以“大數(shù)據(jù)”為基礎(chǔ)的關(guān)鍵業(yè)務(wù)和活動流程主要包括:
①基于“大數(shù)據(jù)”的流程優(yōu)化,提高業(yè)務(wù)流程的處理效率。如物流企業(yè)通過對合作伙伴多維“大數(shù)據(jù)”的分析,找出企業(yè)物流配送的最優(yōu)運輸模式和路線,提高物流配送效率;
②應(yīng)用“大數(shù)據(jù)”作為企業(yè)活動的關(guān)鍵資源,創(chuàng)新企業(yè)生態(tài)系統(tǒng)的價值活動。如玩具制造企業(yè),通過挖掘企業(yè)生態(tài)系統(tǒng)中合作伙伴的交易數(shù)據(jù)、客戶購買行為
數(shù)據(jù)、產(chǎn)品質(zhì)量數(shù)據(jù)等關(guān)鍵資源,改進產(chǎn)品的設(shè)計和性能,創(chuàng)造企業(yè)新的價值增長點;
③以“大數(shù)據(jù)”活動取代企業(yè)傳統(tǒng)的業(yè)務(wù)和流程,形成企業(yè)生態(tài)系統(tǒng)新的經(jīng)營方式和合作模式。如沃爾瑪和寶潔公司,通過對商業(yè)數(shù)據(jù)的分析形成聯(lián)合庫存管理,改變了傳統(tǒng)的庫存管理的業(yè)務(wù)類型和活動流程。
6.8.4構(gòu)建精確的客戶關(guān)系管理系統(tǒng)
當今經(jīng)濟已進入買方市場,實時的、動態(tài)的、個性化的客戶需求愈發(fā)難以預(yù)測,并成為企業(yè)生態(tài)系統(tǒng)中最不確定的因素,F(xiàn)有的企業(yè)CRM其數(shù)據(jù)主要來自客戶、產(chǎn)品、交易等結(jié)構(gòu)化數(shù)據(jù),對客戶的行為、狀態(tài)、商務(wù)圈等非結(jié)構(gòu)化的數(shù)據(jù)還不能動態(tài)的實時挖掘和處理,難以對客戶的潛在需求進行精確的預(yù)判和定位。在大數(shù)據(jù)背景下,數(shù)據(jù)量成倍增長,數(shù)據(jù)的類型也不斷地豐富,網(wǎng)頁、文件、日志,新的數(shù)據(jù)存儲形式不斷地興起,因此,如何構(gòu)建先進的CRM,對客戶的信息進行全面的分析和處理,是企業(yè)決勝市場的關(guān)鍵。
6.8.5培育以“大數(shù)據(jù)”處理和應(yīng)用為中心的企業(yè)生態(tài)系統(tǒng)文化
企業(yè)從海量雜亂無章的“大數(shù)據(jù)”里要挖掘出對企業(yè)決策有參考價值的數(shù)據(jù),需要經(jīng)歷發(fā)現(xiàn)、提取、加工、創(chuàng)新等一系列復(fù)雜過程,同時需要企業(yè)生態(tài)系統(tǒng)全體成員參與數(shù)據(jù)的管理和控制,形成以數(shù)據(jù)為支持的決策導(dǎo)向。這就需要完善企業(yè)生態(tài)系統(tǒng)的數(shù)據(jù)處理制度,形成重視數(shù)據(jù)處理與應(yīng)用的企業(yè)生態(tài)系統(tǒng)文化,主要措施包括:
①建立數(shù)據(jù)收集和與處理的制度文化,包括數(shù)據(jù)收集、存儲制度、數(shù)據(jù)傳遞、共享制度、保障數(shù)據(jù)安全制度等;
②建立起企業(yè)員工對數(shù)據(jù)處理和應(yīng)用的理念,通過員工技能培訓(xùn)、學(xué)習(xí)、討論、考核等方式深化企業(yè)員工對數(shù)據(jù)開發(fā)和應(yīng)用的意識,讓企業(yè)生態(tài)系統(tǒng)全體成員普遍接受以數(shù)據(jù)應(yīng)用和核心的工作方式;
③在企業(yè)生態(tài)系統(tǒng)成員之間建立行之有效的知識激勵機制,包括知識明晰機制、知識績效機制、知識獎懲機制,以形成特有的、規(guī);摹⒉粩鄤(chuàng)新的知識資產(chǎn)和核心生產(chǎn)要素,培育重視“大數(shù)據(jù)”處理和應(yīng)用的企業(yè)生態(tài)系統(tǒng)文化。
(九)大數(shù)據(jù)分析系統(tǒng)架構(gòu)之探討
6.9.1 Hadoop生態(tài)圈
Hadoop是Apache軟件基金會所開發(fā)的并行計算框架與分布式文件系統(tǒng)。最核心的模塊包括Hadoop Common、HDFS與MapReduce。HDFS是Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System)的縮寫,為分布式計算存儲提供了底層支持。采用Java語言開發(fā),可以部署在多種普通的廉價機器上,以集群處理數(shù)量積達到大型主機處理性能。HDFS采用master/slave架構(gòu)。一個HDFS集群包含一個單獨的NameNode和多個DataNode。NameNode作為master服務(wù),它負責管理文件系統(tǒng)的命名空間和客戶端對文件的訪問。NameNode會保存文件系統(tǒng)的具體信息,包括文件信息、 文件被分割成具體block塊的信息、以及每一個block塊歸屬的DataNode的信息。對于整個集群來說,HDFS通過NameNode對用戶提供 了一個單一的命名空間。DataNode作為slave服務(wù),在集群中可以存在多個。通常每一個DataNode都對應(yīng)于一個物理節(jié)點。DataNode負責管理節(jié)點上它們擁有 的存儲,它將存儲劃分為多個block塊,管理block塊信息,同時周期性的將其所有的block塊信息發(fā)送給NameNode。
在Hadoop的系統(tǒng)中,會有一臺master,主要負責NameNode的工作以及JobTracker的工作。JobTracker的主要職責就是啟 動、跟蹤和調(diào)度各個Slave的任務(wù)執(zhí)行。還會有多臺slave,每一臺slave通常具有DataNode的功能并負責TaskTracker的工作。 TaskTracker根據(jù)應(yīng)用要求來結(jié)合本地數(shù)據(jù)執(zhí)行Map任務(wù)以及Reduce任務(wù)。
MapReduce用于大規(guī)模數(shù)據(jù)集群分布式運算。任務(wù)的分解 (Map)與結(jié)果的匯總(Reduce)是其主要思想。Map就是將一個任務(wù)分解成多個任務(wù),Reduce就是將分解后多任務(wù)分別處理,并將結(jié)果匯總為最終結(jié)果。
HBase是基于HDFS存儲的一個分布式的、面向列的開源數(shù)據(jù)庫。它是Apache Hadoop在HDFS基礎(chǔ)上提供的一個類Bigatable。 是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng)?梢赃@么理解,在 HDFS上,我們看到的是一些非結(jié)構(gòu),零散的文件數(shù)據(jù),透過HBase可以將這些零散的、非結(jié)構(gòu)文件數(shù)據(jù)結(jié)構(gòu)化。從而可以進行一些高層次的操作,例如建表、增加、刪除、更改、查找
等,與傳統(tǒng)的數(shù)據(jù)庫不同的是HBase采用的是列式存儲而不是行式存儲。
Hive是建立在 Hadoop 上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來進行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規(guī)模數(shù)據(jù)的機制。Hive 定義了簡單的類 SQL 查詢語言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數(shù)據(jù)。同時,這個語言也允許熟悉 MapReduce 開發(fā)者的開發(fā)自定義的 mapper 和 reducer 來處理內(nèi)建的 mapper 和 reducer 無法完成的復(fù)雜的分析工作。
Hive 構(gòu)建在基于靜態(tài)批處理的Hadoop 之上,Hadoop 通常都有較高的延遲并且在作業(yè)提交和調(diào)度的時候需要大量的開銷。因此,Hive 并不能夠在大規(guī)模數(shù)據(jù)集上實現(xiàn)低延遲快速的查詢,例如,Hive 在幾百MB 的數(shù)據(jù)集上執(zhí)行查詢一般有分鐘級的時間延遲。因此,Hive 并不適合那些需要低延遲的應(yīng)用,例如,聯(lián)機事務(wù)處理(OLTP)。Hive 查詢操作過程嚴格遵守Hadoop MapReduce 的作業(yè)執(zhí)行模型,Hive 將用戶的HiveQL 語句通過解釋器轉(zhuǎn)換為MapReduce 作業(yè)提交到Hadoop 集群上,Hadoop 監(jiān)控作業(yè)執(zhí)行過程,然后返回作業(yè)執(zhí)行結(jié)果給用戶。Hive 并非為聯(lián)機事務(wù)處理而設(shè)計,Hive 并不提供實時的查詢和基于行級的數(shù)據(jù)更新操作。Hive 的最佳使用場合是大數(shù)據(jù)集的批處理作業(yè),例如,網(wǎng)絡(luò)日志分析。
ApachePig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析工具,它提供的SQL-LIKE語言叫Pig Latin,該語言的編譯器會把類SQL的數(shù)據(jù)分析請求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的MapReduce運算。
Impala是Cloudera公司主導(dǎo)開發(fā)的新型查詢系統(tǒng),它提供SQL語義,能夠查詢存儲在Hadoop的HDFS和HBase中的PB級大數(shù)據(jù)。已 有的Hive系統(tǒng)雖然也提供了SQL語義,但是由于Hive底層執(zhí)行使用的是MapReduce引擎,仍然是一個批處理過程,難以滿足查詢的交互性;相比 之下,Impala的最大特點就是快速。
Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。
Sqoop是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個關(guān)系型數(shù)據(jù)庫中數(shù)據(jù)導(dǎo)入Hadoop的HDFS中,也可以將HDFS中數(shù)據(jù)導(dǎo)入關(guān)系型數(shù)據(jù)庫中。
Chukwa是一個開源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng),它可以將各種各樣類型的數(shù)據(jù)收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop 進行各種 MapReduce 操作。
Apache Mahout是基于Hadoop的機器學(xué)習(xí)和數(shù)據(jù)挖掘的一個分布式框架。Mahout用MapReduce實現(xiàn)了部分數(shù)據(jù)挖掘算法,解決了并行挖掘的問題。
Hama是一個基于HDFS的BSP(Bulk Synchronous Parallel)并行計算框架, Hama可用于包括圖、矩陣和網(wǎng)絡(luò)算法在內(nèi)的大規(guī)模、大數(shù)據(jù)計算。
6.9.2 Spark生態(tài)圈
Spark是基于內(nèi)存分布式的計算框架。spark立足于內(nèi)存計算,從多迭代批量處理出發(fā),兼收并蓄數(shù)據(jù)倉庫、流處理和圖計算等多種計算范式,是罕見的全能選手。Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載。Spark 是在 Scala 語言中實現(xiàn)的,它將 Scala 用作其應(yīng)用程序框架,而Scala的語言特點也鑄就了大部分Spark的成功。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。盡管創(chuàng)建 Spark 是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實際上它是對 Hadoop 的補充,可以在 Hadoop文件系統(tǒng)中并行運行。通過名為 Mesos 的第三方集群框架可以支持此行為。
雖然 Spark 與 Hadoop 有相似之處,但它提供了具有有用差異的一個新的集群計算框架。首先,Spark 是為集群計算中的特定類型的工作負載而設(shè)計,即那些在并行操作之間重用工作數(shù)據(jù)集(比如機器學(xué)習(xí)算法)的工作負載。為了優(yōu)化這些類型的工作負 載,Spark 引進了內(nèi)存集群計算的概念,可在內(nèi)存集群計算中將數(shù)據(jù)集緩存在內(nèi)存中,以縮短訪問延遲。
Spark 還引進了名為 彈性分布式數(shù)據(jù)集 (RDD) 的抽象。RDD 是分布在一組節(jié)點中的只讀對象集合。這些集合是彈性的,如果數(shù)據(jù)集一部分丟失,則可以對它們進行重建。重建部分數(shù)據(jù)集的過程依賴于容錯機制,該機制可以維 護 “血
統(tǒng)”(即充許基于數(shù)據(jù)衍生過程重建部分數(shù)據(jù)集的信息)。RDD 被表示為一個 Scala 對象,并且可以從文件中創(chuàng)建它;一個并行化的切片(遍布于節(jié)點之間);另一個 RDD 的轉(zhuǎn)換形式;并且最終會徹底改變現(xiàn)有 RDD 的持久性,比如請求緩存在內(nèi)存中。
Spark 中的應(yīng)用程序稱為驅(qū)動程序,這些驅(qū)動程序可實現(xiàn)在單一節(jié)點上執(zhí)行的操作或在一組節(jié)點上并行執(zhí)行的操作。與 Hadoop 類似,Spark 支持單節(jié)點集群或多節(jié)點集群。對于多節(jié)點操作,Spark 依賴于 Mesos 集群管理器。Mesos 為分布式應(yīng)用程序的資源共享和隔離提供了一個有效平臺。該設(shè)置充許 Spark 與 Hadoop 共存于節(jié)點的一個共享池中。
GraphX是基于Spark的圖處理和圖并行計算API。GraphX定義了一個新的概念:彈性分布式屬性圖,一個每個頂點和邊都帶有屬性的定向多重 圖;并引入了三種核心RDD:Vertices、Edges、Triplets;還開放了一組基本操作(如subgraph, joinVertices, and mapReduceTriplets),并且在不斷的擴展圖形算法和圖形構(gòu)建工具來簡化圖分析工作。
Tachyon是一個分布式內(nèi)存文件系統(tǒng),可以在集群里以訪問內(nèi)存的速度來訪問存在tachyon里的文件。把 Tachyon是架構(gòu)在最底層的分布式文件存儲和上層的各種計算框架之間的一種中間件。主要職責是將那些不需要落地到DFS里的文件,落地到分布式內(nèi)存文 件系統(tǒng)中,來達到共享內(nèi)存,從而提高效率。同時可以減少內(nèi)存冗余,GC時間等。
Tachyon的架構(gòu)是傳統(tǒng)的Master—slave架構(gòu),這里和Hadoop類似,TachyonMaster里WorkflowManager是 Master進程,因為是為了防止單點問題,通過Zookeeper做了HA,可以部署多臺Standby Master。Slave是由Worker Daemon和Ramdisk構(gòu)成。這里個人理解只有Worker Daemon是基于JVM的,Ramdisk是一個off heap memory。Master和Worker直接的通訊協(xié)議是Thrift。
Mesos master是一個分布式集群資源調(diào)度器,采用某種策略將某個slave上的空閑資源分配給某一個framework,各種framework通過自己的 調(diào)度器向Mesos master注冊,以接入到Mesos中;而Mesos slave主要功能是匯報任務(wù)的狀態(tài)和啟動各個framework的executor。
Yarn是一個實現(xiàn)分布式集群資源管理和調(diào)度的框架。Yarn調(diào)度器根據(jù)容量,
隊列等限制條件(如每個隊列分配一定的資源,最多執(zhí)行一定數(shù)量的作業(yè)等),將系統(tǒng)中的資源分配給各個正在運行的應(yīng)用。這里的調(diào)度器是一個 “純調(diào)度器”,因為它不再負責監(jiān)控或者跟蹤應(yīng)用的執(zhí)行狀態(tài)等,此外,他也不負責重新啟動因應(yīng)用執(zhí)行失敗或者硬件故障而產(chǎn)生的失敗任務(wù)。調(diào)度器僅根據(jù)各個應(yīng) 用的資源需求進行調(diào)度,這是通過抽象概念“資源容器”完成的,資源容器(Resource Container)將內(nèi)存,CPU,磁盤,網(wǎng)絡(luò)等資源封裝在一起,從而限定每個任務(wù)使用的資源量。
BlinkDB是一個很有意思的交互式查詢系統(tǒng),就像一個蹺蹺板,用戶需要在查詢精度和查詢時間上做一權(quán)衡;如果用戶想更快地獲取查詢結(jié)果,那么將犧牲查 詢結(jié)果的精度;同樣的,用戶如果想獲取更高精度的查詢結(jié)果,就需要犧牲查詢響應(yīng)時間。用戶可以在查詢的時候定義一個失誤邊界。
三、結(jié)構(gòu)化數(shù)據(jù)生態(tài)圈:
DBSync數(shù)據(jù)庫同步備份工具是一款異構(gòu)數(shù)據(jù)庫之 間同步的工具,支持市面上大多數(shù)主流數(shù)據(jù)庫,主要有:SqlServer、ORACLE、 DB2、Sybase Access,該軟件提供的ODBC的同步功能,可以間接實現(xiàn)對MYSQL、SYBASE、INTERBASE等其他數(shù)據(jù)庫的支 持。DBSync可以實現(xiàn)計劃、增量、兩表記錄一致等方式的同步操作,利用該軟件,可以實現(xiàn)企業(yè)內(nèi)部應(yīng)用系統(tǒng)數(shù)據(jù)的互通互聯(lián)。該軟件性能穩(wěn)定,能提供 7*24小時不間斷同步的支持,具備單表千萬級記錄甚至更多記錄的同步能力。該軟件的專業(yè)版提供局域網(wǎng)或企業(yè)內(nèi)部網(wǎng)之間數(shù)據(jù)庫的同步(數(shù)據(jù)庫都具備獨立的 IP);企業(yè)版則提供集團在世界范圍內(nèi)的各分支機構(gòu)的數(shù)據(jù)庫同步。
聯(lián)機分析處理(OLAP)系統(tǒng)是數(shù)據(jù)倉庫系 統(tǒng)最主要的應(yīng)用,專門設(shè)計用于支持復(fù)雜的分析操作,側(cè)重對決策人員和高層管理人員的決策支持,可以根據(jù)分析人員的要求快速、靈活地進行大數(shù)據(jù)量的復(fù)雜查詢 處理,并且以一種直觀而易懂的形式將查詢結(jié)果提供給決策人員,以便他們準確掌握企業(yè)(公司)的經(jīng)營狀況,了解對象的需求,制定正確的方案。
HANA是一個軟硬件結(jié)合體,提供高性能的數(shù)據(jù)查詢功能,用戶可以直接對大量實時業(yè)務(wù)數(shù)據(jù)進行查詢和分析,而不需要對業(yè)務(wù)數(shù)據(jù)進行建模、聚合等。
這些多種多樣的數(shù)據(jù)集操作類型,給給開發(fā)上層應(yīng)用的用戶提供了方便。各個處理節(jié)點之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle一種模
式。用戶可以命名,物化,控制中間結(jié)果的存儲、分區(qū)等。可以說編程模型比Hadoop更靈活。
在討論Hadoop系統(tǒng)架構(gòu)之前,首先,我們應(yīng)該明確一件事,Hadoop是做什么用的,簡單的說,Hadoop就是一個基于大量數(shù)據(jù)進行計算的一個平臺,它的計算的核心就是MapReduce,也就是去繁從簡,剔除無用數(shù)據(jù)把有用的留下。HDFS是它的存儲組件,也是它計算最直接的數(shù)據(jù)源。我們的目的就是,首先,將原始的數(shù)據(jù),如數(shù)據(jù)庫中數(shù)據(jù)或日志文件數(shù)據(jù)提取并按一定格式寫入Hadoop計算的數(shù)據(jù)中心——HDFS,然后再通過一系列的計算算法,計算出有用的數(shù)據(jù),再將小量的結(jié)果數(shù)據(jù)存入到結(jié)果數(shù)據(jù)庫中。
同樣的,對于數(shù)據(jù)源,同樣有關(guān)系型數(shù)據(jù)庫,非關(guān)系型數(shù)據(jù)庫,以及日志文件等。對于數(shù)據(jù)庫的數(shù)據(jù),由于已經(jīng)有規(guī)范的物理存儲,我們就無需將其再次存入HDFS,可以考慮在spark與數(shù)據(jù)庫間加入一層內(nèi)存存儲——Tachyon,先將參與計算的數(shù)據(jù)提到分布式的內(nèi)存中,這樣提高計算的效率。而對于日志文件,由于其本身為非結(jié)構(gòu)化的數(shù)據(jù),可能需要經(jīng)過一定的加工處理,因此,有必要先將其統(tǒng)一結(jié)構(gòu)化,所以可以考慮將結(jié)構(gòu)化后的結(jié)果先存入HDFS,再參與計算。另外,考慮到業(yè)務(wù)需求,有的系統(tǒng)可能需要將結(jié)果存入到物理的存儲空間,有的可能希望直接得到例如報表的結(jié)果,所以這里分別針對這兩種需求給出方案:
(1)將Tachyon與HDFS上的數(shù)據(jù)通過機器學(xué)習(xí)后存入數(shù)據(jù)庫,以便后續(xù)加工處理;
(2)引入SparkR統(tǒng)計分析工具,通過SparkR結(jié)合R算法、MLLib算法對數(shù)據(jù)進行學(xué)習(xí),分析,計算后直接得出結(jié)果。
七、結(jié)論
從很多方面來看,我們?nèi)匀惶幵诖髷?shù)據(jù)現(xiàn)象的早期發(fā)展階段。盡管已經(jīng)花費了數(shù)年時間,但減少基礎(chǔ)設(shè)施來存儲和處理大規(guī)模數(shù)據(jù)還只是第一階段。從這個角度來說,大數(shù)據(jù)的機會也許要比我們想象的還要大。然而,隨著大數(shù)據(jù)繼續(xù)走向成熟,這個術(shù)語本身可能會消失,或者變得太過時以至于沒有人會再使用這個詞。這就是成功賦能技術(shù)令人諷刺的命運歸宿—由于技術(shù)的廣泛傳播,然后到達
無所不在的地步,最后被人熟視無睹。
當前,“大數(shù)據(jù)”在我國的理論研究和實踐應(yīng)用的商業(yè)價值已經(jīng)突顯,對于大多數(shù)企業(yè)來說,如何清晰的把握“大數(shù)據(jù)”時代企業(yè)生態(tài)系統(tǒng)的特征和演化規(guī)律,構(gòu)筑合理的企業(yè)生態(tài)系統(tǒng)是企業(yè)脫穎而出形成競爭優(yōu)勢和核心競爭力的關(guān)鍵。同時,“大數(shù)據(jù)”時代的到來,必將孕育新的生產(chǎn)模式、商業(yè)模式、管理模式,企業(yè)生態(tài)系統(tǒng)必將置身于更加開放、更加復(fù)雜、非線性作用的動蕩環(huán)境之中,各種非特定的競爭因素會促使企業(yè)生態(tài)系統(tǒng)發(fā)生持續(xù)的創(chuàng)新和變革。企業(yè)必須洞悉其生態(tài)系統(tǒng)的變化,應(yīng)勢而變,不斷創(chuàng)新,以實現(xiàn)企業(yè)和生態(tài)系統(tǒng)的協(xié)同演化與升級。
盡管大數(shù)據(jù)的發(fā)展已經(jīng)有了較大的進步,但是要想用好大數(shù)據(jù)的資源,我們還是要有一定的方法,即要運用好大數(shù)據(jù)要做到以下幾點:
目標要明確。就算一個公司擁有再多的數(shù)據(jù),也不能代表它就一定會獲得商業(yè)上的成功。只有真正懂得如何利用大數(shù)據(jù),了解到公司利用大數(shù)據(jù)可以達到什么目標,公司最終才有可能真正成功。在公司在發(fā)展過程中往往也會面臨諸多選擇,也只有目標設(shè)定明確了,才能夠縮小選擇范圍聚焦精力去發(fā)展。企業(yè)應(yīng)時刻保持頭腦清醒,朝著自己定好的目標前進,才有助于公司進行持續(xù)長久的良好運作。有時候,利用太復(fù)雜先進的數(shù)據(jù)分析工具往往也會帶來很多問題,不過如果我們能夠通過分析大量的數(shù)據(jù)來得到最終的結(jié)果,那就不用懷疑了,至少方向肯定是對的。
做好團隊的協(xié)調(diào)。在大數(shù)據(jù)的世界里,最有價值和作用的數(shù)據(jù)往往十分稀少。要想找到真正有價值的數(shù)據(jù),就如同大海撈針一樣困難。所以,為了找到這些有價值的數(shù)據(jù),企業(yè)內(nèi)部應(yīng)齊心協(xié)力通力合作,要經(jīng)常保持有效的溝通和協(xié)作。
用機器代替人工。機器學(xué)習(xí)指計算機模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,從而對自身功能進行改進。機器學(xué)習(xí)相比人工學(xué)習(xí),,速度更快,學(xué)習(xí)規(guī)模也更大,一個公司能通過機器學(xué)習(xí)較快地發(fā)現(xiàn)新的問題。所以,企業(yè)如果有大量的數(shù)據(jù)需要進行分析處理,最好的辦法就是讓機器代替人工來做,機器學(xué)習(xí)的速度很快,能在短時間內(nèi)同時分析大量的數(shù)據(jù),這樣一來,所需的分析時間就會大大縮短。與人工分析相比,成本也會大大降低。
要謹慎對待數(shù)據(jù)。有時,企業(yè)是沒有能力去獲取數(shù)據(jù)的,也就沒法用數(shù)據(jù)去
解決問題。就算公司獲得了一些數(shù)據(jù),他們往往也不清楚這些數(shù)據(jù)最終能否解決他們的問題。企業(yè)不僅應(yīng)該了解收集到的數(shù)據(jù)到底能解決哪些問題,更應(yīng)該知道,哪些問題還不能通過這些數(shù)據(jù)得到解決。如果還有一些問題解決不了,公司便需要繼續(xù)收集其他維度的數(shù)據(jù)來補充。有時候,重要的數(shù)據(jù)可能會被忽略。所以,應(yīng)謹慎認真對待數(shù)據(jù),數(shù)據(jù)會真實客觀地告訴你想要的答案。有時,數(shù)據(jù)能告訴你的會讓你大吃一驚。
要避免得出錯誤的結(jié)論。由于人為主觀因素和不相關(guān)數(shù)據(jù)的干擾,有時候得出的結(jié)論往往是錯誤的!安灰尣幌喔傻臄(shù)據(jù)影響到整個結(jié)果,有相當一部分的數(shù)據(jù)并不重要,這些不相關(guān)的‘樹’往往并不能代表整個‘森林’!盠uzzi說,“如果使用了錯誤的數(shù)據(jù),得出的結(jié)論往往也是錯的!睌(shù)據(jù)選擇上的錯誤會影響人們解決問題的過程,也會影響人們?nèi)绾慰创@些數(shù)據(jù)和結(jié)果。錯誤的數(shù)據(jù)選擇可能影響到公司做出相關(guān)決策。
大數(shù)據(jù)的發(fā)展就是為了人們更好地利用數(shù)據(jù),而大數(shù)據(jù)生態(tài)的建立為大數(shù)據(jù)的利用提供了系統(tǒng)的科學(xué)理論及實踐方法,為以后的大數(shù)據(jù)發(fā)展奠定基礎(chǔ),本文也是能夠讓更多人了解大數(shù)據(jù)生態(tài)系統(tǒng)的組織結(jié)構(gòu)和科學(xué)內(nèi)涵。
參考文獻
[1]李金昌.大數(shù)據(jù)與統(tǒng)計新思維[J].統(tǒng)計研究,2014,01:10-17.
[2]朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計研究,2014,02:10-19.
[3]涂新莉,劉波,林偉偉.大數(shù)據(jù)研究綜述[J].計算機應(yīng)用研究,2014,06:1612-1616+1623.
[4]任磊,杜一,馬帥,張小龍,戴國忠.大數(shù)據(jù)可視分析綜述[J].軟件學(xué)報,2014,09:1909-1936.
[5]程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報,2014,09:1889-1908.
[6]方巍,鄭玉,徐江.大數(shù)據(jù):概念、技術(shù)及應(yīng)用研究綜述[J].南京信息工程大學(xué)學(xué)報(自然科學(xué)版),2014,05:405-419.
[7]李建中,劉顯敏.大數(shù)據(jù)的一個重要方面:數(shù)據(jù)可用性[J].計算機研究與發(fā)展,2013,06:1147-1162.
[8]王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計算機學(xué)報,2013,06:1125-1138.
[9]申德榮,于戈,王習(xí)特,聶鐵錚,寇月.支持大數(shù)據(jù)管理的NoSQL系統(tǒng)研究綜述[J].軟件學(xué)報,2013,08:1786-1803.
[10]俞立平.大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟學(xué)[J].中國軟科學(xué),2013,07:177-183.
[11]陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述[J].系統(tǒng)仿真學(xué)報,2013,S1:142-146.
[12]姜強,趙蔚,王朋嬌,王麗萍.基于大數(shù)據(jù)的個性化自適應(yīng)在線學(xué)習(xí)分析模型及實現(xiàn)[J].中國電化教育,2015,01:85-92.
[13]何克抗.大數(shù)據(jù)面面觀[J].電化教育研究,2014,10:8-16+22.
[14]李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國科學(xué):信息科學(xué),2015,01:1-44.
[15]彭宇,龐景月,劉大同,彭喜元.大數(shù)據(jù):內(nèi)涵、技術(shù)體系與展望[J].電子測量與儀器學(xué)報,2015,04:469-482.
[16]張引,陳敏,廖小飛.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計算機研究與發(fā)展,2013,S2:216-233.
[17]王珊,王會舉,覃雄派,周烜.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機學(xué)報,2011,10:1741-1752.
[18]James M.TIEN. BIG DATA:UNLEASHING INFORMATION[J]. Journal of Systems Science and Systems Engineering,2013,02:127-151.
[19]劉越,賀佳,郭敏杰,楊青,張新生. 中國大數(shù)據(jù)行業(yè)發(fā)展綜述(英文)[J]. 中國通信,2014,12:1-10.
[20]彭宇,龐景月,劉大同,彭喜元. 大數(shù)據(jù):內(nèi)涵、技術(shù)體系與展望[J]. 電子測量與儀器學(xué)報,2015,04:469-482.
[21]Hua-Ping Zhang,Rui-Qi Zhang,Yan-Ping Zhao,Bao-Jun Ma. Big Data Modeling and Analysis of Microblog Ecosystem[J]. International Journal of Automation and Computing,2014,02:119-127.
[22]Huadong Guo,Lizhe Wang,Fang Chen,Dong Liang. Scientific big data and Digital Earth[J]. Chinese Science Bulletin,2014,35:5066-5073.
[23]Changjun Jiang,Zhijun Ding,Junli Wang,Chungang Yan. Big data resource service platform for the internet financial industry[J]. Chinese Science Bulletin,2014,35:5051-5058.
[24]Howard Elias. The Big Data Challenge:How to Develop a Winning Strategy[J]. 中國制造業(yè)信息化,2012,14:53-55.
[25]Ronald ROUSSEAU. A view on big data and its relation to Informetrics[J]. Chinese Journal of Library and Information Science,2012,03:12-26.
百度搜索“就愛閱讀”,專業(yè)資料,生活學(xué)習(xí),盡在就愛閱讀網(wǎng)92to.com,您的在線圖書館
歡迎轉(zhuǎn)載:
分享:
推薦: 2002 2003 2005年環(huán)境心理學(xué)試卷
如何解答歷史選擇題
標簽: 知識圖譜構(gòu)建技術(shù)綜述
猜你喜歡
本文關(guān)鍵詞:大數(shù)據(jù)系統(tǒng)綜述,由筆耕文化傳播整理發(fā)布。
本文編號:228588
本文鏈接:http://sikaile.net/wenshubaike/xxkj/228588.html