駕馭大數(shù)據(jù)時(shí)代必修的技術(shù)課
本文關(guān)鍵詞:駕馭大數(shù)據(jù),由筆耕文化傳播整理發(fā)布。
大數(shù)據(jù)中的“大”和“數(shù)據(jù)”哪個(gè)更重要
現(xiàn)在讓我們先做一個(gè)小測(cè)驗(yàn)!在你繼續(xù)閱讀之前,請(qǐng)先停下片刻,并思考這個(gè)問題:術(shù)語(yǔ)“大數(shù)據(jù)”中,哪部分是最重要的?是(1)“大”,(2)“數(shù)據(jù)”,(3)二者同等重要,還是(4)都不重要? 請(qǐng)花一分鐘時(shí)間來(lái)思考這個(gè)問題,如果你已經(jīng)鎖定了自己的答案,請(qǐng)繼續(xù)閱讀后面的內(nèi)容。同時(shí),想象一下正在播放著“參賽者正在思考”音樂的游戲節(jié)目場(chǎng)景。
好了,既然你已經(jīng)鎖定了答案,讓我們來(lái)看一下它是否正確。這個(gè)問題的答案應(yīng)該選(4),其實(shí)“大”和“數(shù)據(jù)”都不是大數(shù)據(jù)中最重要的。根本而言,最重要的應(yīng)該是企業(yè)如何來(lái)駕馭這些大數(shù)據(jù)。你的企業(yè)對(duì)大數(shù)據(jù)進(jìn)行的分析,以及隨之采取的業(yè)務(wù)改進(jìn)措施才是最重要的。
無(wú)論如何,擁有大量的數(shù)據(jù)本身并不會(huì)增加任何價(jià)值。也許你擁有的數(shù)據(jù)比我擁有的數(shù)據(jù)多,可那又如何?事實(shí)上,擁有任何一個(gè)數(shù)據(jù)集,無(wú)論它們多大或者多小,其自身都不會(huì)帶來(lái)任何價(jià)值。被收集來(lái)的數(shù)據(jù)如果從不使用,不會(huì)比存放在閣樓或地下室的垃圾更有價(jià)值。如果不投入具體的環(huán)境中并付諸使用,數(shù)據(jù)將毫無(wú)意義。對(duì)于任何大量或少量的大數(shù)據(jù),大數(shù)據(jù)的威力體現(xiàn)在如何處理這些數(shù)據(jù)上。如何分析這些數(shù)據(jù)?基于這些洞察又將采取怎樣的行動(dòng)?如何利用這些數(shù)據(jù)來(lái)改變業(yè)務(wù)?
或許因?yàn)樽x了很多炒作大數(shù)據(jù)的文章,很多人開始相信正是由于大數(shù)據(jù)的大容量、高速和多樣性,才使得它們比其他數(shù)據(jù)更具有優(yōu)勢(shì)且更重要。但這并不正確。正如我們將在本章后面“絕大多數(shù)大數(shù)據(jù)并不重要”一節(jié)中所討論的,在很多大數(shù)據(jù)中,毫無(wú)價(jià)值或者價(jià)值很小的內(nèi)容所占的比例要比以往數(shù)據(jù)源中高得多。當(dāng)你把大數(shù)據(jù)精簡(jiǎn)至實(shí)際需要的容量時(shí),它們將不再顯得如此龐大。但這并不重要,因?yàn)椴还芩潜3衷即笮。是被處理后變得很小,容量并不重要,重要的是如何處理它。
大數(shù)據(jù)的風(fēng)險(xiǎn)
大數(shù)據(jù)會(huì)帶來(lái)一些風(fēng)險(xiǎn)。其中一個(gè)風(fēng)險(xiǎn)是企業(yè)可能會(huì)被大數(shù)據(jù)壓得不堪重負(fù),從而停滯不前。正如我們將在第8章中討論的,關(guān)鍵是要有合適的掌舵人來(lái)保證這些不會(huì)發(fā)生。你需要這些掌舵人去征服大數(shù)據(jù),并處理各種問題。有了他們來(lái)處理問題,企業(yè)可以避免陷入泥沼而無(wú)法前行。
另一個(gè)風(fēng)險(xiǎn)是當(dāng)收集如此龐大的大數(shù)據(jù)時(shí),其成本的增長(zhǎng)速度會(huì)快到令企業(yè)措手不及。和處理其他事物的方法一樣,避免這種情況出現(xiàn)的方法是要保證以適當(dāng)?shù)牟椒デ斑M(jìn),使得企業(yè)能夠及時(shí)跟上。沒有必要從明天開始行動(dòng),一條不漏地收集所有的新數(shù)據(jù)。而應(yīng)當(dāng)立即去做的是,開始收集一些新數(shù)據(jù)源的樣本并試圖了解它們?梢允褂眠@些初始樣本進(jìn)行一些實(shí)驗(yàn)分析,從而弄清楚數(shù)據(jù)源中哪些數(shù)據(jù)是重要的,以及如何使用它們。以樣本數(shù)據(jù)為基礎(chǔ),企業(yè)已經(jīng)做好了有效地處理更大規(guī)模數(shù)據(jù)源的準(zhǔn)備。
對(duì)于很多大數(shù)據(jù)源,其最大的風(fēng)險(xiǎn)或許是隱私。如果世界上的每個(gè)人都是善良和誠(chéng)實(shí)的,那么我們就沒有必要去擔(dān)心隱私問題了。但不是每個(gè)人都是善良和誠(chéng)實(shí)的。事實(shí)上,進(jìn)一步講,還有很多并不善良和誠(chéng)實(shí)的公司,甚至有的政府機(jī)構(gòu)都不善良和誠(chéng)實(shí)。這使得大數(shù)據(jù)存在一些潛在的風(fēng)險(xiǎn)。在處理大數(shù)據(jù)時(shí),必須考慮到隱私問題,否則就無(wú)法完全發(fā)揮其潛能。如果沒有適當(dāng)?shù)南拗疲髷?shù)據(jù)有可能會(huì)激發(fā)一股抗議風(fēng)潮,以至于可能會(huì)被完全禁止。
回想一下最近受到廣泛關(guān)注的一些安全性事件,例如,信用卡卡號(hào)和政府機(jī)密文件被竊取并發(fā)布在網(wǎng)上的泄密事件。因此毫不夸張地說(shuō),如果把數(shù)據(jù)儲(chǔ)存在那里,總會(huì)有人試圖去偷取它。一旦壞人拿到了這些數(shù)據(jù),他們一定會(huì)利用這些數(shù)據(jù)去做壞事。已經(jīng)有過幾起倍受矚目的案件,一些大公司由于其含糊不明的隱私政策而陷入麻煩之中。由于數(shù)據(jù)是以一種顧客不知情、不支持的方式被使用的,因此會(huì)產(chǎn)生沖突。隨著大數(shù)據(jù)的爆炸式增長(zhǎng),必須同時(shí)對(duì)其使用自我約束和施加法律約束。
自我約束非常關(guān)鍵,畢竟它表明了行業(yè)對(duì)隱私保護(hù)的關(guān)注程度。每個(gè)行業(yè)都應(yīng)該對(duì)自身進(jìn)行約束,并且制定一些所有人都要遵守的法則。自愿接受的法則通常要比政府機(jī)構(gòu)參與制定的法規(guī)效果更好一些,但約束力要更差一些,這是因?yàn)樾袠I(yè)并不善于約束自身。
你為什么需要駕馭大數(shù)據(jù)
目前為止,很多企業(yè)在大數(shù)據(jù)上所做的事情還非常少。幸運(yùn)的是,在2012年,如果你的企業(yè)還沒重視大數(shù)據(jù),你們落后得還不算很遠(yuǎn),除非你是在電子商務(wù)這樣的行業(yè)(在這些行業(yè)中,大數(shù)據(jù)分析已經(jīng)被標(biāo)準(zhǔn)化了)。然而,隨著勢(shì)頭的飛快增長(zhǎng),這種情況會(huì)很快改變。迄今為止,大部分企業(yè)所錯(cuò)過的僅僅是做領(lǐng)導(dǎo)者的機(jī)會(huì)。事實(shí)上,這對(duì)于很多企業(yè)來(lái)說(shuō)并不是什么問題。今天,它們?nèi)杂袡C(jī)會(huì)迎頭趕上。然而再過幾年,如果一家企業(yè)還沒有分析大數(shù)據(jù),那么它在這場(chǎng)游戲中將很難再趕上別的企業(yè)。駕馭大數(shù)據(jù)最好的時(shí)機(jī)正是現(xiàn)在!
一家企業(yè)完全可以借助新的數(shù)據(jù)源來(lái)獲取業(yè)務(wù)價(jià)值,而其競(jìng)爭(zhēng)對(duì)手卻沒有做同樣的事情,這種情況并不常見。這是如今大數(shù)據(jù)所帶來(lái)的巨大商機(jī),你將有機(jī)會(huì)超過你的競(jìng)爭(zhēng)對(duì)手并擊敗它們。在未來(lái)幾年內(nèi),我們將會(huì)繼續(xù)看到通過大數(shù)據(jù)分析進(jìn)行成功業(yè)務(wù)轉(zhuǎn)型的案例。你將會(huì)從很多案例分析中看到,競(jìng)爭(zhēng)對(duì)手是如何被猝不及防地拋進(jìn)歷史的塵埃中。在很多文章、會(huì)議以及其他的討論中,已經(jīng)有很多此類案例引人矚目。一些案例正是來(lái)自于行業(yè)中那些遲鈍、落后以及守舊的企業(yè)。在電子商務(wù)這樣新興而火爆的行業(yè)中,情況則完全兩樣。在第2章和第3章中,我們將會(huì)看到很多如何使用大數(shù)據(jù)的案例。
有效過濾大數(shù)據(jù)
大數(shù)據(jù)帶來(lái)的最大挑戰(zhàn)可能并不是你要對(duì)它做的分析工作,而是你為分析做的一系列準(zhǔn)備,而是提取、轉(zhuǎn)換和加載(ETL)流程。ETL是指獲取原始大數(shù)據(jù)流,然后對(duì)其進(jìn)行解析,并產(chǎn)生可用輸出數(shù)據(jù)集的過程。從數(shù)據(jù)源中提。‥)數(shù)據(jù),然后經(jīng)過各種聚合、函數(shù)、組合等轉(zhuǎn)換(T),使其變?yōu)榭捎脭?shù)據(jù)。最終,數(shù)據(jù)會(huì)被加載(L)到對(duì)它進(jìn)行具體分析的環(huán)境中。這就是ETL流程。
讓我們?cè)倩仡^看一下之前討論過的那個(gè)比喻:通過一個(gè)吸管吸水。當(dāng)你從吸管中吸水的時(shí)候,你并不關(guān)心喝到你嘴里的水是來(lái)自于哪一部分。然而對(duì)大數(shù)據(jù)來(lái)說(shuō),你對(duì)收集數(shù)據(jù)流的哪一部分卻非常在乎。有必要事先探索和理解整個(gè)數(shù)據(jù)流,只有這樣你才能過濾出你想要的那部分信息。這也解釋了為什么駕馭大數(shù)據(jù)需要付出如此之多的前期努力。
今天的大數(shù)據(jù)將不再是明天的大數(shù)據(jù)
正如我們?cè)诒菊伦铋_始所討論的,大數(shù)據(jù)被公認(rèn)的定義多少還有一些模糊。沒有一個(gè)明確和廣泛的定義,什么樣的數(shù)據(jù)可以被視為大數(shù)據(jù)。相反地,大數(shù)據(jù)的定義是相對(duì)于當(dāng)前可用的技術(shù)和資源而言的。結(jié)果,某一個(gè)企業(yè)或行業(yè)所認(rèn)為的大數(shù)據(jù),,可能對(duì)于另一個(gè)企業(yè)或行業(yè)就不再是大數(shù)據(jù)。對(duì)于大的電子商務(wù)企業(yè),它們眼里的大數(shù)據(jù)要比小廠商眼里的大數(shù)據(jù)“大”得多。
更重要的是,隨著時(shí)間的推移,處理數(shù)據(jù)的工具和技術(shù)、原始存儲(chǔ)空間和處理能力都會(huì)不斷演進(jìn),大數(shù)據(jù)的界定也必然會(huì)發(fā)生變化。10年或20年之前,幾百個(gè)領(lǐng)域,幾百萬(wàn)個(gè)顧客的年家庭人口檔案是非常龐大并難以管理的。而如今,這些數(shù)據(jù)可以存入一個(gè)U盤中,并可以使用低端的筆記本電腦對(duì)其進(jìn)行分析。對(duì)大容量、高速度、高復(fù)雜度的界定會(huì)一直演變,對(duì)大數(shù)據(jù)也同樣如此。
10年以前,零售業(yè)、電信業(yè)以及金融業(yè)的交易數(shù)據(jù)非常龐大,并且難以處理。事實(shí)上,在20世紀(jì)90年代后期之前,對(duì)于很多企業(yè),這些數(shù)據(jù)都沒有被用在分析和報(bào)表中。如今,這些數(shù)據(jù)已被認(rèn)為是一項(xiàng)必要且基本的資產(chǎn)。事實(shí)上每一家公司,不論大小,都會(huì)使用到這些數(shù)據(jù)。
類似地,我們今天所懼怕的事情,幾年之后將不會(huì)再如此可怕。來(lái)自網(wǎng)頁(yè)的點(diǎn)擊流數(shù)據(jù)也許在10年內(nèi)便可以成為標(biāo)準(zhǔn)化的、易于處理的數(shù)據(jù)源。對(duì)于大多數(shù)企業(yè),積極地處理每封電子郵件、每次顧客服務(wù)談話、每條社交媒體評(píng)論都可能成為標(biāo)準(zhǔn)化的實(shí)踐行為。每秒鐘在搜索引擎中跟蹤幾百個(gè)指標(biāo)對(duì)任何人來(lái)說(shuō)都不再是什么費(fèi)力的事情。
在我們正在駕馭這一代大數(shù)據(jù)的同時(shí),其他一些更大的數(shù)據(jù)源正在逐漸登上歷史舞臺(tái)。它們會(huì)是什么樣子?如今還沒有人可以完全回答這個(gè)問題。然而,以下是一些關(guān)于當(dāng)前數(shù)據(jù)源如何迅速升級(jí)到更大量級(jí)的觀點(diǎn)。
想象一下網(wǎng)絡(luò)瀏覽數(shù)據(jù)會(huì)從網(wǎng)頁(yè)點(diǎn)擊數(shù)據(jù)擴(kuò)展到毫秒級(jí)的眼動(dòng)和鼠標(biāo)移動(dòng)數(shù)據(jù),因此用戶上網(wǎng)沖浪的每一個(gè)微小細(xì)節(jié)都能夠被捕捉到,而不只是點(diǎn)擊數(shù)據(jù)。這是大數(shù)據(jù)的另一個(gè)層次。
想象一下視頻游戲遙感數(shù)據(jù)將會(huì)升級(jí)到不僅僅只包含按鍵和移動(dòng)數(shù)據(jù)。想象一下它同樣會(huì)包括玩家的眼動(dòng)、身體移動(dòng)以及游戲場(chǎng)景中涉及的每個(gè)對(duì)象的位置和狀態(tài),而不僅僅是直接交互的對(duì)象。這使得數(shù)據(jù)變得非常龐大。
想象一下全球每家商店、分銷商以及制造工廠中的每一件商品都擁有可用的RFID信息。想象一下那些可以每秒鐘收集幾十個(gè)指標(biāo),例如,溫度、濕度、速度、加速度、壓強(qiáng)等信息的芯片。這類數(shù)據(jù)的體積在今天看來(lái)是無(wú)法想象的。
想象一下將顧客服務(wù)或電話銷售的每一次談話都記錄并轉(zhuǎn)譯為文本。再加上所有相關(guān)的電子郵件、在線聊天,以及社交網(wǎng)站或產(chǎn)品點(diǎn)評(píng)網(wǎng)站上的評(píng)論。現(xiàn)在,去解析、整合并分析所有這些文本吧,你的大腦是不是已經(jīng)要爆炸了?
大數(shù)據(jù)會(huì)一直存在下去。盡管幾年之后,今天我們覺得恐怖的大數(shù)據(jù)會(huì)變得不再那么嚇人,但總會(huì)有令人恐怖的新數(shù)據(jù)源出現(xiàn)。企業(yè)需要持續(xù)地調(diào)整它們的方法和目標(biāo),以適應(yīng)企業(yè)所涉及數(shù)據(jù)的變化。然而,如果企業(yè)還不具備處理大數(shù)據(jù)的能力,也便談不上對(duì)數(shù)據(jù)處理方法的調(diào)整和升級(jí)。所以,你需要現(xiàn)在開始!
本文摘自《駕馭大數(shù)據(jù)》
下面必修課書目中給大家分享“駕馭大數(shù)據(jù)系列”圖書。
Hadoop技術(shù)詳解
HBase管理指南
HBase實(shí)戰(zhàn)
HBase權(quán)威指南
Hive編程指南
Pig編程指南
MapReduce 2.0源碼分析與編程實(shí)戰(zhàn)
駕馭大數(shù)據(jù)
大數(shù)據(jù)分析:點(diǎn)“數(shù)”成金
本文關(guān)鍵詞:駕馭大數(shù)據(jù),由筆耕文化傳播整理發(fā)布。
本文編號(hào):319156
本文鏈接:http://sikaile.net/wenshubaike/mishujinen/319156.html