探討:大數(shù)據(jù)的應(yīng)用場(chǎng)景及實(shí)際可落地性問(wèn)題
對(duì)于大數(shù)據(jù)的應(yīng)用場(chǎng)景,談的文章已經(jīng)相當(dāng)多,包括各行各業(yè)對(duì)大數(shù)據(jù)處理和分析的應(yīng)用,在此僅僅思考在各種不同的行業(yè)如何來(lái)發(fā)現(xiàn)潛在存在的大數(shù)據(jù)應(yīng)用場(chǎng)景。
首先可以從大數(shù)據(jù)的4V特性入手來(lái)進(jìn)行思考和分析,在數(shù)據(jù)類(lèi)型上更加強(qiáng)調(diào)了多種異構(gòu)類(lèi)型數(shù)據(jù)形成的混合存儲(chǔ),對(duì)于傳統(tǒng)單純的結(jié)構(gòu)化數(shù)據(jù)或單純的文檔類(lèi)非結(jié)構(gòu)化數(shù)據(jù)都有解決方案,而真正難的是混合存儲(chǔ)并提供統(tǒng)一的大數(shù)據(jù)服務(wù)開(kāi)放能力接口。拿企業(yè)內(nèi)部信息化應(yīng)用場(chǎng)景來(lái)說(shuō),如果從單一入口原則入手,某個(gè)關(guān)鍵字能夠搜索到郵件,業(yè)務(wù)系統(tǒng),文本文檔,互聯(lián)網(wǎng)等多種渠道來(lái)源的異構(gòu)混合數(shù)據(jù),即可形成一個(gè)典型的大數(shù)據(jù)場(chǎng)景。
對(duì)于海量的問(wèn)題一定要區(qū)分結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)分別對(duì)待,對(duì)于完全的結(jié)構(gòu)化數(shù)據(jù)往往上10T已經(jīng)是一個(gè)海量的數(shù)據(jù)庫(kù),如果僅僅從單節(jié)點(diǎn)考慮這種數(shù)據(jù)庫(kù)已經(jīng)很難真正滿(mǎn)足大數(shù)據(jù)分析所需要的速度要求,轉(zhuǎn)而才是需要的類(lèi)似MPP+ShareNothing機(jī)制或Hadoop分布式存儲(chǔ)加分析機(jī)制來(lái)解決OLAP層面的問(wèn)題。因此對(duì)于傳統(tǒng)的BI應(yīng)用面對(duì)海量數(shù)據(jù)無(wú)法滿(mǎn)足準(zhǔn)實(shí)時(shí)性數(shù)據(jù)分析需求的時(shí)候,需要考慮的是大數(shù)據(jù)分析和應(yīng)用。
在速度和時(shí)效上是我們考慮的另外一個(gè)重要問(wèn)題,傳統(tǒng)的ODS庫(kù)或OLAP分析往往很難滿(mǎn)足實(shí)時(shí)性的要求。而基于增量的實(shí)時(shí)數(shù)據(jù)采集,流處理機(jī)制等很好的解決了這個(gè)問(wèn)題。在這里并不是強(qiáng)調(diào)的數(shù)據(jù)量和數(shù)據(jù)的異構(gòu)情況,而是更加強(qiáng)調(diào)了對(duì)數(shù)據(jù)的增量實(shí)時(shí)采集和分析機(jī)制。那么對(duì)于傳統(tǒng)ODS構(gòu)建無(wú)法滿(mǎn)足實(shí)時(shí)或即席查詢(xún)的場(chǎng)景往往也存在大數(shù)據(jù)技術(shù)的應(yīng)用。
其次從大數(shù)據(jù)帶來(lái)的一些思維轉(zhuǎn)變上來(lái)分析大數(shù)據(jù)的場(chǎng)景,首先是對(duì)于企業(yè)的大數(shù)據(jù)分析和應(yīng)用,首先就是要將視線(xiàn)從傳統(tǒng)的企業(yè)內(nèi)部拓展到企業(yè)外部,特別是在用戶(hù)行為分析,市場(chǎng)營(yíng)銷(xiāo)等方面基于企業(yè)內(nèi)部傳統(tǒng)業(yè)務(wù)系統(tǒng)收集的數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的,只有基于大量外部數(shù)據(jù)的相關(guān)性分析往往才能得出更加有價(jià)值的推論。這也是往往互聯(lián)網(wǎng)行業(yè)對(duì)大數(shù)據(jù)應(yīng)用最先發(fā)展和成熟一樣,來(lái)自企業(yè)外圍的用戶(hù)行為,社交,交易,行動(dòng)路線(xiàn)等數(shù)據(jù),來(lái)自各種傳感設(shè)備采集的視頻,流量,溫度數(shù)據(jù)才真正構(gòu)成了一個(gè)大數(shù)據(jù)環(huán)境。
大數(shù)據(jù)關(guān)注的是全量數(shù)據(jù)而非抽樣數(shù)據(jù),那么這帶來(lái)的思維轉(zhuǎn)變就是原來(lái)采用抽樣數(shù)據(jù)分析和統(tǒng)計(jì)的場(chǎng)景是否可以轉(zhuǎn)化為大數(shù)據(jù)場(chǎng)景,而需要采集全量數(shù)據(jù)一定不可能靠人工來(lái)完成,轉(zhuǎn)化的替代思維就是需要通過(guò)傳感網(wǎng)和各種傳感設(shè)備自動(dòng)采集完成。因此抽樣-》全量-》傳感設(shè)備實(shí)時(shí)采集全量數(shù)據(jù)-》全量數(shù)據(jù)存儲(chǔ)和分析即構(gòu)成一個(gè)完整的大數(shù)據(jù)思維的轉(zhuǎn)變。
分析評(píng)估或預(yù)測(cè)模型,類(lèi)似交通行業(yè)的交通流預(yù)測(cè)或誘導(dǎo)模型,金融行業(yè)的信用評(píng)估和風(fēng)控模型,醫(yī)療行業(yè)的疾病預(yù)測(cè)模型,保險(xiǎn)行業(yè)的精算模型等,當(dāng)我們對(duì)這些模型進(jìn)行重新思考的時(shí)候會(huì)發(fā)現(xiàn),原有建模和模型分析思路往往并沒(méi)有錯(cuò),但是在原來(lái)本身就會(huì)遇到數(shù)據(jù)收集困難性,如涉及到大量外部協(xié)同單位數(shù)據(jù)的開(kāi)放和收集,涉及到用戶(hù)行為和習(xí)慣數(shù)據(jù)的收集等,而這些也正是大數(shù)據(jù)的重要應(yīng)用場(chǎng)景。大數(shù)據(jù)下我們強(qiáng)調(diào)相關(guān)性,但是不能否定因果關(guān)系。其實(shí)很多時(shí)候?qū)嶋H情況還是我們首先在思考一個(gè)價(jià)值目標(biāo),然后再考慮圍繞這個(gè)價(jià)值目標(biāo)所涉及到的所有相關(guān)因素和因子,再考慮這些因子間的相互關(guān)系權(quán)重,因素的采集和分析方法等。
不論是哪個(gè)行業(yè)的大數(shù)據(jù)分析和應(yīng)用場(chǎng)景,可以看到一個(gè)典型的特點(diǎn)還是無(wú)法離開(kāi)以人為中心所產(chǎn)生的各種用戶(hù)行為數(shù)據(jù),用戶(hù)業(yè)務(wù)活動(dòng)和交易記錄,用戶(hù)社交數(shù)據(jù),這些核心數(shù)據(jù)的相關(guān)性再加上可感知設(shè)備的智能數(shù)據(jù)采集就構(gòu)成一個(gè)完整的大數(shù)據(jù)生態(tài)環(huán)境。
單純的數(shù)據(jù)采集,數(shù)據(jù)存儲(chǔ),數(shù)據(jù)處理往往都只是大數(shù)據(jù)中應(yīng)用到的技術(shù)能力,而大數(shù)據(jù)場(chǎng)景的本質(zhì)還是業(yè)務(wù)價(jià)值驅(qū)動(dòng)下的大數(shù)據(jù)分析和挖掘,為了達(dá)到這個(gè)目標(biāo)往往則涉及到數(shù)據(jù)采集,集成,存儲(chǔ),處理,分析,挖掘等大數(shù)據(jù)的全生命周期管理過(guò)程。
下面談一些大數(shù)據(jù)的一些實(shí)際可落地性問(wèn)題,只有將場(chǎng)景和業(yè)務(wù)價(jià)值想清楚了,再談大數(shù)據(jù)的各種解決方案和技術(shù)架構(gòu)才真正有價(jià)值,F(xiàn)在大數(shù)據(jù)談?wù)摰暮芏,其?shí)很多僅僅是一個(gè)海量數(shù)據(jù)的存儲(chǔ)和分析,用到了一些分布式存儲(chǔ)和查詢(xún)分析技術(shù),不能給足夠說(shuō)明就是一個(gè)大數(shù)據(jù)場(chǎng)景范疇。
首先可以看下最初談大數(shù)據(jù)的時(shí)候,我們談的最多的仍然是用戶(hù)行為分析,即通過(guò)各種用戶(hù)行為,包括瀏覽記錄,消費(fèi)記錄,交往和購(gòu)物娛樂(lè),行動(dòng)軌跡等各種用戶(hù)行為產(chǎn)生的數(shù)據(jù)。由于這些數(shù)據(jù)本身符合海量,異構(gòu)的特征,同時(shí)通過(guò)分析這些數(shù)據(jù)之間的關(guān)聯(lián)性容易匹配某些結(jié)果現(xiàn)象。即有一堆的行為因子x,同時(shí)又有一堆的結(jié)果構(gòu)成y,我們找尋到了某種相關(guān)性,有利于我們調(diào)整后續(xù)的各種策略。注意相關(guān)性重要,并不代表因果關(guān)系不重要,只是找尋因果關(guān)系往往更加困難而已。
為何一談到大數(shù)據(jù)往往就會(huì)涉及到個(gè)人隱私,這個(gè)是相對(duì)敏感的話(huà)題,要分析用戶(hù)行為就一定涉及到個(gè)人行為數(shù)據(jù)的采集,自然是侵犯到個(gè)人的隱私。包括對(duì)我們個(gè)人電腦上對(duì)瀏覽記錄信息收集和采集的軟件,如果沒(méi)有得到用戶(hù)認(rèn)可也是很大的侵犯了個(gè)人隱私。
對(duì)于涉及到能夠采集單個(gè)用戶(hù)行為和消費(fèi)數(shù)據(jù)的電商門(mén)戶(hù)網(wǎng)站或移動(dòng)APP來(lái)說(shuō),我們可以看到,對(duì)于行為因子的來(lái)源往往是單一的,但是行為因子是依托在人身上的,人和人之間相互發(fā)生和關(guān)系和交互,這就使x因子能夠產(chǎn)生更多的關(guān)聯(lián)關(guān)系可以分析。那么對(duì)于類(lèi)似淘寶退出的數(shù)據(jù)魔方和消費(fèi)行為分析可以看做是大數(shù)據(jù)應(yīng)用的例子,對(duì)于瀏覽行為中的定向推薦可以看做是大數(shù)據(jù)的場(chǎng)景。但是這里面還是存在一直無(wú)法突破的隱私問(wèn)題,即類(lèi)似淘寶是很難采集個(gè)人瀏覽京東,亞馬遜等其它電商網(wǎng)站的記錄的,也無(wú)法采集用戶(hù)的其它行為數(shù)據(jù),即單一的x行為因子分析要得出高準(zhǔn)確的相關(guān)性結(jié)論不是一件容易的事情。由于涉及到隱私和垂直網(wǎng)站門(mén)戶(hù)之間本身的競(jìng)爭(zhēng)關(guān)系,這個(gè)數(shù)據(jù)要能夠融合短期也是不可能的。
那現(xiàn)在針對(duì)性營(yíng)銷(xiāo)或廣告推薦如何在做?即采集個(gè)人瀏覽器上的cookies信息,這個(gè)信息是瀏覽所有網(wǎng)站都會(huì)記錄下來(lái)的臨時(shí)信息,采用這些信息來(lái)做定向廣告推薦往往會(huì)更加有效。但是這本身來(lái)說(shuō)也是侵犯了用戶(hù)隱私,即非法訪(fǎng)問(wèn)了用戶(hù)的瀏覽歷史信息。
為何Google能夠做大數(shù)據(jù),基于前面的分析可以看到因?yàn)樗阉鞅旧硗怯脩?hù)行為的一個(gè)重要入口,即搜索引擎具備了實(shí)時(shí)采集多個(gè)用戶(hù)行為的x因子的能力。而這個(gè)能力往往是單個(gè)電商門(mén)戶(hù)網(wǎng)站無(wú)法做到的。但是搜索引擎做大數(shù)據(jù)的弱勢(shì)在哪里?即前面談到的用戶(hù)和用戶(hù)之間的關(guān)系較難建立,而更多是本身行為之間的相關(guān)性。從這個(gè)差異上也可以看到搜索引擎更加容易做交通,疾病,氣象等方面的大數(shù)據(jù)分析和預(yù)測(cè);而類(lèi)似電商平臺(tái)或類(lèi)似騰訊更加容易做消費(fèi)和娛樂(lè)類(lèi)的大數(shù)據(jù)分析和預(yù)測(cè)。
智慧城市里面的大數(shù)據(jù)也是同樣的道理,當(dāng)前的智慧城市建設(shè)究竟有沒(méi)有大數(shù)據(jù)場(chǎng)景?答案當(dāng)然是有的,思路跟互聯(lián)網(wǎng)營(yíng)銷(xiāo)里面的大數(shù)據(jù)分析思路是一樣的。首先是單個(gè)政府部門(mén)內(nèi)部的大數(shù)據(jù)場(chǎng)景,這個(gè)短期反而很難真正形成大數(shù)據(jù)分析,原因在于針對(duì)的企業(yè)或個(gè)人用戶(hù)最終很難類(lèi)似互聯(lián)網(wǎng)一樣形成某種關(guān)聯(lián)和協(xié)同;其次是跨各個(gè)職能部門(mén)的企業(yè)和個(gè)人行為和業(yè)務(wù)數(shù)據(jù)的融合和相關(guān)性分析,這個(gè)就現(xiàn)在本身一些職能部門(mén)的安全性要求,職能部門(mén)之間的部門(mén)壁壘,短期仍然是無(wú)法解決。這些問(wèn)題都解決不了,智慧城市里面很難真正有大數(shù)據(jù)應(yīng)用場(chǎng)景,對(duì)于政務(wù)資源目錄和數(shù)據(jù)能力開(kāi)放,類(lèi)似GIS等能力的開(kāi)發(fā)頂多是大數(shù)據(jù)技術(shù)的點(diǎn)滴應(yīng)用。
金融行業(yè)的大數(shù)據(jù)面臨的往往是同樣的問(wèn)題,但是情況可能要好點(diǎn),類(lèi)似企業(yè)和個(gè)人的一些信用記錄現(xiàn)在有全國(guó)性質(zhì)的統(tǒng)一數(shù)據(jù)庫(kù)能夠拿到部分?jǐn)?shù)據(jù)。但是對(duì)于單個(gè)銀行來(lái)說(shuō),同樣是無(wú)法拿到用戶(hù)在其他銀行的行為記錄數(shù)據(jù)的,其二銀行本身在做很多信貸風(fēng)險(xiǎn)分析的時(shí)候,確實(shí)需要大量數(shù)據(jù)做相關(guān)性分析,但是很多數(shù)據(jù)來(lái)源于政府各個(gè)職能部門(mén),包括工商稅務(wù),,質(zhì)量監(jiān)督,檢察院法院等,這些數(shù)據(jù)短期仍然是無(wú)法拿到。還有就是企業(yè)或個(gè)人本事日常產(chǎn)生的各種行為數(shù)據(jù)更難拿到,那么對(duì)客戶(hù)的風(fēng)險(xiǎn)性評(píng)估還是得借用原來(lái)的老方法而已。
電信運(yùn)營(yíng)商可以講是啟動(dòng)大數(shù)據(jù)研究和解決方案比較早的一個(gè)行業(yè),那么當(dāng)前的大數(shù)據(jù)主要還是圍繞在BOSS領(lǐng)域,一個(gè)是大量話(huà)單數(shù)據(jù)的采集和高效預(yù)處理,一個(gè)是處理完成后基于用戶(hù)行為的分析和針對(duì)性營(yíng)銷(xiāo)。電信行業(yè)本身難以解決的仍然是單一x因子來(lái)源,同時(shí)又沒(méi)有解決類(lèi)似微信平臺(tái)一樣雖然是單一x因子但是建立了人和人之間的行為紐帶。那么運(yùn)營(yíng)商的大數(shù)據(jù)可以看做是分析和預(yù)測(cè)模型本身短期難以變化,但是在數(shù)據(jù)采集和存儲(chǔ),數(shù)據(jù)分析性能和速度方面引入了大數(shù)據(jù)解決方案中的相關(guān)技術(shù)。
對(duì)于傳統(tǒng)的制造行業(yè)或快消行業(yè),當(dāng)我們談到大數(shù)據(jù)分析的時(shí)候首先還是涉及到能夠采集到用戶(hù)行為數(shù)據(jù)和評(píng)價(jià)數(shù)據(jù),能否通過(guò)互聯(lián)網(wǎng)采集到更改的相關(guān)性因子的數(shù)據(jù),這才營(yíng)銷(xiāo)層面往往才有了大數(shù)據(jù)分析的基礎(chǔ)。如果這個(gè)無(wú)法做到,只有退回到只分析用戶(hù)的訂單信息,這種銷(xiāo)售分析往往已經(jīng)很難拿到最終消費(fèi)者和消費(fèi)者屬性信息,那么很難得到有價(jià)值的分析數(shù)據(jù)。脫離了用戶(hù)層面,在企業(yè)內(nèi)部還存在哪些大數(shù)據(jù)分析場(chǎng)景,這個(gè)往往是任何企業(yè)在應(yīng)用大數(shù)據(jù)時(shí)候都需要反復(fù)思考的問(wèn)題,否則企業(yè)做的往往可能只是傳統(tǒng)BI的內(nèi)容或者連BI都談不上。
對(duì)于這個(gè)問(wèn)題,根據(jù)大數(shù)據(jù)的思路延展一下,點(diǎn)滴思考如下,即我們來(lái)看下企業(yè)內(nèi)部信息化系統(tǒng)本身支撐的業(yè)務(wù)運(yùn)作和數(shù)據(jù)產(chǎn)生。對(duì)于企業(yè)內(nèi)部信息化系統(tǒng),業(yè)務(wù)部門(mén)人員本身是系統(tǒng)的用戶(hù),但是重點(diǎn)卻不是分析用戶(hù)本身的行為,而業(yè)務(wù)用戶(hù)最終的行為會(huì)最終體現(xiàn)到業(yè)務(wù)事件上,那么企業(yè)在內(nèi)部就會(huì)隨時(shí)隨地的產(chǎn)生各種業(yè)務(wù)事件,而企業(yè)本身是有業(yè)務(wù)績(jī)效目標(biāo)的,那么業(yè)務(wù)事件這些x因子之間,各個(gè)x因子和績(jī)效目標(biāo)y之間究竟有哪些相關(guān)性分析,能夠快速實(shí)時(shí)的得出哪些推論就有價(jià)值了。這個(gè)價(jià)值本身就是改善業(yè)務(wù)運(yùn)作效率和降低運(yùn)作成本,通過(guò)能夠進(jìn)一步的實(shí)時(shí)分析和預(yù)警。對(duì)于4V特性的分析,在大數(shù)據(jù)場(chǎng)景里也要看到實(shí)際重要性為價(jià)值第一-》相關(guān)性-》實(shí)時(shí)和流能力-》異構(gòu)和海量。
來(lái)源:36大數(shù)據(jù)
文章為作者獨(dú)立觀點(diǎn),不代表經(jīng)管之家立場(chǎng)
本文編號(hào):17185
本文鏈接:http://sikaile.net/guanlilunwen/sjfx/17185.html