新思維教育_大數(shù)據(jù)與統(tǒng)計新思維
本文關(guān)鍵詞:大數(shù)據(jù)與統(tǒng)計新思維,由筆耕文化傳播整理發(fā)布。
第31卷第1期2014年1月統(tǒng)計研究
StatisticalResearchVol.31,No.1Jan.2014
大數(shù)據(jù)與統(tǒng)計新思維
李金昌
*
,《大數(shù)據(jù)時代》內(nèi)容提要:最近等幾本書引起了廣泛的關(guān)注,大數(shù)據(jù)正在改變著人們的行為與思維,那么以數(shù)據(jù)為研究對象的統(tǒng)計學(xué)該如何應(yīng)對,本文基于對大數(shù)據(jù)的理解,認(rèn)為統(tǒng)計思維需要發(fā)生三個方面的改變,即要改變認(rèn)識數(shù)據(jù)的思維、收集數(shù)據(jù)的思維和分析數(shù)據(jù)的思維。其中,數(shù)據(jù)分析思維又要在統(tǒng)計分析過程、實證分析思路、推斷分析邏輯等方面發(fā)生變化,同時統(tǒng)計分析評價的標(biāo)準(zhǔn)也要有所調(diào)整。圍繞這些變化,本文提出需要從八個方面去積極應(yīng)對大數(shù)據(jù),以促使統(tǒng)計學(xué)科跟上時代的步伐。
關(guān)鍵詞:大數(shù)據(jù);統(tǒng)計思維;統(tǒng)計學(xué)中圖分類號:C829.2
文獻(xiàn)標(biāo)識碼:A
文章編號:1002-4565(2014)01-0010-06
BigDataandNewMindonStatistics
LiJinchang
Abstract:Thelatestpublicationofabooksuchas“BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink”hascapturedthepublicattention.Withthebigdatachangingthewaypeoplethinkandbehave,howshouldthedevelopmentofstatistics,adisciplinethataimsatdata,takeitscourse?Basedonitsunderstandingofthebigdata,thispaperputsforwardthreedimensionsinwhichthemindonstatisticsneedtobechanged:theinterpretationofdata,theideaofdatacollectionandtheviewofdataanalysis,wheretheprocessofstatisticalanalysis,themodeofempiricalanalysisandthelogicofinferentialanalysis,andalsotheevaluationstandardsofstatisticalanalysisshouldbeadjusted.Accordingtothosechanges,thispapersuggeststhatthebigdatabeactivelydealtwithfromeightperspectives,inordertokeepthescienceofstatisticstoabreastofthetimes.
Keywords:BigData;MindonStatistics;Statistics
[1]
最近,譯著《大數(shù)據(jù)時代》(英國ViktorMayer-Schǒnberger,KennethCukier著)和《駕馭大數(shù)[2]
據(jù)》(美國BillFranks著),以及我國學(xué)者涂子[3][4]
《大數(shù)據(jù)》沛、郭曉科的等幾本書引起了廣泛的
一、對大數(shù)據(jù)的初步認(rèn)識
到底什么是大數(shù)據(jù),不同的學(xué)科領(lǐng)域、不同行業(yè)
的從業(yè)人員肯定會有不同的理解。與傳統(tǒng)意義上的數(shù)據(jù)相比,大數(shù)據(jù)的“大”與“數(shù)據(jù)”都有了新的含義,絕不僅僅是體量的問題,更重要的是數(shù)據(jù)的內(nèi)涵,“大”問題;蛟S與“數(shù)據(jù)”根本就不能分開,只有“大數(shù)據(jù)”把當(dāng)作一個整體概念來理解才有意義。那么從統(tǒng)計學(xué)的角度,我們該如何來理解大數(shù)據(jù)?筆者認(rèn)為大數(shù)據(jù)不是基于人工設(shè)計、借助傳統(tǒng)方法而獲得的有限、固定、不連續(xù)、不可擴(kuò)充的結(jié)構(gòu)型數(shù)據(jù),而是基于現(xiàn)代信息技術(shù)與工具可以自動記錄、儲存和連續(xù)擴(kuò)充的、大大超出傳統(tǒng)統(tǒng)計記錄與儲存能
*本文為浙江省高校人文社科重點研究基地(統(tǒng)計學(xué))成果之一。本文為第十七次全國統(tǒng)計科學(xué)討論會特邀論文。
關(guān)注,其他各種媒體關(guān)于大數(shù)據(jù)的討論也層出不窮,
大數(shù)據(jù)已成為流行語。有人認(rèn)為,大數(shù)據(jù)是一場新的革命,將橫掃一切領(lǐng)域,重構(gòu)世界。不少國家已將大數(shù)據(jù)作為國家發(fā)展戰(zhàn)略,而商業(yè)領(lǐng)域更是將其視為下一個投資的寶庫。毫無疑問,大數(shù)據(jù)時代已經(jīng)來臨,它正在悄悄地改變著人們的行為與思維,難以阻擋,無法抗拒。在計算機(jī)科學(xué)、電子商務(wù)等領(lǐng)域已率先在大數(shù)據(jù)技術(shù)開發(fā)與應(yīng)用方面做出不俗成就的時候,以數(shù)據(jù)為研究對象的統(tǒng)計學(xué)該如何應(yīng)對?無動于衷還是盲目追從?正確的態(tài)度應(yīng)該是理性對待、積極跟進(jìn)、改變思維、謀求發(fā)展。
[4]
力的一切類型的數(shù)據(jù)。有人用4V(Volume,Variety、Velocity和Value)來形容大數(shù)據(jù)的特征①,
可見,統(tǒng)計學(xué)的研究對象沒有變,變的是數(shù)據(jù)的
來源、體量、類型、速度與量化的方式。這種變化對?《大數(shù)據(jù)時代》提統(tǒng)計研究帶來了什么樣的挑戰(zhàn)
出了三個最顯著的變化:一是樣本等于總體,二是不三是相關(guān)分析比因果分析更重再追求精確性,[1]
迫使我們對現(xiàn)要。這些觀點具有很強的震撼力,
有的統(tǒng)計研究思維進(jìn)行反思。盡管這些觀點值得進(jìn)
一步商榷,但至少告訴我們這樣一個道理:統(tǒng)計研究對象的基礎(chǔ)變了,統(tǒng)計思維也要跟著變化,否則統(tǒng)計
而且越來越少,那研究的對象只是全部數(shù)據(jù)的5%,
又怎么能說統(tǒng)計學(xué)是一門關(guān)于數(shù)據(jù)的科學(xué)呢?又怎么去完善和發(fā)展開展數(shù)據(jù)分析研究的統(tǒng)計方法
論呢?
最根本之處就是數(shù)字化基礎(chǔ)上的數(shù)據(jù)化。通俗地說,大數(shù)據(jù)就是一切可記錄信號的集合。如果說,傳統(tǒng)統(tǒng)計研究的數(shù)據(jù)是有意收集的結(jié)構(gòu)化的樣本數(shù)據(jù),那么現(xiàn)在我們面對的數(shù)據(jù)則是一切可以記錄和存儲、源源不斷擴(kuò)充、超大容量的各種類型的數(shù)據(jù)。樣本數(shù)據(jù)與大數(shù)據(jù)的這種區(qū)別,具有什么樣的統(tǒng)計學(xué)意義?我們知道,樣本數(shù)據(jù)是按照特定研究目的、依據(jù)抽樣方案獲得的格式化的數(shù)據(jù),不僅數(shù)據(jù)量有限,而且如果過程偏離方案,數(shù)據(jù)就不
其空間能滿足要求;跇颖緮(shù)據(jù)所進(jìn)行的分析,——通常無法滿足多層次、多角度的需要,十分有限—
若遇到抽樣方案事先未曾考慮到的問題,數(shù)據(jù)的不可擴(kuò)充性缺點就暴露無疑。而大數(shù)據(jù)是一切可以通過現(xiàn)代信息技術(shù)記錄和量化的數(shù)據(jù),不僅所蘊含的——任何種而且不受各種框框的限制—信息量巨大,
類的數(shù)據(jù)都來者不拒、也無法抵拒。不難發(fā)現(xiàn),大數(shù)具有巨大的數(shù)據(jù)據(jù)相比于樣本數(shù)據(jù)的最大優(yōu)點是,選擇空間,可以進(jìn)行多維、多角度的數(shù)據(jù)分析。更為重要的是,由于大數(shù)據(jù)的大體量與多樣性,樣本不足
大數(shù)據(jù)可以體現(xiàn);樣本不足以捕以呈現(xiàn)的某些規(guī)律,
捉的某些弱小信息,大數(shù)據(jù)可以覆蓋;樣本中被認(rèn)為
異常的值,大數(shù)據(jù)得以認(rèn)可。這將極大地提高我們認(rèn)識現(xiàn)象的能力,避免丟失很多重要的信息,避免失去很多決策選擇的機(jī)會。
這里,我們自然就想到了大量觀察與大數(shù)據(jù)這
的區(qū)別。對于傳統(tǒng)的統(tǒng)計研究兩個概念中的“大”
方法而言,大量觀察法是基礎(chǔ),是收集數(shù)據(jù)的基本理
論依據(jù),其主要思想是要對足夠量的個體進(jìn)行調(diào)查觀察,以確保有足夠的微觀基礎(chǔ)來消除或削弱個體差異對整體特征的影響,足以歸納出關(guān)于總體的數(shù)“大”量規(guī)律。所以,這里的是足夠的意思。大量觀察法的極端情況就是普查,但限于各種因素不能經(jīng)常進(jìn)行,所以一般情況下只能進(jìn)行抽樣調(diào)查,這就需要精確計算最小的樣本量;诖罅坑^察法獲得的才能用以推樣本數(shù)據(jù)才符合大數(shù)法則或大數(shù)定律,
斷總體。而大數(shù)據(jù)則指不限量的數(shù)據(jù),是基于現(xiàn)代信息技術(shù)的一切可以記錄的全體數(shù)據(jù),其特征之一就是盡量多地包含數(shù)據(jù),它與樣本容量無關(guān),只與信息來源的數(shù)量與儲存容量有關(guān)。因此,這里的“大”是全體的意思。
二、統(tǒng)計思維的變化
改變統(tǒng)計思維,是大數(shù)據(jù)時代的必然要求。否則,統(tǒng)計學(xué)科就有可能被大數(shù)據(jù)的潮流所吞沒,至少會被邊緣化,失去一次重要的參與推動歷史變革的
統(tǒng)計思維的變化應(yīng)該以一個永恒不變機(jī)遇。當(dāng)然,
的主題為前提,那就是通過數(shù)據(jù)分析去揭示事物的
真相,這個真相就是事物的生存規(guī)律、聯(lián)系規(guī)律和發(fā)展規(guī)律。也就是說,數(shù)據(jù)分析要以數(shù)據(jù)背后的數(shù)據(jù)去還原事物的本來面目,以達(dá)到求真的目的。如果說,我們原來限于各種條件只能根據(jù)有限的樣本數(shù)
那么現(xiàn)在我們則可以在很多方據(jù)去實現(xiàn)這個目的,
面借助大數(shù)據(jù)去實現(xiàn)這個目的,關(guān)鍵就看我們開展
或者說利用大數(shù)據(jù)、從一切數(shù)據(jù)分析的能力有多大,
——因為大數(shù)數(shù)據(jù)中提取有價值信息的能力有多大—
據(jù)無疑增加了統(tǒng)計分析的難度,而這又首先取決于我們統(tǒng)計思維能否適應(yīng)大數(shù)據(jù)時代的變化。正如邁爾-舍恩伯格所說:大數(shù)據(jù)發(fā)展的核心動力就是人
[1]
記錄和分析世界的渴望。類測量、那么,統(tǒng)計思維應(yīng)該發(fā)生怎樣的變化?筆者認(rèn)為主要要有如下三大變化:
(一)認(rèn)識數(shù)據(jù)的思維要變化
前面已經(jīng)提到,與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)不僅體量大、變化快,而且其來源、類型和量化方式都發(fā)生了根本性的變化,使得數(shù)據(jù)雜亂、多樣、不規(guī)整。
首先,從來源上看,傳統(tǒng)的數(shù)據(jù)收集因為具有很
Velocity,Variety和Veracity;或者①也有指4V是Volume,Volume,Velocity,Variety和Vitality。
強的針對性,因此數(shù)據(jù)的提供者大多是確定的,身份特征是可識別的,有的還可以進(jìn)行事后核對。但大數(shù)據(jù)通常來源于物聯(lián)網(wǎng),不是為了特定的數(shù)據(jù)收集目的而產(chǎn)生,而是人們一切可記錄的信號(當(dāng)然,任但它們是發(fā)散的),并且何信號的產(chǎn)生都有其目的,
身份識別十分困難。從某種意義上講,大數(shù)據(jù)來源的微觀基礎(chǔ)是很難追溯的。
其次,從類型上看,傳統(tǒng)數(shù)據(jù)基本上是結(jié)構(gòu)型數(shù)據(jù),即定量數(shù)據(jù)加上少量專門設(shè)計的定性數(shù)據(jù),格式化,有標(biāo)準(zhǔn),可以用常規(guī)的統(tǒng)計指標(biāo)或統(tǒng)計圖表加以表現(xiàn)。但大數(shù)據(jù)更多的是非結(jié)構(gòu)型數(shù)據(jù)、半結(jié)構(gòu)型
包括了一切可記錄、可存儲的信數(shù)據(jù)或異構(gòu)數(shù)據(jù),
多樣化、無標(biāo)準(zhǔn)、難以用傳統(tǒng)的統(tǒng)計指標(biāo)或統(tǒng)計號,
圖表加以表現(xiàn)。同時,不同的網(wǎng)絡(luò)信息系統(tǒng)有不同的數(shù)據(jù)識別方式,相互之間也沒用統(tǒng)一的數(shù)據(jù)分類標(biāo)準(zhǔn)。再者,現(xiàn)在有的數(shù)據(jù)庫是非關(guān)系型的數(shù)據(jù)庫,不需要預(yù)先設(shè)定記錄結(jié)構(gòu)即可自動包容大量各種各樣的數(shù)據(jù)。
第三,從量化方式上看,傳統(tǒng)數(shù)據(jù)的量化處理已經(jīng)有一整套較為完整的方式與過程,量化的結(jié)果可直接用于各種運算與分析。但大數(shù)據(jù)中大量的非結(jié)
如何從中提取信息、構(gòu)化數(shù)據(jù)如何量化(結(jié)構(gòu)化)、
如何與結(jié)構(gòu)化數(shù)據(jù)對接是一個嶄新的問題。正如
Franks所說:“幾乎沒有哪種分析過程能夠直接對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,也無法直接從非結(jié)構(gòu)化的
[2]
”更為重要的是,“量化”數(shù)據(jù)中得出結(jié)論。的含義恐怕也不一樣了,即此“量化”不一定等同于彼“量
,量化結(jié)果的表現(xiàn)形式自然也不相同。顯然,我化”
們不能套用已有的方式去量化非結(jié)構(gòu)化數(shù)據(jù)?梢哉f,大數(shù)據(jù)是雜亂、不規(guī)整、良莠不齊的,但我們不能因此而回避它、拒絕它,只能接納它、包容它。我們需要將統(tǒng)計研究的對象范圍從結(jié)構(gòu)型數(shù)據(jù)擴(kuò)展到一切數(shù)據(jù),需要重新思考數(shù)據(jù)的定義和分類方法,并以此為基礎(chǔ)發(fā)展和創(chuàng)新統(tǒng)計分析方法。從某種意義上講,沒有無用的數(shù)據(jù),只有未被欣賞的數(shù)據(jù),關(guān)鍵是我們從哪個角度看數(shù)據(jù)。
(二)收集數(shù)據(jù)的思維要變化
,“沒有黏土,收集數(shù)據(jù)是開展統(tǒng)計分析的前提如何做磚?”以往,收集統(tǒng)計數(shù)據(jù)的思維是先確定統(tǒng)計分析研究的目的,然后需要什么數(shù)據(jù)就收集什么數(shù)據(jù),所以要精心設(shè)計調(diào)查方案,嚴(yán)格執(zhí)行每個流程,但往往是投入大而數(shù)據(jù)量有限,F(xiàn)在,我們擁有
——了大數(shù)據(jù),就等于擁有了超大量可選擇的數(shù)據(jù)—
“黏土”備選的體量與種類都極大地增加了,所要做的最重要的工作就是比較與選擇,因此我們的思維應(yīng)該是如何充分利用大數(shù)據(jù),凡是大數(shù)據(jù)源中能找到的數(shù)據(jù)就不再需要進(jìn)行專門的調(diào)查。
但是,由于大數(shù)據(jù)來源與種類的多樣性,以及數(shù)據(jù)增加的快速性,我們在享受數(shù)據(jù)的豐富性的同時也不得不面臨這樣一些困境:存儲能力夠不夠,分析能力夠不夠(是否及時、充分),如何甄別數(shù)據(jù)的真?zhèn),如何選擇關(guān)聯(lián)物,如何提煉和利用數(shù)據(jù),,如何確PB級定分析節(jié)點?現(xiàn)在TB級的數(shù)據(jù)庫已經(jīng)很多,
YB以后還會出現(xiàn)EB、甚至ZB、的數(shù)據(jù)庫也不少見,
級的數(shù)據(jù)庫。今天的大數(shù)據(jù),明天就不再是大數(shù)據(jù)。
這樣一來,電子存儲能力能否跟得上數(shù)據(jù)增加的速度就成為首要的問題。如果讓數(shù)據(jù)庫自動更新就有可能失去一些寶貴的數(shù)據(jù)信息,而到了一定級別以其代價是十分后擴(kuò)充存儲容量或?qū)?shù)據(jù)進(jìn)行拷貝,巨大的,因此我們不得不對數(shù)據(jù)進(jìn)行分類、篩選,有不重要或次重要的數(shù)據(jù)。針對地刪除那些垃圾數(shù)據(jù)、
如果說以前有針對地獲得數(shù)據(jù)叫做收集,那么今后有選擇地刪除數(shù)據(jù)就意味著收集。也就是說,大數(shù)據(jù)時代的數(shù)據(jù)收集將更多的是從已有的超大量數(shù)據(jù)
再選擇。因此,我們要做好丟棄一部中進(jìn)行再過濾、
分?jǐn)?shù)據(jù)的準(zhǔn)備。
當(dāng)然,并不是任何數(shù)據(jù)都可以從現(xiàn)成的大數(shù)據(jù)中獲得,這里存在一個針對性、安全性和成本比較問題。因此,我們既要繼續(xù)采用傳統(tǒng)的方式方法去收又要善于利用現(xiàn)代網(wǎng)絡(luò)信息技集特定需要的數(shù)據(jù),
術(shù)和各種數(shù)據(jù)源去收集一切相關(guān)的數(shù)據(jù),并善于從大數(shù)據(jù)中進(jìn)行再過濾、再選擇。問題在于什么是無用的或不重要的數(shù)據(jù)?該如何過濾與選擇數(shù)據(jù)?這就需要對已經(jīng)存在的數(shù)據(jù)進(jìn)行重要性分析、真?zhèn)巫R別和關(guān)聯(lián)物定位。
此外,大的數(shù)據(jù)庫可能需要將信息分散在不同的硬盤或電腦上,這樣一來,在不能同步更新數(shù)據(jù)信息的情況下如何選擇、調(diào)用和匹配數(shù)據(jù)又是一個問
從大數(shù)據(jù)中收集數(shù)據(jù)就題。因此從某種意義上講,
是識別、整理、提煉、汲。▌h除)、分配和存儲元數(shù)
據(jù)的過程。
(三)分析數(shù)據(jù)的思維要變化
基于上述兩個變化,數(shù)據(jù)分析的思維必然要跟著變化,那就是要主動利用現(xiàn)代信息技術(shù)與各種軟
件工具從大數(shù)據(jù)中挖掘出有價值的信息,并在這個過程中豐富和發(fā)展統(tǒng)計分析方法。
關(guān)于數(shù)據(jù)分析思維的變化,特別需要強調(diào)三點:第一,傳統(tǒng)的統(tǒng)計分析過程是“定性—定量—,再定性”第一個定性是為了找準(zhǔn)定量分析的方向,主要靠經(jīng)驗判斷,這在數(shù)據(jù)短缺、分析運算手段有限的情況下很重要,F(xiàn)在我們是在大數(shù)據(jù)中找礦,直接依賴數(shù)據(jù)分析做出判斷,因此基礎(chǔ)性的工作就是“定量的回應(yīng)”,找到這在存儲能力大為增強、分析技術(shù)與分析速度大為提高的今天,探測“定量的回應(yīng)”變得越來越簡單,所要做的就是直接從各種“定
中找出那些真正的、重要的數(shù)量特征和量的回應(yīng)”
得出可以作為判斷或決策依據(jù)的結(jié)論,因數(shù)量關(guān)系,
,此統(tǒng)計分析的過程可以簡化為“定量—定性”從而大大提高得到新的定性結(jié)論的可能性。
第二,傳統(tǒng)的統(tǒng)計實證分析,一般都要先根據(jù)研然后通過數(shù)據(jù)的收集與分析究目的提出某種假設(shè),去驗證該假設(shè)是否成立,其分析思路是“假設(shè)—驗,但這種驗證往往由于受到假設(shè)的局限、指標(biāo)選證”
擇的失當(dāng)、所需數(shù)據(jù)的缺失而得不出真正的結(jié)論。特別是,一旦假設(shè)本身不科學(xué)、不符合實際,那么分
甚至扭曲事實真相。事實證明,析結(jié)論就毫無用處、
很多這樣的實證分析純粹是為了湊合假設(shè),F(xiàn)在,
我們有了大數(shù)據(jù),可以不受任何假設(shè)的限制而從中去尋找關(guān)系、發(fā)現(xiàn)規(guī)律,然后再加以總結(jié)、形成結(jié)論。
。這將極大也就是說,分析的思路是“發(fā)現(xiàn)—總結(jié)”地豐富統(tǒng)計分析的資源與空間,有助于發(fā)現(xiàn)更多意
“發(fā)現(xiàn)”。外的
第三,傳統(tǒng)的統(tǒng)計推斷分析,通常是基于分布理論,以一定的概率為保證,根據(jù)樣本特征去推斷總體特征,其邏輯關(guān)系是“分布理論—概率保證—總體
,推斷”推斷的評判標(biāo)準(zhǔn)與具體樣本無關(guān),但推斷是否正確卻取決于樣本的好壞,F(xiàn)在,大數(shù)據(jù)強調(diào)的是全體數(shù)據(jù),總體特征不再需要根據(jù)分布理論進(jìn)行推斷,只需進(jìn)行計數(shù)或計量處理即可。不僅如此,還可以根據(jù)全面數(shù)據(jù)和實際分布來判斷其中出現(xiàn)某類
其邏輯關(guān)系變成了“實際分情況的可能性有多大,
,布—總體特征—概率判斷”也即概率不再是事先
預(yù)設(shè),而是基于實際分布得出的判斷。按照邁爾-舍恩伯格的觀點,這個概率判斷就可用于預(yù)測了。
伴隨著上述三大變化,統(tǒng)計分析評價的標(biāo)準(zhǔn)又該如何變化?傳統(tǒng)統(tǒng)計分析的評價標(biāo)準(zhǔn)無非兩個方
面,一是可靠性評價,二是有效性評價,而這兩種評
價都因抽樣而生。所謂可靠性評價是指用樣本去推——斷總體有多大的把握程度,是以概率來度量的—
有時表現(xiàn)為置信水平,有時表現(xiàn)為顯著性水平。特顯著性水平別是在假設(shè)檢驗和模型擬合度評價中,怎么定是一個難題,一直存在爭議,因為所參照的分布類型不同其統(tǒng)計量就不同,顯著性評價的臨界值就不同,而臨界值又與顯著性水平的高低直接相關(guān)。然而在大數(shù)據(jù)的背景下,大數(shù)據(jù)在一定程度上就是全體數(shù)據(jù),我們可以對全體數(shù)據(jù)進(jìn)行計數(shù)或計量分析,這就不存在以樣本推斷總體的問題了,那么這時還有沒有可靠性的問題?還要不要確定置信水平?怎么確定?依據(jù)是什么?如何比較來自不同容量數(shù)據(jù)庫的分析結(jié)論的可靠性?
所謂有效性評價指的是真實性,即誤差大小。這里又有兩個相關(guān)的概念:準(zhǔn)確性與精確性。準(zhǔn)確通常性一般是指一個觀察值與真實值的吻合程度,
情況下是無法做出測度的;而精確性一般指樣本統(tǒng)以抽樣分布的標(biāo)準(zhǔn)差來衡量。計量分布的離散程度,
很顯然,精確性是針對樣本數(shù)據(jù)而言的。也就是說樣本數(shù)據(jù)既有精確性問題又有準(zhǔn)確性問題,樣本數(shù)據(jù)中的誤差既包括抽樣誤差也可能包括非抽樣誤差。抽樣誤差可以基于抽樣分布理論進(jìn)行計算和控制,而非抽樣誤差只能通過各種方式加以識別或判斷,但多數(shù)情況下由于樣本量不是太大而可以得到較好的防范。但對于大數(shù)據(jù),由于它是全體數(shù)據(jù),因而不再有抽樣誤差問題,只有非抽樣誤差問題,也就是說大數(shù)據(jù)的真實性只表現(xiàn)為準(zhǔn)確性而非精確性。然而由于大數(shù)據(jù)是超大量數(shù)據(jù),再加上混雜性與多樣性,因此其非抽樣誤差很難防范與控制,這就使得
——如何測度?標(biāo)準(zhǔn)準(zhǔn)確性評價問題變得更為困難—怎樣?
三、積極應(yīng)對大數(shù)據(jù)
面對大數(shù)據(jù),我們唯有積極應(yīng)對,別無選擇。如
何應(yīng)對,需要考慮以下幾個方面:
(一)需要改變總體、個體乃至樣本的定義方式傳統(tǒng)的統(tǒng)計分析,是先有總體,再有數(shù)據(jù),即必須先確定總體范圍和個體單位,再收集個體數(shù)據(jù),分析總體。但對大數(shù)據(jù)來說,情況完全不同了,是先有數(shù)據(jù),再有總體。從某種意義上說,大數(shù)據(jù)的產(chǎn)生系統(tǒng)多數(shù)是非總體式的,即無事先定義的目標(biāo)總體,只
有與各個時點相對應(yīng)的事后總體,原因就在于個體是不確定的,是變化著的,是無法事先編制名錄庫的,這與傳統(tǒng)的總體與個體有很大的不同。更為復(fù)雜的是,事后個體的識別也很困難,因為同一個個體而不同網(wǎng)絡(luò)系可能有多個不同的網(wǎng)絡(luò)符號或稱謂,
統(tǒng)的相同符號(稱謂)也未必就是同一個個體,而且還經(jīng)常存在個體異位的情況(即某一個體利用另一個體的符號完成某種行為),因此我們對于大數(shù)據(jù)往往是只見“數(shù)據(jù)”的外形而不見“個體”的真容。但對大數(shù)據(jù)的分析,仍然有一個總體口徑問題,依然需要識別個體身份。這就需要我們改變總體與個體
——盡管它們的內(nèi)涵沒有變。與此對的定義方式—
如果要從大數(shù)據(jù)庫中提取樣本數(shù)據(jù),那么樣本的應(yīng),
定義方式也需要改變。當(dāng)然,考慮到大數(shù)據(jù)的流動變化性,任何時點的總體都可以被理解為一個截面樣本。
(二)需要改變對不確定性的認(rèn)識
眾所周知,統(tǒng)計學(xué)是為了認(rèn)識和研究事物的不
因為無論是自然現(xiàn)象還是社會經(jīng)確定性而產(chǎn)生的,
濟(jì)現(xiàn)象,都時時處處充滿著因個體的差異性而引起
的不確定性,因為在大多數(shù)情況下我們?nèi)狈ψ銐虻男畔⒒蛉狈ψ銐虻闹R去利用有效信息
,而人們總是期望通過量化事物的不確定性去發(fā)現(xiàn)規(guī)律、揭示真相,認(rèn)識不確定性背后的必然性。要研究不確定性就需要收集數(shù)據(jù),在只能進(jìn)行抽樣觀測的情況下,這種不確定性就表現(xiàn)為如何獲得樣本、如何推斷總體(包括估計與檢驗)和如何構(gòu)建模型等方面。對于大數(shù)據(jù),仍然存在著個體的差異性,區(qū)別只在于它包括了一定條件下的所有個體,而不是隨機(jī)獲得的一個樣本。這樣,大數(shù)據(jù)的不確定性就不再是樣本的獲取與總體的推斷,而是數(shù)據(jù)的來源、個體的識別、信息的量化、數(shù)據(jù)的分類、關(guān)聯(lián)物的選擇、節(jié)點的確定,以及結(jié)論的可能性判斷等方面?梢哉f,大數(shù)據(jù)的不確定性只來自于其來源的多樣性與混雜性,以及由于個體的可變性所引起的總體多變性,而不——因為我們已經(jīng)掌握了是同類個體之間的差異性—一定條件下的完全信息。
(三)需要建立新的數(shù)據(jù)梳理與分類方法大數(shù)據(jù)的多樣性與混雜性,以及先有數(shù)據(jù)、后有總體的特點,原有的數(shù)據(jù)梳理與分類方法將受到諸多的限制。傳統(tǒng)的數(shù)據(jù)梳理與分類是按照預(yù)先設(shè)定的方案進(jìn)行的,標(biāo)志與指標(biāo)的關(guān)系、分類標(biāo)識與分組
[5]
規(guī)則等都是結(jié)構(gòu)化的,既是對有針對性地收集的數(shù)
據(jù)的加工,也是統(tǒng)計分析的組成部分。但對于大數(shù)據(jù),由于新的網(wǎng)絡(luò)語言、新的信息內(nèi)容、新的數(shù)據(jù)表現(xiàn)形式不斷出現(xiàn),使得會產(chǎn)生哪些種類的信息、有哪不同標(biāo)識之間是什么關(guān)系、些可以利用的分類標(biāo)識、
類與類之間的識別度有多大、信息與個體之間的對應(yīng)關(guān)系如何等,都無法事先加以嚴(yán)格設(shè)定或控制,往往需要事后進(jìn)行補充或完善。面對超大量的數(shù)據(jù),我們從何下手?只能從數(shù)據(jù)本身入手,從觀察數(shù)據(jù)分布特征入手。這就需要采用不同的數(shù)據(jù)梳理與分類方法。否則,要想尋找到能有效開展數(shù)據(jù)分析的
創(chuàng)新與路徑是不可能的。因此根據(jù)大數(shù)據(jù)的特點,是有效開展大數(shù)據(jù)分發(fā)展數(shù)據(jù)的梳理與分類方法,
析的重要前提。這里需要強調(diào)的是,能否建立起能自動進(jìn)行初步的數(shù)據(jù)梳理與分類的簡單模型?因為從技術(shù)上講,我們已經(jīng)具備了一定的對大數(shù)據(jù)進(jìn)行多次迭代建模的算法。
(四)需要強化結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的對接研究
有效實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的對接,是數(shù)據(jù)概念拓展的必然結(jié)果。盡管大數(shù)據(jù)是超大量但大數(shù)據(jù)不能涵蓋所有的數(shù)據(jù),因此傳統(tǒng)意義數(shù)據(jù),
上的結(jié)構(gòu)化數(shù)據(jù)與大數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)必將長期并存。大數(shù)據(jù)時代的來臨,使得數(shù)據(jù)收集、存儲與分析的能力大為增強,而且步伐越來越快,但出于針對性與安全性考慮,總有一些結(jié)構(gòu)化數(shù)據(jù)要通過專門的方式去收集而不能依賴于公共網(wǎng)絡(luò)系統(tǒng)(例如
專題研究數(shù)據(jù))。這樣,如何既能有政府統(tǒng)計數(shù)據(jù),
針對性地收集所需的結(jié)構(gòu)化數(shù)據(jù),又能從大量非結(jié)
構(gòu)化數(shù)據(jù)中挖掘出有價值的信息,使兩者相輔相成、有機(jī)結(jié)合,就成了一個新的課題,值得探討的問題包括非結(jié)構(gòu)化數(shù)據(jù)如何結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)能否采用
實現(xiàn)結(jié)非結(jié)構(gòu)化的表現(xiàn)形式等。通過特定的方法,構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)化與對接是完全可能
的。但要實現(xiàn)這種對接,必須要增強對各種類型數(shù)據(jù)進(jìn)行測度與描述的能力,否則大數(shù)據(jù)分析就沒有全面牢固的基礎(chǔ)。如果說傳統(tǒng)的基于樣本數(shù)據(jù)的統(tǒng)計分析側(cè)重于推斷,那么基于大數(shù)據(jù)的統(tǒng)計分析需要更加關(guān)注描述。
(五)需要轉(zhuǎn)變抽樣調(diào)查的功能
對于傳統(tǒng)的數(shù)據(jù)收集而言,抽樣調(diào)查是最重要的方式。盡管樣本只是總體中的很小一部分,但由
博泰典藏網(wǎng)btdcw.com包含總結(jié)匯報、經(jīng)管營銷、出國留學(xué)、計劃方案、IT計算機(jī)、農(nóng)林牧漁、高中教育、表格模板以及大數(shù)據(jù)與統(tǒng)計新思維_李金昌等內(nèi)容。
本文共2頁12
本文關(guān)鍵詞:大數(shù)據(jù)與統(tǒng)計新思維,由筆耕文化傳播整理發(fā)布。
本文編號:139476
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/139476.html