天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 論文百科 > 大學(xué)課程 >

大數(shù)據(jù)時代的數(shù)據(jù)庫和數(shù)據(jù)技術(shù)(上)

發(fā)布時間:2017-10-16 08:15

  本文關(guān)鍵詞:數(shù)據(jù)庫技術(shù)


  更多相關(guān)文章: 大數(shù)據(jù)時代的數(shù)據(jù)庫和數(shù)據(jù)技術(shù)(上)


  大數(shù)據(jù)定義、作用及其對數(shù)據(jù)庫技術(shù)影響
   1.1 大數(shù)據(jù)及其影響
  大數(shù)據(jù)(Big Data)是目前最重要的科學(xué)、技術(shù)和社會話題。借用IDC數(shù)據(jù)公司的定義:“大數(shù)據(jù)是一種新一代的技術(shù)和架構(gòu),具備高效率的捕捉、發(fā)現(xiàn)和分析能力,能夠經(jīng)濟(jì)地從類型繁雜、數(shù)量龐大的數(shù)據(jù)中挖掘出色價值。”
  大數(shù)據(jù)定義有著如下的基本前提和含義。
 、 大量的數(shù)據(jù):大數(shù)據(jù)概念源于數(shù)據(jù)的爆炸性增長。用世界著名的咨詢公司高德納(Gartner)研究報告的描述:“同一類型的數(shù)據(jù)量快速增長;數(shù)據(jù)增長速度的加快;數(shù)據(jù)多樣性、新數(shù)據(jù)來源和新數(shù)據(jù)種類的不斷增加!
 、 多種類型數(shù)據(jù)積累:新的數(shù)據(jù)存儲和數(shù)據(jù)采集的技術(shù)發(fā)展使巨量數(shù)據(jù)的采集、收集、存儲成為可能。網(wǎng)絡(luò)技術(shù)、移動設(shè)備、數(shù)字傳感器、數(shù)碼攝影/攝像、監(jiān)控影像、衛(wèi)星定位系統(tǒng)、遙感技術(shù)、氣候和環(huán)境監(jiān)測技術(shù)等等,每時每刻都在各種形式、各種類型的大量數(shù)據(jù)。
 、 計算技術(shù)的進(jìn)步與發(fā)展:現(xiàn)代計算技術(shù)、網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)和數(shù)據(jù)庫處理技術(shù)等可以處理各種形式的海量數(shù)據(jù),,產(chǎn)生出大量的高附加值的數(shù)據(jù)、結(jié)果、狀態(tài)和知識。
 、 數(shù)據(jù)處理能力成為戰(zhàn)略能力:數(shù)據(jù)量的激增、數(shù)據(jù)類型的多樣、技術(shù)平臺對數(shù)據(jù)的綜合處理,造成了知識邊界擴(kuò)展、知識價值提升、知識衍生能力加快,它極大地影響到了企業(yè)、個人、社會和政府的決策,極大地促進(jìn)了社會生產(chǎn)力的發(fā)展,使掌握大數(shù)據(jù)技術(shù)者獲得了競爭優(yōu)勢和難于模仿的核心競爭力。因此,大數(shù)據(jù)技術(shù)也成為了國家的核心戰(zhàn)略資源。
  大數(shù)據(jù)的含義廣博、技術(shù)領(lǐng)域廣泛、技術(shù)平臺多樣、作用效果巨大、影響意義深遠(yuǎn)。理解大數(shù)據(jù)的理論、方法和架構(gòu),適應(yīng)大數(shù)據(jù)的變革與發(fā)展,分享大數(shù)據(jù)所帶來的種種便利和收益,便能夠在大數(shù)據(jù)時代占領(lǐng)先機(jī)。
   1.2 大數(shù)據(jù)對數(shù)據(jù)庫技術(shù)的影響
  大數(shù)據(jù)的宗旨是處理數(shù)據(jù),數(shù)據(jù)庫技術(shù)自然占據(jù)核心地位。而大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫技術(shù)也具有明顯的特殊性。
  1.2.1 大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理技術(shù)面臨的新特點
  數(shù)據(jù)量宏大。對數(shù)據(jù)庫技術(shù)影響最大、最直接的方面莫過于數(shù)據(jù)的爆炸性增長。即使先不考慮數(shù)據(jù)類型的變化,需要處理的數(shù)據(jù)從MB擴(kuò)展到GB,現(xiàn)在再擴(kuò)展到TB,不遠(yuǎn)的將來數(shù)據(jù)庫將經(jīng)常面對PB量級的數(shù)據(jù),這必然對數(shù)據(jù)庫的硬件架構(gòu)、數(shù)據(jù)庫系統(tǒng)結(jié)構(gòu)和數(shù)據(jù)庫應(yīng)用產(chǎn)生重大的影響。
  數(shù)據(jù)形式多樣。另外一個對數(shù)據(jù)庫技術(shù)產(chǎn)生重要影響的因子是數(shù)據(jù)的多樣化,傳統(tǒng)數(shù)字、圖像、照片、影像、聲音等多種數(shù)據(jù)資源需要進(jìn)行處理,并且和傳統(tǒng)關(guān)系式數(shù)據(jù)不同的,許多數(shù)據(jù)格式中的有價值數(shù)據(jù)并不多,例如多張圖片中特定對象的變化,連續(xù)視頻影像中對特殊對象的跟蹤等等,其數(shù)據(jù)抽取方式、過濾方法和存儲、計算方式均有別于傳統(tǒng)數(shù)據(jù)庫。
  單機(jī)或小型局域網(wǎng)的數(shù)據(jù)庫處理無法滿足。當(dāng)前,數(shù)據(jù)量爆炸式增長,數(shù)據(jù)類型日趨多樣,傳統(tǒng)關(guān)系數(shù)據(jù)庫的處理能力已難于滿足,需要新的數(shù)據(jù)庫處理技術(shù)。
  傳統(tǒng)的并行數(shù)據(jù)庫的靈活性具有局限性。并行數(shù)據(jù)庫系統(tǒng)取得了輝煌的成績,但是它的靈活性不佳,彈性受限,系統(tǒng)規(guī)模的收縮或擴(kuò)展成本非常高。這樣的系統(tǒng)適合于“相對固定結(jié)構(gòu)”的計算結(jié)構(gòu),例如機(jī)銀行業(yè)務(wù)管理系統(tǒng)或城市交通管理系統(tǒng)等。
  結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化形式并存。讓數(shù)據(jù)庫有能力處理這些半結(jié)構(gòu)化和非結(jié)構(gòu)化(有時不作區(qū)分)數(shù)據(jù)變成了新型數(shù)據(jù)庫技術(shù)的一項迫切要求。
  對結(jié)果要求的模糊化。在大數(shù)據(jù)的時代,計算技術(shù)不僅限于回答“是/非”問題,而是需要更多的模糊化結(jié)果。例如,流感有很可能在一周后流行、近期可能發(fā)生5級左右地震、近一周國際往返機(jī)票將上漲……這些答案并不精確,但足以指導(dǎo)人們的活動。非結(jié)構(gòu)化數(shù)據(jù)的處理結(jié)果常常是給出模糊化的答案。
  新數(shù)據(jù)庫技術(shù)的出現(xiàn)與挑戰(zhàn)。新需求的出現(xiàn),促使了新技術(shù)的產(chǎn)生,為處理非結(jié)構(gòu)化數(shù)據(jù),Apache、Google、Amazon等公司分別開發(fā)了適應(yīng)各自需要的新型數(shù)據(jù)庫系統(tǒng),相關(guān)的專家經(jīng)過分析和總結(jié)提出了NoSQL的設(shè)計理念,并創(chuàng)建了許多成功的產(chǎn)品。
   1.2.2 新型數(shù)據(jù)庫技術(shù)的特點
  與傳統(tǒng)數(shù)據(jù)庫技術(shù)相比較,新型數(shù)據(jù)庫技術(shù)具有一些明顯的特點,具體如下:
  可處理的數(shù)據(jù)總量和數(shù)據(jù)類型增加。不再為數(shù)據(jù)結(jié)構(gòu)化或數(shù)據(jù)代表性而人為地選取部分?jǐn)?shù)據(jù)或進(jìn)行數(shù)據(jù)抽樣;不再靠樣本規(guī)模的大小來控制結(jié)果的置信區(qū)間和置信度。新的數(shù)據(jù)庫處理技術(shù)試圖利用“全部數(shù)據(jù)”,完成對結(jié)果的計算和推斷。
  使用更多的非結(jié)構(gòu)化數(shù)據(jù),而不是片面地強(qiáng)調(diào)全部使用結(jié)構(gòu)化數(shù)據(jù)。在非結(jié)構(gòu)化的高復(fù)雜度、高數(shù)據(jù)量、多種數(shù)據(jù)類型的情況下,允許結(jié)論和結(jié)果的“不精確”,允許追求“次優(yōu)解”。體現(xiàn)大數(shù)據(jù)技術(shù)“以概率說話”的特點。
  不再試圖避免或降低數(shù)據(jù)的混雜性,而是把“使用全部數(shù)據(jù)”作為追求“次優(yōu)解”的途徑。即在復(fù)雜、混亂、無結(jié)構(gòu)化與確定、規(guī)整、結(jié)構(gòu)化數(shù)據(jù)之間做出平衡。
  在遇到“使用全部數(shù)據(jù),得出模糊化結(jié)果”與“實用部分?jǐn)?shù)據(jù),得出準(zhǔn)確結(jié)論”的選擇時,新型數(shù)據(jù)庫技術(shù)一般會選擇前者,從一個更全面的角度利用更多的數(shù)據(jù)資源去尋找答案。
  科學(xué)地在因果關(guān)系與相關(guān)關(guān)系中做出抉擇。如果數(shù)據(jù)總體支持因果關(guān)系的判別和斷言,則像傳統(tǒng)數(shù)據(jù)庫那樣提供因果關(guān)系斷語;如果數(shù)據(jù)計算量宏大、成本高昂或條件不具備,則把關(guān)注點由“因果關(guān)系”調(diào)整為“相關(guān)關(guān)系”——將追求“最優(yōu)解”變?yōu)樽非蟆按蝺?yōu)解”或“模糊解”。自然地,這種相關(guān)關(guān)系的選擇不能是隨機(jī)的,而是預(yù)先設(shè)計和規(guī)劃好的。
  不同的數(shù)據(jù)庫開發(fā)理念,不同的應(yīng)用目標(biāo),不同的技術(shù)方案,早就了新型數(shù)據(jù)庫豐富多彩、特點各異的局面。
   1.3 從傳統(tǒng)關(guān)系數(shù)據(jù)庫到非關(guān)系數(shù)據(jù)
  在計算機(jī)系統(tǒng)結(jié)構(gòu)剛剛趨于穩(wěn)定的1970年,IBM公司的Edgar Codd(科德)首先提出了關(guān)系數(shù)據(jù)庫的概念和規(guī)則,這是數(shù)據(jù)庫技術(shù)的一個重要的里程碑?频露x的關(guān)系數(shù)據(jù)庫具有結(jié)構(gòu)化程度高、數(shù)據(jù)冗余量低、數(shù)據(jù)關(guān)系明確、一致性好的優(yōu)點。關(guān)系數(shù)據(jù)庫模型把數(shù)據(jù)庫操作抽象成選擇、映射、連接、集合的并差交除操作、數(shù)據(jù)的增刪改查操作等。而1976年Boyce和Chamberlin提出的SQL結(jié)構(gòu)化查詢語言則把關(guān)系數(shù)據(jù)庫及其操作模式完整地固定下來,其理論和做法延續(xù)至今,被作為數(shù)據(jù)庫技術(shù)的重要基石。關(guān)系數(shù)據(jù)庫中定義的關(guān)系模型的實質(zhì)是二維表格模型,關(guān)系數(shù)據(jù)庫就是通過關(guān)系連接的多個二維表格之間的數(shù)據(jù)集合。當(dāng)前流行的數(shù)據(jù)庫軟件Oracal、DB2、SQL Server、MySQL和Access等均屬于關(guān)系數(shù)據(jù)庫。   到二十世紀(jì)八十年代后期,IBM的研究員提出了數(shù)據(jù)倉庫(Data Warehouse)的概念,4年后Bill Inmon給出了被大家廣泛接受的數(shù)據(jù)倉庫定義:“數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理中的決策制定!睌(shù)據(jù)倉庫的進(jìn)步在于,它把決策支持定為數(shù)據(jù)庫中數(shù)據(jù)組織和管理的目標(biāo),從而把智能性和決策能力融入到數(shù)據(jù)庫中。Inmon之后,Ralph Kimball建立了更加方便、實用的“自底向上”數(shù)據(jù)倉庫架構(gòu)并稱之為“數(shù)據(jù)集市”(Data Mart),這種技術(shù)受到企業(yè)及廠家的歡迎并采納實施。雖然數(shù)據(jù)集市被歸并為數(shù)據(jù)倉庫,但是它的出現(xiàn)誘發(fā)了商務(wù)智能和聯(lián)機(jī)分析技術(shù)的流行。
  隨著數(shù)據(jù)庫在企業(yè)中的廣泛應(yīng)用,企業(yè)收集了大量的數(shù)據(jù),如何從已有數(shù)據(jù)中提取對企業(yè)運(yùn)營和決策具有重要價值的信息,成為了數(shù)據(jù)庫使用者和開發(fā)者關(guān)系的話題!瓣P(guān)系數(shù)據(jù)庫之父”科德再次走在了前面,提出多維數(shù)據(jù)庫和多維分析的概念,這便是“聯(lián)機(jī)分析處理”(OLAP),使得數(shù)據(jù)庫已經(jīng)顯現(xiàn)了“智能性”特點。從數(shù)據(jù)倉庫中產(chǎn)生的OLAP又反過來促進(jìn)和推動數(shù)據(jù)倉庫技術(shù)的更深層的發(fā)展。
  數(shù)據(jù)倉庫、OLAP的發(fā)展和成熟催生了下一代數(shù)據(jù)庫“智能產(chǎn)品”——數(shù)據(jù)挖掘。該技術(shù)是指從大量的數(shù)據(jù)中自動搜索數(shù)據(jù)之間隱藏著的特殊關(guān)系,通過統(tǒng)計、分析、檢索、機(jī)器學(xué)習(xí)結(jié)合專家系統(tǒng)(結(jié)合過去的經(jīng)驗)和模式識別來發(fā)現(xiàn)數(shù)據(jù)之間的“內(nèi)在聯(lián)系”,為判斷、決策、規(guī)劃提供信息。這時被發(fā)現(xiàn)的“內(nèi)在聯(lián)系”不再是簡單的結(jié)果,而是上升為“知識”,大量知識的積累更進(jìn)一步提升了數(shù)據(jù)挖掘的準(zhǔn)確性和商業(yè)價值。數(shù)據(jù)倉庫把數(shù)據(jù)挖掘地深度進(jìn)一步擴(kuò)展并快速應(yīng)用到商業(yè)環(huán)境中,這便是“商業(yè)智能”(Business Intelligent, BI)。
  商業(yè)智能和數(shù)據(jù)挖掘的大規(guī)模應(yīng)用是在互聯(lián)網(wǎng)高度普及的時刻,隨著數(shù)據(jù)庫技術(shù)的發(fā)展和商業(yè)競爭的白熱化,網(wǎng)絡(luò)服務(wù)、網(wǎng)絡(luò)搜索引擎及網(wǎng)絡(luò)用戶行為標(biāo)引技術(shù)逐漸成熟。通過數(shù)據(jù)庫中的知識、用戶行為統(tǒng)計、分析,產(chǎn)生出更具綜合性、普遍性和高商業(yè)附加值的知識,與數(shù)據(jù)挖掘和商業(yè)智能同期發(fā)展的數(shù)據(jù)可視化技術(shù),充分利用圖形、圖表等視覺元素,完成了現(xiàn)代數(shù)據(jù)庫技術(shù)在結(jié)果輸出和表現(xiàn)形式上的又一次飛躍。數(shù)據(jù)挖掘、商業(yè)智能、可視化技術(shù)的基礎(chǔ)是大數(shù)據(jù),其工具便是大數(shù)據(jù)工具。



本文編號:1041604

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/dxkc/1041604.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d507c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com