基于Sap Hana內(nèi)存計算的大規(guī)模數(shù)據(jù)分析系統(tǒng)的設(shè)計與實現(xiàn)
本文關(guān)鍵詞:基于Sap Hana內(nèi)存計算的大規(guī)模數(shù)據(jù)分析系統(tǒng)的設(shè)計與實現(xiàn)
更多相關(guān)文章: SAP ERP HANA 內(nèi)存計算 K-means算法 Apriori算法
【摘要】:在大數(shù)據(jù)時代,企業(yè)所掌握的信息已經(jīng)成為其最為主要的競爭力來源。如何通過大數(shù)據(jù)分析技術(shù)對掌握的信息進行有效的管理和分析,從中挖掘價值,已經(jīng)成為現(xiàn)代企業(yè)從信息主管到CIO最為關(guān)注的話題。中國石油化工集團公司業(yè)(以下簡稱中石化)作為全球最大的企業(yè)之一,業(yè)務(wù)領(lǐng)域涵蓋整個石化行業(yè)的全部生態(tài)鏈,包含多條產(chǎn)品線的覆蓋全國乃至全球的產(chǎn)銷渠道體系。按照中石化信息部的規(guī)劃要求,積極實施和推動企業(yè)級數(shù)據(jù)倉庫(EDW)建設(shè)。構(gòu)建了EDW+BW架構(gòu)來支撐企業(yè)的分析需求和報表需求。幫助企業(yè)管理者及時掌握企業(yè)運行狀況。各企業(yè)業(yè)務(wù)部門依托此系統(tǒng)出具日報、月報,并進行分析和監(jiān)控。而伴隨著近幾年中石化業(yè)務(wù)的不斷擴大、信息技術(shù)的提高以及企業(yè)對信息化建設(shè)力度的加大,ERP系統(tǒng)及其他外圍信息系統(tǒng)的建設(shè),企業(yè)產(chǎn)生的數(shù)據(jù)量成爆炸式增長。BW系統(tǒng)業(yè)務(wù)及財務(wù)報表系統(tǒng)數(shù)據(jù)量快速增長。截止2015年初EDW的數(shù)據(jù)量已經(jīng)超過30T,數(shù)據(jù)增長的速度還在逐年加快。與此同時企業(yè)業(yè)務(wù)需求水平不斷提高,現(xiàn)有的EDW+BW模式不能完全的滿足各部門對系統(tǒng)性能、計算能力、響應(yīng)速度提出的高要求,中石化開始嘗試SAP HANA系統(tǒng)在銷售板塊的應(yīng)用。近年來,計算機體系結(jié)構(gòu)已經(jīng)發(fā)生變化。現(xiàn)在多核處理器已成為標準,隨著處理器內(nèi)核之間的快速通信而實現(xiàn)的并行處理,而SAP HANA是由SAP推出的最新技術(shù)。其核心利用創(chuàng)新型的內(nèi)存技術(shù)來存儲數(shù)據(jù),特別適合處理數(shù)據(jù)量非常大的表格型或關(guān)系型的數(shù)據(jù),具有前所未有的性能。在HANA里的函數(shù)庫中,APRIORI算法和K-means算法對在使用HANA模型下的數(shù)據(jù)做出具體的分析和銷售的方案。本文對中石化企業(yè)級數(shù)據(jù)倉庫(EDW)的建設(shè)進行了簡單的介紹,重點介紹了基于Sap Hana內(nèi)存計算的大規(guī)模數(shù)據(jù)分析中使用的方法及實現(xiàn)過程。過程中主要用到了HANA的內(nèi)存計算技術(shù),算法上主要使用了聚類分析(K-means算法)、關(guān)聯(lián)分析(Apriori算法),開發(fā)語言為HANA提供的SQLScript語言。
【關(guān)鍵詞】:SAP ERP HANA 內(nèi)存計算 K-means算法 Apriori算法
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要4-5
- Abstract5-10
- 第一章 緒論10-14
- 1.1 選題背景10
- 1.2 主要研究內(nèi)容10-11
- 1.3 數(shù)據(jù)分析的意義11-12
- 1.4 本文組織結(jié)構(gòu)12-14
- 第二章 HANA的應(yīng)用背景及數(shù)據(jù)抽取14-19
- 2.1 SAP HANA概述14-16
- 2.2 系統(tǒng)架構(gòu)及數(shù)據(jù)流16-18
- 2.3 本章小結(jié)18-19
- 第三章 HANA總體架構(gòu)及內(nèi)存計算19-32
- 3.1 HANA數(shù)據(jù)的存儲方式19-24
- 3.1.1 現(xiàn)代化硬件對數(shù)據(jù)庫系統(tǒng)架構(gòu)的影響19-20
- 3.1.2 基于列式和行式的存儲20-21
- 3.1.3 列式表的優(yōu)勢21-24
- 3.2 HANA架構(gòu)概覽24-26
- 3.3 SAP HANA數(shù)據(jù)庫架構(gòu)26-30
- 3.3.1 表、視圖和星型架構(gòu)26-27
- 3.3.2 SAP HANA模型視圖27-28
- 3.3.3 SAP HANA視圖處理28-30
- 3.4 內(nèi)存計算30-31
- 3.5 本章小結(jié)31-32
- 第四章 基于SAP HANA的大數(shù)據(jù)分析與系統(tǒng)實現(xiàn)32-55
- 4.1 系統(tǒng)架構(gòu)32-33
- 4.2 內(nèi)存計算與HANA的關(guān)系33
- 4.3 HANA建模33-35
- 4.3.1 數(shù)據(jù)建模34
- 4.3.2 創(chuàng)建主數(shù)據(jù)屬性視圖34-35
- 4.3.3 創(chuàng)建銷售明細分析視圖35
- 4.4 關(guān)聯(lián)分析(APRIORI)算法35-41
- 4.4.1 創(chuàng)建臨時表類型37-38
- 4.4.2 創(chuàng)建關(guān)聯(lián)分析存儲過程38-39
- 4.4.3 前臺頁面開發(fā)39-40
- 4.4.4 關(guān)聯(lián)分析在HANA中執(zhí)行效率40-41
- 4.5 聚類分析(K-meams)算法41-45
- 4.5.1 聚類算法K-means簡介41
- 4.5.2 聚類分析實現(xiàn)41-45
- 4.6 基于HANA模型的大數(shù)據(jù)分析45-54
- 4.7 本章小結(jié)54-55
- 第五章 HANA系統(tǒng)性能測試55-59
- 5.1 測試步驟55-57
- 5.2 測試結(jié)果57-58
- 5.3 本章小結(jié)58-59
- 第六章 總結(jié)與展望59-60
- 6.1 文章總結(jié)59
- 6.2 展望59-60
- 參考文獻60-63
- 個人簡介63-64
- 后記和致謝64
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王瓊;曹奎;;關(guān)聯(lián)規(guī)則挖掘Apriori算法的改進[J];福建電腦;2012年12期
2 潘明惠;;內(nèi)存計算技術(shù)驗證項目與應(yīng)用研究[J];電力信息化;2012年10期
3 饒正嬋;范年柏;;關(guān)聯(lián)規(guī)則挖掘Apriori算法研究綜述[J];計算機時代;2012年09期
4 李超;張明博;邢春曉;胡勁松;;列存儲數(shù)據(jù)庫關(guān)鍵技術(shù)綜述[J];計算機科學(xué);2010年12期
5 王珊;肖艷芹;劉大為;覃雄派;;內(nèi)存數(shù)據(jù)庫關(guān)鍵技術(shù)研究[J];計算機應(yīng)用;2007年10期
6 毛韶陽;李肯立;;優(yōu)化K-means初始聚類中心研究[J];計算機工程與應(yīng)用;2007年22期
7 金微;陳慧萍;;基于分層聚類的k-means算法[J];河海大學(xué)常州分校學(xué)報;2007年01期
8 曾舸;劉先鋒;;關(guān)聯(lián)規(guī)則挖掘中Apriori改進算法的研究[J];計算機與現(xiàn)代化;2007年01期
9 秦鋒,楊學(xué)兵;一種基于APRIORI性質(zhì)的多維關(guān)聯(lián)規(guī)則挖掘算法的研究[J];安徽工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2003年02期
10 夏幼明,解敏,周雯;數(shù)據(jù)挖掘方法分析與評價[J];云南師范大學(xué)學(xué)報(自然科學(xué)版);2003年02期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 李強;數(shù)據(jù)挖掘中關(guān)聯(lián)分析算法研究[D];哈爾濱工程大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前7條
1 朱靖翔;基于內(nèi)存計算的鋼鐵價格預(yù)測算法研究[D];東華大學(xué);2015年
2 莊辰弘;基于SAP HANA的內(nèi)存數(shù)據(jù)庫應(yīng)用研究[D];上海交通大學(xué);2013年
3 朱卿;基于HANA計算的營銷統(tǒng)計分析系統(tǒng)[D];復(fù)旦大學(xué);2013年
4 吳嘉樂;基于HANA數(shù)據(jù)庫的客戶盈虧分析系統(tǒng)設(shè)計[D];復(fù)旦大學(xué);2013年
5 劉江沙;基于內(nèi)存計算技術(shù)的企業(yè)海量財務(wù)數(shù)據(jù)實時分析[D];復(fù)旦大學(xué);2013年
6 蘭天;關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘方法的研究與實現(xiàn)[D];西安科技大學(xué);2008年
7 馮超;K-means聚類算法的研究[D];大連理工大學(xué);2007年
,本文編號:669093
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/669093.html