天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的數(shù)理統(tǒng)計(jì)功能集的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2019-05-30 13:09
【摘要】:當(dāng)前,許多企業(yè)盡可能詳細(xì)地收集數(shù)據(jù),使用的數(shù)據(jù)倉(cāng)庫(kù)的大小從TB級(jí)到PB級(jí),企業(yè)能否對(duì)這些海量數(shù)據(jù)進(jìn)行分析是市場(chǎng)競(jìng)爭(zhēng)力的關(guān)鍵所在。數(shù)理統(tǒng)計(jì)分析是一種運(yùn)用數(shù)理統(tǒng)計(jì)學(xué)的知識(shí)來(lái)分析數(shù)據(jù)的經(jīng)典方法,借助于數(shù)理統(tǒng)計(jì)分析,用戶可以直觀地了解被分析數(shù)據(jù)的數(shù)量特征,這些特征包括:集中趨勢(shì)、離散趨勢(shì)和分布趨勢(shì)。此外,使用數(shù)理統(tǒng)計(jì)方法分析樣本數(shù)據(jù)(sample)能夠?qū)?shù)據(jù)總體(population)進(jìn)行推斷。 傳統(tǒng)單機(jī)版本的數(shù)理統(tǒng)計(jì)算法由于受到機(jī)器內(nèi)存的限制,處理的數(shù)據(jù)規(guī)模有限。為了擴(kuò)大處理數(shù)據(jù)的規(guī)模,本文基于Hadoop設(shè)計(jì)并實(shí)現(xiàn)了一套并行的數(shù)理統(tǒng)計(jì)功能集,該功能集是“基于云平臺(tái)的數(shù)據(jù)挖掘工具’'(BC-PDM)的一個(gè)重要模塊,基于云平臺(tái)以SaaS (software-as-a-service)的方式為用戶提供數(shù)理統(tǒng)計(jì)分析服務(wù)。 論文的主要工作包括: 首先,作者調(diào)研了當(dāng)前流行的數(shù)理統(tǒng)計(jì)軟件(SAS、IBM SPSS等),根據(jù)調(diào)研結(jié)果,將本數(shù)理統(tǒng)計(jì)功能集分為描述統(tǒng)計(jì)功能和推斷統(tǒng)計(jì)功能兩個(gè)子集。描述統(tǒng)計(jì)功能集包含一個(gè)分析數(shù)據(jù)數(shù)量特征的功能。推斷統(tǒng)計(jì)功能集功能較多,包括:?jiǎn)我蛩胤讲罘治、一元線性回歸、單個(gè)正態(tài)總體均值的檢驗(yàn)、兩個(gè)正態(tài)總體均值差的檢驗(yàn)、基于成對(duì)數(shù)據(jù)的檢驗(yàn)、單變量分析和多變量分析。 然后,作者研究了各擬實(shí)現(xiàn)功能的原理并給出單機(jī)算法的設(shè)計(jì)與實(shí)現(xiàn),在此基礎(chǔ)上,進(jìn)一步給出了基于MapReduce匡架的并行算法的設(shè)計(jì)與實(shí)現(xiàn)。 最后,作者通過(guò)大量實(shí)驗(yàn)檢驗(yàn)了各并行算法的功能和性能。實(shí)驗(yàn)結(jié)果表明:各并行算法功能正確,處理小規(guī)模數(shù)據(jù)時(shí),相對(duì)于單機(jī)算法并行算法性能并不占優(yōu),但隨著數(shù)據(jù)規(guī)模的擴(kuò)大,并行算法的性能優(yōu)勢(shì)就越來(lái)越明顯,證明了論文設(shè)計(jì)實(shí)現(xiàn)的并行算法是合理、高效的。
[Abstract]:......
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP338.6

【參考文獻(xiàn)】

相關(guān)期刊論文 前4條

1 陸冬梅;;數(shù)理統(tǒng)計(jì)在客觀現(xiàn)實(shí)中的意義與作用分析[J];赤峰學(xué)院學(xué)報(bào)(科學(xué)教育版);2011年08期

2 許春玲;張廣泉;;分布式文件系統(tǒng)Hadoop HDFS與傳統(tǒng)文件系統(tǒng)Linux FS的比較與分析[J];蘇州大學(xué)學(xué)報(bào)(工科版);2010年04期

3 羅軍舟;金嘉暉;宋愛波;東方;;云計(jì)算:體系架構(gòu)與關(guān)鍵技術(shù)[J];通信學(xué)報(bào);2011年07期

4 盧益陽(yáng);;NoSQL數(shù)據(jù)管理系統(tǒng)綜述[J];企業(yè)科技與發(fā)展;2011年17期



本文編號(hào):2488871

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2488871.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d4ef1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com