天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

大數(shù)據(jù)處理技術(shù)與系統(tǒng)研究

發(fā)布時(shí)間:2017-12-06 17:00

  本文關(guān)鍵詞:大數(shù)據(jù)處理技術(shù)與系統(tǒng)研究


  更多相關(guān)文章: 大數(shù)據(jù)處理 分布式存儲(chǔ)管理 并行化計(jì)算 性能優(yōu)化 機(jī)器學(xué)習(xí)并行化算法 大數(shù)據(jù)分析編程模型 大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)


【摘要】:隨著計(jì)算機(jī)和信息技術(shù)的迅猛發(fā)展和普及應(yīng)用,行業(yè)數(shù)據(jù)爆炸性增長,全球已經(jīng)進(jìn)入了“大數(shù)據(jù)”時(shí)代。大數(shù)據(jù)已引起全球業(yè)界、學(xué)術(shù)界和各國政府的高度關(guān)注。大數(shù)據(jù)已經(jīng)滲透到各行各業(yè),巨大的數(shù)據(jù)資源已成為國家和企業(yè)的戰(zhàn)略資源。大數(shù)據(jù)給全球帶來了重大的發(fā)展機(jī)遇與挑戰(zhàn)。一方面,大規(guī)模數(shù)據(jù)資源蘊(yùn)涵著巨大的商業(yè)價(jià)值和社會(huì)價(jià)值,有效地管理和利用這些數(shù)據(jù)、挖掘數(shù)據(jù)的深度價(jià)值,對國家治理、社會(huì)管理、企業(yè)決策和個(gè)人生活將帶來巨大的影響。另一方面,大數(shù)據(jù)帶來新的發(fā)展機(jī)遇的同時(shí),也帶來很多技術(shù)挑戰(zhàn)。格式多樣、形態(tài)復(fù)雜、規(guī)模龐大的行業(yè)大數(shù)據(jù)給傳統(tǒng)的計(jì)算技術(shù)帶來了巨大挑戰(zhàn),傳統(tǒng)的信息處理與計(jì)算技術(shù)已難以有效地應(yīng)對大數(shù)據(jù)的處理。因此,需要從計(jì)算技術(shù)的多個(gè)層面出發(fā),采用新的技術(shù)方法,才能提供有效的大數(shù)據(jù)處理技術(shù)手段和方法。大規(guī)模數(shù)據(jù)的有效處理面臨數(shù)據(jù)的存儲(chǔ)、計(jì)算和分析等幾個(gè)層面上的主要技術(shù)困難。首先,動(dòng)輒達(dá)到數(shù)百TB級甚至PB級規(guī)模的行業(yè)大數(shù)據(jù),遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的處理能力。因此,需要研究提供有效的分布式大數(shù)據(jù)存儲(chǔ)管理技術(shù)方法與系統(tǒng)。同時(shí),大規(guī)模數(shù)據(jù)處理是一個(gè)非常耗時(shí)的計(jì)算過程,使得傳統(tǒng)的單機(jī)系統(tǒng)遠(yuǎn)遠(yuǎn)無法滿足大數(shù)據(jù)對計(jì)算性能的要求。因此,需要研究提供高效的并行化大數(shù)據(jù)計(jì)算技術(shù)方法與系統(tǒng)。進(jìn)一步,大數(shù)據(jù)的有效分析利用通常涉及到對大規(guī)模數(shù)據(jù)的分析挖掘,而巨大的數(shù)據(jù)量使得傳統(tǒng)的單機(jī)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法都難以在可接受時(shí)間內(nèi)完成計(jì)算,導(dǎo)致算法失效。因此,需要研究提供有效的并行化大數(shù)據(jù)機(jī)器學(xué)習(xí)與分析挖掘算法和大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)。大數(shù)據(jù)處理不同于傳統(tǒng)的計(jì)算與信息處理技術(shù)的另一個(gè)重要特點(diǎn)是,它是一項(xiàng)涉及計(jì)算與信息處理技術(shù)眾多方面的綜合性技術(shù),具有顯著的技術(shù)綜合性和交叉性特征,以任何一個(gè)單一和隔離的技術(shù)層面和技術(shù)方法,都難以有效完成大數(shù)據(jù)的處理。因此,大數(shù)據(jù)的有效處理需要將存儲(chǔ)、計(jì)算與分析層面的技術(shù)緊密結(jié)合、交叉綜合,以形成一種完整的大數(shù)據(jù)處理技術(shù)棧,構(gòu)成一體化的大數(shù)據(jù)處理系統(tǒng)平臺(tái);谝陨蠁栴}背景,本文對大數(shù)據(jù)處理的多個(gè)技術(shù)層面進(jìn)行了深入研究,在分布式存儲(chǔ)技術(shù)與系統(tǒng)、并行化計(jì)算技術(shù)與系統(tǒng)、以及大數(shù)據(jù)并行化機(jī)器學(xué)習(xí)與數(shù)據(jù)分析算法與系統(tǒng)方面,進(jìn)行了一系列的研究。具體而言,本文工作包括以下主要技術(shù)內(nèi)容和貢獻(xiàn):(1)大數(shù)據(jù)分布式存儲(chǔ)管理技術(shù)與系統(tǒng)研究。主要開展了三方面的研究工作。1)為了提升大數(shù)據(jù)分布式存儲(chǔ)系統(tǒng)的性能,研究實(shí)現(xiàn)了分層式大數(shù)據(jù)存儲(chǔ)系統(tǒng)緩存調(diào)度策略與性能優(yōu)化方法,可顯著提高分布式存儲(chǔ)系統(tǒng)數(shù)據(jù)訪問的性能;2)研究實(shí)現(xiàn)了一種通用的分布式文件系統(tǒng)性能測試方法與系統(tǒng)工具,可以用于各種分布式文件系統(tǒng)的性能評估和研究優(yōu)化,或者用于大數(shù)據(jù)應(yīng)用系統(tǒng)設(shè)計(jì)時(shí)選擇合適的存儲(chǔ)系統(tǒng)和參數(shù)優(yōu)化配置;3)研究設(shè)計(jì)了分布式層次化大規(guī)模RDF語義數(shù)據(jù)存儲(chǔ)技術(shù)與管理系統(tǒng),可有效地存儲(chǔ)管理大規(guī)模RDF語義數(shù)據(jù)。(2)主流大數(shù)據(jù)并行計(jì)算系統(tǒng)性能優(yōu)化研究。主要研究了兩方面的工作。1)Hadoop MapReduce作業(yè)執(zhí)行調(diào)度優(yōu)化技術(shù),研究實(shí)現(xiàn)了優(yōu)化的MapReduce作業(yè)與任務(wù)調(diào)度處理方法以及高效的任務(wù)執(zhí)行狀態(tài)通信方法,實(shí)現(xiàn)了一個(gè)與標(biāo)準(zhǔn)Hadoop完全兼容的優(yōu)化版本Hadoop; 2) Spark RDD數(shù)據(jù)堆外(Off Heap)內(nèi)存存儲(chǔ)機(jī)制,針對Spark在處理大規(guī)模數(shù)據(jù)性能受到JVM垃圾回收嚴(yán)重影響的問題,研究實(shí)現(xiàn)了一種基于分布式堆外內(nèi)存存儲(chǔ)的Spark RDD數(shù)據(jù)存儲(chǔ)機(jī)制。(3)大數(shù)據(jù)并行化機(jī)器學(xué)習(xí)與數(shù)據(jù)分析方法與算法研究。主要研究實(shí)現(xiàn)了多個(gè)應(yīng)用領(lǐng)域的復(fù)雜大數(shù)據(jù)機(jī)器學(xué)習(xí)與數(shù)據(jù)分析并行化算法,包括:1)針對數(shù)據(jù)挖掘領(lǐng)域中大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練性能低下的問題,研究實(shí)現(xiàn)了一個(gè)定制式大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練并行化算法與計(jì)算平臺(tái)cNeural;2)針對在搜索引擎和信息檢索領(lǐng)域重要的排序?qū)W習(xí)(Learning To Rank)算法GBRT (Gradient Boosting Regression Tree)訓(xùn)練耗時(shí)較長的問題,研究提出了基于K-Means直方圖近似算法優(yōu)化的加速方法及其并行化算法;3)針對語義網(wǎng)推理領(lǐng)域中RDFS和OWL推理規(guī)則集在大規(guī)模語義數(shù)據(jù)上推理耗時(shí)過長的問題,研究實(shí)現(xiàn)了基于Spark并行計(jì)算平臺(tái)的高效并行化推理方法與系統(tǒng)。(4)統(tǒng)一大數(shù)據(jù)機(jī)器學(xué)習(xí)與數(shù)據(jù)分析編程模型與系統(tǒng)平臺(tái)研究。針對大數(shù)據(jù)分析處理時(shí)面臨的系統(tǒng)平臺(tái)可編程性和易用性問題、以及大數(shù)據(jù)分析處理時(shí)的計(jì)算性能問題,研究提出了一種基于矩陣模型的統(tǒng)一大數(shù)據(jù)機(jī)器學(xué)習(xí)與數(shù)據(jù)分析編程模型與框架,并進(jìn)一步設(shè)計(jì)實(shí)現(xiàn)了一個(gè)跨平臺(tái)統(tǒng)一大數(shù)據(jù)機(jī)器學(xué)習(xí)與數(shù)據(jù)分析系統(tǒng)平臺(tái)Octopus(大章魚),該系統(tǒng)底層可與Hadoop、Spark、MPI、Flink等主流大數(shù)據(jù)平臺(tái)集成,實(shí)現(xiàn)底層平臺(tái)對上層數(shù)據(jù)分析程序員的透明性,而上層可使用R/Python編程語言與編程開發(fā)環(huán)境,基于矩陣模型,方便高效地完成大數(shù)據(jù)分析算法和應(yīng)用的編程和計(jì)算。通過對上述大數(shù)據(jù)分布式存儲(chǔ)、并行化計(jì)算、以及大數(shù)據(jù)分析層面關(guān)鍵技術(shù)方法與系統(tǒng)的研究,本文取得了一系列研究工作成果,這些成果可作為重要支撐技術(shù)與系統(tǒng),有效運(yùn)用于構(gòu)建一體化的大數(shù)據(jù)處理系統(tǒng)平臺(tái)。本文部分成果已經(jīng)被成功運(yùn)用于工業(yè)界的開源或者商業(yè)化大數(shù)據(jù)處理系統(tǒng)或應(yīng)用產(chǎn)品中。
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13
,

本文編號(hào):1259290

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1259290.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶85c05***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com