天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

大數(shù)據(jù)平臺的自助數(shù)據(jù)提取系統(tǒng)

發(fā)布時(shí)間:2021-07-31 07:20
  目前,互聯(lián)網(wǎng)數(shù)據(jù)正在快速增加并將持續(xù)增長,這使得大規(guī)模數(shù)據(jù)的提取分析處理成為企業(yè)關(guān)注的熱點(diǎn)問題。在沒有自助數(shù)據(jù)提取工具且業(yè)務(wù)量激增的情況下,時(shí)間和人力成本成為了業(yè)務(wù)拓展的限制因素。因此,設(shè)計(jì)高效的自助數(shù)據(jù)提取系統(tǒng)對企業(yè)的發(fā)展是至關(guān)重要的。本文采用Hive作為數(shù)據(jù)倉庫解決方案。然而,在海量數(shù)據(jù)的并行處理過程中,關(guān)聯(lián)查詢的連接操作產(chǎn)生的數(shù)據(jù)網(wǎng)絡(luò)傳輸代價(jià)成為了性能瓶頸。因此,改善Hive中的關(guān)聯(lián)查詢效率對于提高大數(shù)據(jù)平臺的自助數(shù)據(jù)提取系統(tǒng)的性能具有重要作用。本文從用戶的角度提出了一種提高Hive中關(guān)聯(lián)查詢效率的創(chuàng)新方法,即“學(xué)習(xí)查詢”架構(gòu)。用戶僅需在可視化操作界面上進(jìn)行配置,“學(xué)習(xí)查詢”架構(gòu)即可生成最佳查詢計(jì)劃。本文主要的研究內(nèi)容和研究成果如下:1)設(shè)計(jì)查詢開銷預(yù)測模型進(jìn)行查詢執(zhí)行時(shí)間的預(yù)測,預(yù)測結(jié)果作為一項(xiàng)參考標(biāo)準(zhǔn),用于“學(xué)習(xí)查詢”架構(gòu)進(jìn)行最優(yōu)查詢計(jì)劃的選擇和長時(shí)間查詢?nèi)蝿?wù)的及時(shí)調(diào)整。本文采用深度學(xué)習(xí)技術(shù)LSTM進(jìn)行查詢開銷的預(yù)測,基于前人工作進(jìn)行改進(jìn),設(shè)計(jì)了更適用于大數(shù)據(jù)環(huán)境下Hive查詢的開銷預(yù)測模型,并通過實(shí)驗(yàn)分析比較,驗(yàn)證了改進(jìn)模型的有效性。2)在“學(xué)習(xí)查詢”架構(gòu)中,本文提出了一種... 

【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:74 頁

【學(xué)位級別】:碩士

【部分圖文】:

大數(shù)據(jù)平臺的自助數(shù)據(jù)提取系統(tǒng)


圖2-2展開的RNN結(jié)構(gòu)??記輸入層神經(jīng)元的個(gè)數(shù)是n,隱含層的神經(jīng)元個(gè)數(shù)為m,輸出層神經(jīng)元個(gè)數(shù)??

記憶狀態(tài),信息,輸出門,輸入門


時(shí)序間隔和延遲的任務(wù)。LSTM的核心是通過引入可控自循環(huán),使得梯度得以長??時(shí)間可持續(xù)流動,從而影響后續(xù)新輸入的處理結(jié)果。LSTM網(wǎng)絡(luò)的基本單元是記??憶塊,如圖2-3所示,包括一個(gè)或者多個(gè)的記憶狀態(tài)單元(cell?state)和三個(gè)自??適應(yīng)的乘法門控單元,即輸入門、輸出門和遺忘門。每一個(gè)記憶狀態(tài)單元的核心??是一個(gè)循環(huán)自連接的線性單元,稱為“Constant?Error?Carrousels”(CEC)。即在??LSTM中,輸入門、輸出門和遺忘門單元學(xué)習(xí)打開和關(guān)閉對單元的訪問,決定是??否保留較舊的信息以及何時(shí)將其輸出到網(wǎng)絡(luò)中。??cell?output?^?I?^?output?gate??output?gatwg?Scy〇llt:4?■■=—,:專系U二?ZOT??a?—s??memorizing?Q?cel,??一一一-戈--一'、V?and?forgetting?'?X/??forge!?gate?、 ̄^?T?inputjaie??g?gyin'|?r?)^rH?Zm??O-?X?V,一,?s??s??input?squashing?^?[_/j?J?111??cell?input?y?W〇\??/?\??Zc??圖2-3帶有一個(gè)記憶狀態(tài)的LSTM記憶塊p3]??其中,遺忘門的目的在于,控制從前面的記憶中丟棄多少信息,它決定了“上??一個(gè)時(shí)刻”的單元狀態(tài)有多少記憶可以保留到當(dāng)前時(shí)刻

隱含層單元,邏輯設(shè)計(jì)


?(2-6)??LSTM中的記憶狀態(tài),如傳送帶一般,讓信息向量從記憶單元中流過,只是??在其中又做了一些線性轉(zhuǎn)換,包括乘法和加法,如圖2-4所示。LSTM的核心要??素就是圖2-4中用虛線框標(biāo)注的乘法和加法操作。加法能夠幫助LSTM在必須進(jìn)??行深度反向傳播時(shí),維持恒定的誤差(或者說保留損失信號)。而這個(gè)損失信號??正是調(diào)參的向?qū),也就是因(yàn)檫@個(gè)“加法”操作才得以避免梯度消失問題。乘法??操作的前端輸入采用了?Sigmoid激活函數(shù),而Sigmoid輸出的元素值是一^在0??到1之間的實(shí)數(shù),它代表的是信息留存的權(quán)重。比如0表示不讓任何信息通過,??1表示讓所有信息通過,而中間值表示讓部分信息通過。??A??[、、、??tr?o?tanh?<r??ft?it?ct?°t???令?? ̄ ̄T?丄??tanh??;?j]?[0]Ct?^??圖2-4?LSTM隱含層單元的完整邏輯設(shè)計(jì)??12??

【參考文獻(xiàn)】:
期刊論文
[1]基于循環(huán)神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)庫查詢開銷預(yù)測[J]. 畢里緣,伍賽,陳剛,壽黎但,陳珂,胡天磊.  軟件學(xué)報(bào). 2018(03)
[2]多核環(huán)境下基于圖模型的實(shí)時(shí)規(guī)則調(diào)度方法[J]. 王娟娟,喬穎,熊金泉,王宏安.  軟件學(xué)報(bào). 2019(02)
[3]基線與增量數(shù)據(jù)分離架構(gòu)下的分布式連接算法[J]. 樊秋實(shí),周敏奇,周傲英.  計(jì)算機(jī)學(xué)報(bào). 2016(10)
[4]自助取數(shù)分析平臺實(shí)現(xiàn)精細(xì)快捷經(jīng)營分析[J]. 徐喆,李磊,李健.  通信企業(yè)管理. 2015(11)
[5]任務(wù)定時(shí)調(diào)度在企業(yè)級開發(fā)中的研究[J]. 王秀,孫忠林,姜莉.  電子科技. 2015(10)
[6]海量數(shù)據(jù)分析的One-size-fits-all OLAP技術(shù)[J]. 張延松,焦敏,王占偉,王珊,周烜.  計(jì)算機(jī)學(xué)報(bào). 2011(10)
[7]一種基于圖模型的Web數(shù)據(jù)庫采樣方法[J]. 劉偉,孟小峰,凌妍妍.  軟件學(xué)報(bào). 2008(02)
[8]SQL生成器的設(shè)計(jì)與實(shí)現(xiàn)[J]. 胡宏銀,何成萬,姚峰.  計(jì)算機(jī)工程與設(shè)計(jì). 2006(11)
[9]數(shù)據(jù)倉庫查詢處理中的一種多表連接算法[J]. 蔣旭東,周立柱.  軟件學(xué)報(bào). 2001(02)

碩士論文
[1]寧夏電信自助取數(shù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 伍星.電子科技大學(xué) 2016
[2]銀行自助取數(shù)服務(wù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 肖波.武漢科技大學(xué) 2015
[3]基于BI工具的OLAP最優(yōu)化SQL語句生成系統(tǒng)的研究與實(shí)現(xiàn)[D]. 胡仁強(qiáng).北京郵電大學(xué) 2015



本文編號:3313032

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3313032.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8fe99***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com