天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

Spark緩存機制研究與實現

發(fā)布時間:2020-09-03 12:35
   Spark作為基于內存的計算框架,在保留了MapReduce計算模型的容錯機制的同時,將數據交換從磁盤級別提高到內存級別,極大提高了大數據計算的處理效率。Spark也非常適用于機器學習領域多次迭代計算的場景,正是由于Spark的基于內存的計算使得Spark框架對于內存非常依賴,內存的使用情況將直接影響到Spark框架的執(zhí)行速率,而Spark目前僅僅使用LRU算法來對緩存管理,當前的優(yōu)化工作主要針對于框架的緩存策略,在部分場景下仍然存在低效的緩存替換的問題,本文針對Spark的緩存策略進行研究,主要完成了如下工作:1.針對LRU算法沒能考慮RDD的使用情況淘汰掉部分復雜的RDD,以及在緩存替換過程中沒有考慮到替換后框架的計算代價,導致重建RDD耗時增加問題,論文提出了一種基于計算代價模型的緩存替換策略,該策略首先建立包括計算代價在內的權重模型,根據新的權重模型進行緩存替換,并基于RDD計算代價模型,選擇代價最小的方案進行緩存替換,從而進一步減少重建RDD的時間,提高Spark的執(zhí)行效率。并將本文策略與權重替換策略和Spark原生的替換策略分別進行實驗對比,結果表明,本文策略在數據集較大或者迭代次數多的情況下能夠有效提高Spark框架的執(zhí)行效率。2.針對Spark框架RDD緩存數據恢復機制效率低下的問題,提出一種基于恢復點的RDD緩存快速恢復的策略,將Spark任務以Stage為界限,在每個Stage中分別設置起始恢復點和關鍵恢復點,并將恢復點數據序列化,當根據RDD血統(tǒng)重建RDD時,直接從恢復點獲得數據,縮短了RDD重建的血統(tǒng)路徑長度,加速了RDD的重建過程,并在此基礎上增加了恢復點清理算法,確保該策略在Spark運行過程中只會占用少量的磁盤空間,節(jié)省磁盤資源。并將本文策略與Spark原生數據恢復策略進行實驗對比,結果表明,本文策略相比框架原生的數據恢復策略能夠加速RDD重建過程,提高Spark的運行速率。3.對本文提出的基于計算代價模型的緩存替換策略、基于恢復點的RDD緩存快速恢復策略進行了設計與實現。論文工作表明,針對Spark的緩存策略進行研究優(yōu)化,在緩存替換的過程中基于RDD計算代價選擇代價最小的方案進行緩存替換,可以降低重建RDD的時延,并將重要RDD序列化,加速RDD的重建過程,進一步減少RDD恢復的時間,提升Spark計算框架的性能,對Spark框架處理大數據有重要意義。
【學位單位】:重慶郵電大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TP311.13;TP333
【部分圖文】:

軟件棧,框架


第 2 章 相關技術k 作為基于內存的大數據處理框架對于內存的使用將直接影響框此針對 Spark 的緩存機制進行研究具有重大意義,在對緩存機制握有關 Spark 的技術基礎十分必要。本章針對 Spark 計算框架中行分析闡述,為下一步對于緩存機制的優(yōu)化奠定基礎。rk 框架概述k 適用于多種不同的分布式平臺場景,包括批處理、迭代計算、計算等,并將不同場景下用到的組件整合在一個統(tǒng)一的框架下,系統(tǒng)即可,方便開發(fā)者后續(xù)的維護和升級。如圖 2.1 所示,包件。

血統(tǒng),依賴關系,內存,框架


圖 2. 2 RDD 數據管理模型 是只讀不可變的數據集合,只能從數據源中產生或者通過 Spark 算Spark 計算框架在運行過程中會把新生成的 RDD 緩存起來,如果RDD可以直接從內存中獲取,省去了Hadoop MapReduce中的磁盤器學習中的迭代計算,使用內存的 Spark 框架運行效率提升是非RDD 每經歷一次變化就會轉化為一個新的 RDD,不同 RDD 之的相互轉化產生依賴關系,這些依賴關系構成 RDD 的血統(tǒng)(Lineark 的調度順序。特別地,RDD 還使用血統(tǒng)進行容錯,失效的數據系重新計算來進行恢復,不需要回滾整個程序,節(jié)約了容錯成本D 的依賴和容錯 之間通過 Spark 算子的操作會產生依賴,RDD 和它依賴的父 RDD

依賴關系圖


圖 2. 3 RDD 依賴關系圖 的操作對于 RDD 操作分為轉換(Transformation)和動作(Action), 首先將數據從數據源中讀取出來,創(chuàng)建初始 RDD 再經過一系DD,最終遇到 Action 操作產生結果,最終將結果輸出。其中 S值的,即 Spark 是不會在 Action 調用之前立即計算,而內部首和相關信息,直到遇到 Action 操作 Spark 會將記錄的一系列操計算數據的步驟,在一個操作執(zhí)行完畢,RDD 便轉換為新的 指定的操作一次執(zhí)行數據在一個數據塊上進行流水線的操作,用完,而在 Hadoop MapReduce 中往往會花費大量時間在選擇。

【相似文獻】

相關期刊論文 前10條

1 丁明躍,彭嘉雄,萬發(fā)貫;多級假設檢驗的兩級圖象匹配方法[J];電子學報;1989年02期

2 莊燕濱;王尊志;肖賢建;張學武;;基于最大后驗概率估計的壓縮感知算法[J];計算機科學;2015年11期

3 楊磊;陸慧娟;嚴珂;葉敏超;;一種計算代價敏感算法分類精度的方法[J];中國計量大學學報;2017年01期

4 呂洪;王瓊;;CG動畫探析[J];現代裝飾(理論);2013年04期

5 徐瑞英;作門徒的代價[J];天風;2003年10期

6 鐘武;胡守仁;;OQL邏輯優(yōu)化準則[J];計算機科學;1998年02期

7 李炳成;基于模擬退火的二相碼選碼方法[J];電子科學學刊;1991年03期

8 薛佳楣;王永利;玄子玉;;一種RFID系統(tǒng)反跟蹤安全通信協(xié)議[J];計算機應用與軟件;2009年06期

9 張斌;唐朝暉;朱紅求;桂衛(wèi)華;;一種新型的支持向量機約簡方法及其應用[J];系統(tǒng)仿真學報;2012年02期

10 王國才;張聰;;一種基于粗糙集的特征加權樸素貝葉斯分類器[J];重慶理工大學學報(自然科學版);2010年07期

相關會議論文 前6條

1 鐘素素;李宇辰;段莉莉;;在MD模擬的基礎上探究凝血酶與小分子的結合機制[A];第七屆全國計算原子與分子物理學術會議摘要集[C];2018年

2 解凱;呂妍昱;;基于隱含重起ARNOLDI過程的參數估計[A];第十四屆全國圖象圖形學學術會議論文集[C];2008年

3 陳睿;甘志華;;基于反饋的多媒體信息監(jiān)管方法[A];2011年全國電子信息技術與應用學術會議論文集[C];2011年

4 李權;郭兆電;雷武濤;白俊強;王丹;;飛行器設計中的代理模型與優(yōu)化算法[A];全面建成小康社會與中國航空發(fā)展——2013首屆中國航空科學技術大會論文集[C];2013年

5 朱松豪;梁志偉;;用半監(jiān)督學習方法實現圖像檢索[A];第二十九屆中國控制會議論文集[C];2010年

6 王超;秦小麟;劉亞麗;;SLMAP協(xié)議安全分析與改進[A];第十九屆全國青年通信學術年會論文集[C];2014年

相關重要報紙文章 前1條

1 胡立彪;量化自己的責任[N];中國質量報;2008年

相關博士學位論文 前7條

1 賀文武;高效預測的核學習方法[D];中南大學;2008年

2 張桂剛;海量規(guī)則并行處理研究[D];武漢大學;2009年

3 武鵬;解非線性方程的高階迭代算法及其收斂性分析[D];浙江大學;2008年

4 李浩淵;集裝箱碼頭物流系統(tǒng)的基于仿真的優(yōu)化方法研究[D];東北大學 ;2010年

5 萬嬌娜;基于有限精度求解的非線性預測控制算法研究[D];浙江大學;2011年

6 鄭小平;一種基于育種思想的全局優(yōu)化算法—原理、性能及應用[D];大連理工大學;2008年

7 王可心;大規(guī)模過程系統(tǒng)非線性優(yōu)化的簡約空間理論與算法研究[D];浙江大學;2008年

相關碩士學位論文 前10條

1 王宇陽;Spark緩存機制研究與實現[D];重慶郵電大學;2019年

2 韓盼盼;云計算中可驗證加密搜索方案和可驗證數據流方案研究[D];山東大學;2018年

3 張建文;線性判別分析的迭代解法及其應用[D];中國海洋大學;2014年

4 莫仲念;基于稀疏約束的電磁場逆成像算法研究[D];南昌大學;2016年

5 陳政;基于光在生物組織中傳輸FEM數值求解的性能評估和優(yōu)化[D];西北大學;2015年

6 劉洋;可信計算平臺下屬性證明協(xié)議的研究與應用[D];東北大學;2011年

7 王國才;樸素貝葉斯分類器的研究與應用[D];重慶交通大學;2010年

8 史家康;基于膚色分割預處理的人臉檢測方法研究[D];南京理工大學;2004年

9 李衛(wèi)晶;遠程用戶認證密鑰協(xié)商協(xié)議的研究[D];北京郵電大學;2015年

10 周趙斌;若干抗污染及竊聽的安全網絡編碼方案[D];福建師范大學;2014年



本文編號:2811438

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2811438.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶901ea***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com