面向分布式內(nèi)存計算的緩存數(shù)據(jù)管理系統(tǒng)
本文選題:內(nèi)存計算 切入點(diǎn):分布式處理 出處:《華中科技大學(xué)》2016年碩士論文 論文類型:學(xué)位論文
【摘要】:面對海量數(shù)據(jù),利用圖計算或機(jī)器學(xué)習(xí)等具有迭代特征的復(fù)雜應(yīng)用對其進(jìn)行處理很常見。通過在迭代之間共享緩存數(shù)據(jù),典型的分布式內(nèi)存計算系統(tǒng)如Spark極大地提升了迭代程序處理的速度,在業(yè)界使用廣泛。然而,在處理的數(shù)據(jù)量較大時緩存數(shù)據(jù)無法全部放入內(nèi)存,需要對緩存數(shù)據(jù)進(jìn)行管理。迭代后期再次使用被置換的數(shù)據(jù)時需要進(jìn)行重獲,此時引入的重獲開銷影響了性能。傳統(tǒng)的置換策略如LRU或FIFO沒有考慮到緩存數(shù)據(jù)重獲開銷之間存在差異,因而無法保證應(yīng)用運(yùn)行過程中整體的重獲開銷最小。實(shí)驗(yàn)發(fā)現(xiàn),在分布式內(nèi)存計算系統(tǒng)中,緩存數(shù)據(jù)的重獲開銷間存在著明顯的差異。因此提出并在Spark上實(shí)現(xiàn)了一種考慮了重獲開銷的緩存數(shù)據(jù)管理系統(tǒng),來保證數(shù)據(jù)置換帶來的影響最小。首先,依據(jù)分布式系統(tǒng)中應(yīng)用待執(zhí)行的邏輯是已知的、數(shù)據(jù)之間有聯(lián)系的特點(diǎn),對執(zhí)行邏輯進(jìn)行了分析得出了緩存數(shù)據(jù)之間的依賴關(guān)系;然后,定義了重獲開銷表征置換發(fā)生后重獲緩存數(shù)據(jù)所需的代價,定義了重用度表征緩存數(shù)據(jù)在程序后期再次使用到的次數(shù),在執(zhí)行程序時實(shí)時收集信息并計算這兩個指標(biāo);最后,設(shè)計了置換策略,計算出緩存數(shù)據(jù)經(jīng)重用度加權(quán)后的單位大小重獲開銷值,并維護(hù)出置換順序,保證了在置換發(fā)生后對應(yīng)用引入的額外開銷最小。在相同的實(shí)驗(yàn)環(huán)境下,將考慮了重獲開銷的緩存數(shù)據(jù)管理系統(tǒng)與Spark中默認(rèn)的管理系統(tǒng)進(jìn)行了對比。實(shí)驗(yàn)結(jié)果表明,考慮了重獲開銷的緩存數(shù)據(jù)管理系統(tǒng)在內(nèi)存空間不足時,因緩存數(shù)據(jù)置換帶來的額外開銷顯著減少,應(yīng)用的整體運(yùn)行時間可以減少30%至50%。
[Abstract]:In the face of massive data, it is very common to process complex applications with iterative characteristics, such as graph computing or machine learning, by sharing cached data between iterations. Typical distributed memory computing systems such as Spark greatly improve the speed of iterator processing and are widely used in the industry. However, cache data cannot be fully stored in memory when the amount of data processed is large. The cached data needs to be managed. When the replaced data is used again at the end of the iteration, The traditional replacement strategies such as LRU or FIFO do not take into account the difference between cache data recovery overhead, so it can not guarantee the minimum overall recovery cost in the running process of the application. In the distributed memory computing system, there are obvious differences between the cost of cache data recovery. Therefore, a cache data management system based on Spark is proposed and implemented. Firstly, according to the fact that the logic of application to be executed in distributed system is known and the data is related, the execution logic is analyzed and the dependency between cache data is obtained. Then, the cost of retrieving the cached data after the replacement is represented is defined, the number of times the cache data is reused in the later stage of the program is defined, the information is collected in real time while executing the program and the two indexes are calculated. Finally, the permutation strategy is designed to calculate the reclaimed cost value of the unit size of the cache data weighted by the degree of reuse, and to maintain the replacement order, which ensures the minimum extra cost to the application after the replacement occurs. In the same experimental environment, This paper compares the cache data management system with the default management system in Spark. The experimental results show that the cache data management system considering the reclaim overhead has insufficient memory space. The overall running time of the application can be reduced by 30% to 50% because of the significant reduction in the extra cost of cache data replacement.
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP333;TP315
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 孫晉禮,孫寶翱,周永運(yùn),漸秀彥,李濤;傳染性非典型肺炎數(shù)據(jù)管理系統(tǒng)的開發(fā)與應(yīng)用[J];疾病監(jiān)測;2003年12期
2 阮高華;倉庫基礎(chǔ)數(shù)據(jù)管理系統(tǒng)通過部級鑒定[J];計算機(jī)應(yīng)用研究;1990年01期
3 楊則正;數(shù)據(jù)管理系統(tǒng)展示[J];管理科學(xué)文摘;1996年09期
4 楊英;廣泛采用技術(shù)數(shù)據(jù)管理系統(tǒng)的困難[J];管理科學(xué)文摘;1997年11期
5 柴振榮;技術(shù)數(shù)據(jù)管理系統(tǒng)的采用問題[J];管理科學(xué)文摘;1998年11期
6 柳青,吳少敏;腫瘤發(fā)病登記數(shù)據(jù)管理系統(tǒng)的設(shè)計與應(yīng)用[J];計算技術(shù)與自動化;1998年04期
7 杜益虹;建筑數(shù)據(jù)管理系統(tǒng)的設(shè)計[J];無錫輕工大學(xué)學(xué)報;2001年04期
8 于勇,黃曉瑞,姜興渭;航天器推進(jìn)系統(tǒng)數(shù)據(jù)管理系統(tǒng)的研制開發(fā)[J];航空兵器;2001年04期
9 劉桂蘭;中原油田電力現(xiàn)狀信息數(shù)據(jù)管理系統(tǒng)[J];電氣時代;2002年09期
10 王振亞,師華,楊濤,孟紅文,郭太祥;計控網(wǎng)絡(luò)數(shù)據(jù)管理系統(tǒng)的開發(fā)和應(yīng)用[J];河南冶金;2003年04期
相關(guān)會議論文 前10條
1 張維忠;宋永紅;;港口交管船舶數(shù)據(jù)管理系統(tǒng)[A];船舶通信導(dǎo)航學(xué)術(shù)會議(1993)論文集[C];1993年
2 康強(qiáng)利;趙敏;孔朝輝;;石化公司腐蝕數(shù)據(jù)管理系統(tǒng)的建立及應(yīng)用[A];石油和化工設(shè)備管道防腐技術(shù)與對策專題研討會文集[C];2010年
3 邢延團(tuán);劉增平;張若輝;王可周;;煤礦地震數(shù)據(jù)管理系統(tǒng)的地質(zhì)保障作用[A];中國煤炭學(xué)會礦井地質(zhì)專業(yè)委員會、中國煤炭工業(yè)勞動保護(hù)科學(xué)技術(shù)學(xué)會水害防治專業(yè)委員會2005年學(xué)術(shù)交流會論文集[C];2005年
4 崔若飛;武旭仁;;煤礦地震數(shù)據(jù)管理系統(tǒng)的開發(fā)[A];山東煤炭學(xué)會2004年度優(yōu)秀學(xué)術(shù)論文集[C];2004年
5 巫志峰;曾星;;應(yīng)用科學(xué)數(shù)據(jù)管理系統(tǒng)(SDMS)進(jìn)行Ⅰ期臨床試驗(yàn)數(shù)據(jù)管理[A];2008第十一次全國臨床藥理學(xué)學(xué)術(shù)大會論文集[C];2008年
6 米東海;郭海林;;物理實(shí)驗(yàn)室性能檢驗(yàn)數(shù)據(jù)管理系統(tǒng)開發(fā)[A];2011年河北省煉鐵技術(shù)暨學(xué)術(shù)年會論文集[C];2011年
7 李璋;;淺談基于螺旋模型式的熱拌瀝青混合料質(zhì)量數(shù)據(jù)管理系統(tǒng)的測試與質(zhì)量保證[A];天津市電視技術(shù)研究會2013年年會論文集[C];2013年
8 張曉梅;閻小飛;;CMS北京網(wǎng)格站點(diǎn)數(shù)據(jù)管理系統(tǒng)的研究和實(shí)現(xiàn)[A];第十四屆全國核電子學(xué)與核探測技術(shù)學(xué)術(shù)年會論文集(下冊)[C];2008年
9 楊紹戰(zhàn);陳建勛;趙超志;左慶忠;;隧道監(jiān)控量測數(shù)據(jù)管理系統(tǒng)研究[A];自主創(chuàng)新與持續(xù)增長第十一屆中國科協(xié)年會論文集(3)[C];2009年
10 孫輝先;陳小敏;;Cluster衛(wèi)星的數(shù)據(jù)管理系統(tǒng)[A];中國空間科學(xué)學(xué)會空間探測專業(yè)委員會第十三次學(xué)術(shù)會議論文集[C];2000年
相關(guān)重要報紙文章 前10條
1 越途;廣東公路基礎(chǔ)數(shù)據(jù)管理系統(tǒng)顯現(xiàn)路況信息[N];中國測繪報;2004年
2 記者 張銀炎;上海航運(yùn)所數(shù)據(jù)管理系統(tǒng)批量裝船[N];中國船舶報;2008年
3 劉學(xué)軍 趙燕 許新賀;河北鋼鐵唐鋼啟動信息化主數(shù)據(jù)管理系統(tǒng)項目[N];中國冶金報;2011年
4 張雙 王云峰;黑河電業(yè)局建設(shè)營銷數(shù)據(jù)管理系統(tǒng)[N];中國電力報;2005年
5 王志田邋通訊員 陳艷新;大慶氣田開發(fā)數(shù)據(jù)管理系統(tǒng)進(jìn)入試運(yùn)行[N];中國石油報;2007年
6 記者 林強(qiáng);哈爾濱市物價局研發(fā)出“物價通”系統(tǒng)[N];中國經(jīng)濟(jì)導(dǎo)報;2009年
7 劉春;首鋼礦業(yè)公司成功開發(fā)實(shí)施無線遠(yuǎn)程抄表及數(shù)據(jù)管理系統(tǒng)[N];世界金屬導(dǎo)報;2006年
8 記者 江華;科學(xué)用藥將有據(jù)可循[N];農(nóng)資導(dǎo)報;2013年
9 王希建 馮雷;油庫計量數(shù)據(jù)管理系統(tǒng)[N];中國石化報;2003年
10 張萍 劉金花;天津石化運(yùn)銷部信息化管理一目了然[N];中國石化報;2006年
相關(guān)博士學(xué)位論文 前1條
1 邵明義;中藥新藥臨床試驗(yàn)數(shù)據(jù)管理系統(tǒng)的設(shè)計及應(yīng)用研究[D];成都中醫(yī)藥大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 李杰斌;基于分布式系統(tǒng)的XML元數(shù)據(jù)管理系統(tǒng)的UI設(shè)計與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2013年
2 張林;運(yùn)煤車全自動采樣及綜合數(shù)據(jù)管理系統(tǒng)的研究與實(shí)現(xiàn)[D];華北電力大學(xué);2015年
3 許明莉;高速精密數(shù)控機(jī)床軸承全生命周期數(shù)據(jù)管理系統(tǒng)研發(fā)[D];河南科技大學(xué);2015年
4 王浩軒;基于統(tǒng)一支撐平臺的電網(wǎng)安穩(wěn)數(shù)據(jù)管理系統(tǒng)的研究與開發(fā)[D];復(fù)旦大學(xué);2014年
5 顧天寶;海上試驗(yàn)場平臺數(shù)據(jù)管理系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];大連理工大學(xué);2015年
6 路奕;衛(wèi)生監(jiān)督數(shù)據(jù)管理系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];大連理工大學(xué);2015年
7 葉冠南;基于GPRS的智能充電樁數(shù)據(jù)管理系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];浙江工業(yè)大學(xué);2014年
8 鄭波;企業(yè)的市場發(fā)展基礎(chǔ)數(shù)據(jù)管理系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
9 劉婷婷;住宅小區(qū)智能監(jiān)控管理系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
10 夏菁;基于HDFS的微博數(shù)據(jù)管理系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
,本文編號:1646310
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1646310.html