面向批量處理的大數(shù)據(jù)中心檢索關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:面向批量處理的大數(shù)據(jù)中心檢索關(guān)鍵技術(shù)研究
更多相關(guān)文章: 大數(shù)據(jù) 數(shù)據(jù)中心 檢索 信息過(guò)濾 負(fù)載均衡 關(guān)聯(lián)分析 Hadoop
【摘要】:隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)開始成為計(jì)算的中心。大數(shù)據(jù)中心能對(duì)超大規(guī)模的異構(gòu)數(shù)據(jù)集進(jìn)行存儲(chǔ)和處理,并發(fā)地向大量用戶提供全天候服務(wù),是大數(shù)據(jù)充分發(fā)揮價(jià)值的關(guān)鍵。批量處理是大數(shù)據(jù)中心上的重要計(jì)算形態(tài),涉及對(duì)超大規(guī)模數(shù)據(jù)集的精確、深入分析。這就要求首先對(duì)數(shù)據(jù)進(jìn)行高速、高效、高精度的檢索。檢索是批量處理的基礎(chǔ)環(huán)節(jié),制約著大數(shù)據(jù)的使用價(jià)值。大數(shù)據(jù)中心復(fù)雜的數(shù)據(jù)結(jié)構(gòu)、巨大且不斷擴(kuò)張的集群規(guī)模和為大量用戶提供全天候服務(wù)的需求為檢索技術(shù)提出了巨大挑戰(zhàn),因此大數(shù)據(jù)中心的檢索關(guān)鍵技術(shù)研究已成為人們關(guān)注的重點(diǎn)。為減輕大量檢索請(qǐng)求對(duì)索引系統(tǒng)造成的負(fù)擔(dān),均衡大數(shù)據(jù)中心節(jié)點(diǎn)間的負(fù)載,增強(qiáng)檢索系統(tǒng)和大數(shù)據(jù)平臺(tái)的可擴(kuò)展性和可靠性,本文主要進(jìn)行了如下研究:1.為減輕大量檢索請(qǐng)求對(duì)索引系統(tǒng)造成的負(fù)擔(dān),提高高并發(fā)環(huán)境下的數(shù)據(jù)查詢性能,提出了一種面向批量處理的大數(shù)據(jù)混合檢索模型(Mix Retrieval Model, MRM),該模型主要由多維查詢過(guò)濾模型(Big Data Information Multi-rule Filtering Model, BDIMFM)和層次索引機(jī)制組成。BDIMFM降低了檢索請(qǐng)求對(duì)無(wú)關(guān)索引結(jié)構(gòu)造成的負(fù)擔(dān),層次索引機(jī)制實(shí)現(xiàn)了對(duì)檢索請(qǐng)求的精確定位,從而在保證精度的前提下,降低檢索任務(wù)對(duì)性能的消耗,提高了高并發(fā)環(huán)境下的檢索性能。實(shí)驗(yàn)證明,在大數(shù)據(jù)中心批量處理環(huán)境下,該模型可以有效提高檢索效率,降低大數(shù)據(jù)存儲(chǔ)和處理平臺(tái)負(fù)擔(dān)。2.為提高負(fù)載均衡效果,減輕負(fù)載遷移對(duì)大數(shù)據(jù)中心造成的負(fù)擔(dān),針對(duì)大數(shù)據(jù)中心上數(shù)據(jù)文件間普遍存在關(guān)聯(lián)的特征,提出了一種基于關(guān)聯(lián)分析的大數(shù)據(jù)中心負(fù)載均衡算法(Relationship Based multi-Indicator Load Capacity algorithm, RBmILC)。算法主要由負(fù)載監(jiān)測(cè)、負(fù)載預(yù)測(cè)和負(fù)載遷移模塊構(gòu)成。實(shí)現(xiàn)了對(duì)數(shù)據(jù)文件和數(shù)據(jù)節(jié)點(diǎn)間關(guān)聯(lián)關(guān)系的分析和量化,并在此基礎(chǔ)上實(shí)現(xiàn)對(duì)大數(shù)據(jù)中心負(fù)載的預(yù)測(cè)和有效的負(fù)載遷移,避免了負(fù)載重復(fù)遷移對(duì)資源的消耗,提高負(fù)載遷移效率,改善負(fù)載均衡效果,提高數(shù)據(jù)提取性能。實(shí)驗(yàn)結(jié)果表明,本算法能夠獲得更好的負(fù)載均衡效果。3.為提高大數(shù)據(jù)中心索引系統(tǒng)的可擴(kuò)展性和可靠性,支持大數(shù)據(jù)中心的規(guī)模不斷增長(zhǎng)和多用戶全天候服務(wù),設(shè)計(jì)了一種多層次Hadoop系統(tǒng)。設(shè)計(jì)了SeMNode作為連接Master和Slave層的樞紐,負(fù)責(zé)Region層的元數(shù)據(jù)管理和任務(wù)分發(fā)。實(shí)現(xiàn)Master節(jié)點(diǎn)的功能垂直劃分和部分轉(zhuǎn)移,減輕了Master節(jié)點(diǎn)負(fù)擔(dān),縮短了故障恢復(fù)時(shí)間。通過(guò)對(duì)Hadoop中的相關(guān)函數(shù)進(jìn)行修改和重寫,并對(duì)可擴(kuò)展性及可靠性進(jìn)行實(shí)驗(yàn),證明該系統(tǒng)可有效改善Master節(jié)點(diǎn)的負(fù)載情況和故障恢復(fù)耗時(shí),提高Hadoop的可擴(kuò)展性和可靠性。
【關(guān)鍵詞】:大數(shù)據(jù) 數(shù)據(jù)中心 檢索 信息過(guò)濾 負(fù)載均衡 關(guān)聯(lián)分析 Hadoop
【學(xué)位授予單位】:解放軍信息工程大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.13
【目錄】:
- 摘要4-5
- Abstract5-10
- 第一章 緒論10-20
- 1.1 研究背景及意義10-12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-18
- 1.2.1 大數(shù)據(jù)中心檢索問(wèn)題12-15
- 1.2.2 大數(shù)據(jù)中心計(jì)算平臺(tái)15-18
- 1.3 本文的主要工作18
- 1.4 本文的組織結(jié)構(gòu)18-20
- 第二章 相關(guān)知識(shí)20-32
- 2.1 大數(shù)據(jù)概述20-23
- 2.1.1 大數(shù)據(jù)的定義及特征20-21
- 2.1.2 大數(shù)據(jù)關(guān)鍵技術(shù)21-23
- 2.2 大數(shù)據(jù)中心概述23-25
- 2.2.1 大數(shù)據(jù)中心的定義及特征23-24
- 2.2.2 大數(shù)據(jù)中心上計(jì)算的特征24-25
- 2.3 數(shù)據(jù)檢索關(guān)鍵技術(shù)25-28
- 2.3.1 數(shù)據(jù)查詢技術(shù)26-28
- 2.3.2 數(shù)據(jù)布局技術(shù)28
- 2.4 Hadoop28-31
- 2.4.1 Hadoop系統(tǒng)架構(gòu)28-29
- 2.4.2 Hadoop主要組件29-31
- 2.4.3 Hadoop的調(diào)度方法31
- 2.5 本章小結(jié)31-32
- 第三章 面向批量處理的大數(shù)據(jù)混合索引模型32-50
- 3.1 一種多規(guī)則信息過(guò)濾模型BDIMFM32-36
- 3.1.1 基本思想32-33
- 3.1.2 多維查詢過(guò)濾機(jī)制33-36
- 3.2 BDIMFM的部署策略36-39
- 3.3 大數(shù)據(jù)混合索引模型MRM39-42
- 3.3.1 MRM的體系結(jié)構(gòu)39-40
- 3.3.2 MRM的創(chuàng)建40-42
- 3.4 查詢流程42-43
- 3.5 實(shí)驗(yàn)與性能分析43-49
- 3.5.1 實(shí)驗(yàn)環(huán)境43-45
- 3.5.2 實(shí)驗(yàn)方法與性能分析45-49
- 3.6 本章小結(jié)49-50
- 第四章 基于關(guān)聯(lián)分析的大數(shù)據(jù)中心負(fù)載均衡算法50-66
- 4.1 Hadoop的負(fù)載均衡策略50-52
- 4.2 基于關(guān)聯(lián)分析的Hadoop負(fù)載均衡算法52-61
- 4.2.1 問(wèn)題建模53-55
- 4.2.2 RBmILC算法基本思想55
- 4.2.3 負(fù)載監(jiān)測(cè)模塊55-57
- 4.2.4 負(fù)載預(yù)測(cè)模塊57-60
- 4.2.5 負(fù)載遷移模塊60-61
- 4.3 實(shí)驗(yàn)與性能分析61-64
- 4.3.1 實(shí)驗(yàn)環(huán)境61-62
- 4.3.2 實(shí)驗(yàn)方法與性能分析62-64
- 4.4 本章小結(jié)64-66
- 第五章 一種多層次Hadoop系統(tǒng)設(shè)計(jì)66-82
- 5.1 Hadoop可擴(kuò)展性及可靠性分析66-68
- 5.1.1 數(shù)據(jù)管理66
- 5.1.2 任務(wù)管理66-68
- 5.2 多層次Hadoop68-75
- 5.2.1 體系結(jié)構(gòu)68-69
- 5.2.2 通信機(jī)制69-73
- 5.2.3 備份機(jī)制73-74
- 5.2.4 選舉機(jī)制74-75
- 5.3 關(guān)鍵組件設(shè)計(jì)75-77
- 5.3.1 Master層75-76
- 5.3.2 Region層76-77
- 5.3.3 Slave層77
- 5.4 實(shí)驗(yàn)與性能分析77-81
- 5.4.1 實(shí)驗(yàn)環(huán)境77-78
- 5.4.2 實(shí)驗(yàn)方法與性能分析78-81
- 5.5 本章小結(jié)81-82
- 第六章 總結(jié)與展望82-84
- 6.1 本文工作總結(jié)82-83
- 6.2 下一步工作83-84
- 致謝84-85
- 參考文獻(xiàn)85-89
- 作者簡(jiǎn)歷89
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前8條
1 陳曦;陳華鈞;顧s頬Z;張寧豫;陳嬌彥;于彤;;一種基于Hadoop的語(yǔ)義大數(shù)據(jù)分布式推理框架[J];計(jì)算機(jī)研究與發(fā)展;2013年S2期
2 林偉偉;劉波;;基于動(dòng)態(tài)帶寬分配的Hadoop數(shù)據(jù)負(fù)載均衡方法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年09期
3 亓開元;趙卓峰;房俊;馬強(qiáng);;針對(duì)高速數(shù)據(jù)流的大規(guī)模數(shù)據(jù)實(shí)時(shí)處理方法[J];計(jì)算機(jī)學(xué)報(bào);2012年03期
4 李文中;郭勝;許平;陸桑璐;陳道蓄;;服務(wù)組合中一種自適應(yīng)的負(fù)載均衡算法[J];軟件學(xué)報(bào);2006年05期
5 劉仲,周興銘;基于動(dòng)態(tài)區(qū)間映射的數(shù)據(jù)對(duì)象布局算法[J];軟件學(xué)報(bào);2005年11期
6 潘泉,葉西寧,張洪才;廣義概率數(shù)據(jù)關(guān)聯(lián)算法[J];電子學(xué)報(bào);2005年03期
7 李德仁,王樹良,李德毅,王新洲;論空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的理論與方法[J];武漢大學(xué)學(xué)報(bào)(信息科學(xué)版);2002年03期
8 李德毅;知識(shí)表示中的不確定性[J];中國(guó)工程科學(xué);2000年10期
,本文編號(hào):857293
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/857293.html