【摘要】:隨著信息化水平的逐漸提高,數(shù)據(jù)的重要性得到了各個(gè)行業(yè)特別是互聯(lián)網(wǎng)公司的重視。對(duì)數(shù)據(jù)的提取、分析、挖掘?yàn)榛ヂ?lián)網(wǎng)企業(yè)決策提供了重要依據(jù),同時(shí)使企業(yè)對(duì)市場的細(xì)分更為精確,能夠更準(zhǔn)確的為客戶定制服務(wù),使企業(yè)與客戶的利益最大化!皬V告投放”已經(jīng)成為互聯(lián)網(wǎng)行業(yè)重要的吸金與服務(wù)方式之一,互聯(lián)網(wǎng)對(duì)廣告數(shù)據(jù)的重視程度也達(dá)到了空前的高度。目前,由于互聯(lián)網(wǎng)用戶激增,大型搜索網(wǎng)站每日產(chǎn)生的廣告數(shù)據(jù)可以達(dá)到100G級(jí)甚至T級(jí),在如此海量的數(shù)據(jù)面前要對(duì)新舊數(shù)據(jù)的及時(shí)查詢與分析,傳統(tǒng)的數(shù)據(jù)庫或數(shù)據(jù)倉庫無法滿足。在此背景下,公司決定開發(fā)分布式數(shù)據(jù)倉庫系統(tǒng)來對(duì)當(dāng)前的迫切需求進(jìn)行支持。 該分布式數(shù)據(jù)倉庫系統(tǒng)使用C++語言開發(fā),利用分布式系統(tǒng)進(jìn)行海量數(shù)據(jù)的存儲(chǔ),設(shè)計(jì)數(shù)據(jù)分布式存儲(chǔ)結(jié)構(gòu),利用自動(dòng)分區(qū)和物化視圖等方法提高查詢效率。根據(jù)不同的功能需求,系統(tǒng)劃分為調(diào)度模塊、元數(shù)據(jù)管理模塊、數(shù)據(jù)導(dǎo)入模塊、查詢模塊和數(shù)據(jù)存儲(chǔ)模塊。調(diào)度模塊實(shí)現(xiàn)對(duì)各個(gè)模塊的調(diào)度及監(jiān)控功能;數(shù)據(jù)導(dǎo)入模塊支持對(duì)大數(shù)據(jù)的批量導(dǎo)入及數(shù)據(jù)恢復(fù),同時(shí)生成對(duì)應(yīng)的物化視圖以提高查詢效率。元數(shù)據(jù)管理模塊通過對(duì)Hadoop子項(xiàng)目Zookeeper系統(tǒng)的封裝,完成對(duì)系統(tǒng)數(shù)據(jù)的安全存儲(chǔ)并支持實(shí)時(shí)查詢。查詢模塊為多種查詢方式提供接口、生成查詢計(jì)劃、執(zhí)行查詢過程、返回查詢結(jié)果。數(shù)據(jù)存儲(chǔ)模塊主要負(fù)責(zé)對(duì)海量數(shù)據(jù)進(jìn)行分布式存儲(chǔ)。本人主要負(fù)責(zé)查詢模塊的設(shè)計(jì)與開發(fā):設(shè)計(jì)查詢模塊的層次架構(gòu)制定查詢副本選擇策略、設(shè)計(jì)與實(shí)現(xiàn)查詢計(jì)劃的生成方式、實(shí)現(xiàn)各種查詢方式的接口、設(shè)計(jì)實(shí)現(xiàn)查詢模塊的異常處理機(jī)制等。通過完成對(duì)查詢模塊的設(shè)計(jì)與開發(fā),使該分布式數(shù)據(jù)倉庫系統(tǒng)能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)高效、安全、穩(wěn)定的查詢。 目前,該項(xiàng)目已經(jīng)正式發(fā)布系統(tǒng)3.0版,每天有T數(shù)量級(jí)的新增數(shù)據(jù),查詢耗時(shí)在毫秒級(jí),為公司各大商業(yè)項(xiàng)目提供在線報(bào)表服務(wù),使公司能夠及時(shí)掌握用戶數(shù)據(jù)動(dòng)態(tài),為高層提供分析、策劃的依據(jù)。
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP311.13;TP311.52
【參考文獻(xiàn)】
相關(guān)期刊論文 前6條
1 劉衛(wèi)東;論我國互聯(lián)網(wǎng)的發(fā)展及其潛在空間影響[J];地理研究;2002年03期
2 王文武;趙衛(wèi)東;王志成;陳悅;韓下林;;高性能服務(wù)器底層網(wǎng)絡(luò)通信模塊的設(shè)計(jì)方法[J];計(jì)算機(jī)工程;2009年03期
3 楊光,張雷,艾波;數(shù)據(jù)倉庫及聯(lián)機(jī)分析處理技術(shù)[J];計(jì)算機(jī)工程與科學(xué);2000年01期
4 王春花,黃厚寬;分布式數(shù)據(jù)倉庫技術(shù)[J];計(jì)算機(jī)應(yīng)用;1999年S1期
5 張素萍;淺論基于數(shù)據(jù)倉庫的決策支持系統(tǒng)[J];計(jì)算機(jī)應(yīng)用研究;1999年05期
6 錢迎進(jìn);肖儂;金士堯;;大規(guī)模集群中一種自適應(yīng)可擴(kuò)展的RPC超時(shí)機(jī)制[J];軟件學(xué)報(bào);2010年12期
相關(guān)碩士學(xué)位論文 前4條
1 張琳;郵政客戶關(guān)系管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
2 陳麗君;基于應(yīng)用協(xié)議解析的分布式網(wǎng)絡(luò)入侵檢測系統(tǒng)研究[D];北京服裝學(xué)院;2012年
3 朱珠;基于Hadoop的海量數(shù)據(jù)處理模型研究和應(yīng)用[D];北京郵電大學(xué);2008年
4 劉志明;基于工作流技術(shù)的項(xiàng)目管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2009年
,
本文編號(hào):
2539562
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/2539562.html