基于眾包的數(shù)據(jù)倉(cāng)庫(kù)ETL系統(tǒng)研究
發(fā)布時(shí)間:2021-02-18 07:03
ETL是數(shù)據(jù)倉(cāng)庫(kù)獲取數(shù)據(jù)的入口,是決定數(shù)據(jù)倉(cāng)庫(kù)質(zhì)量的關(guān)鍵環(huán)節(jié)。針對(duì)目前構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)時(shí),會(huì)面對(duì)數(shù)據(jù)信息來(lái)源廣、數(shù)目大、有偏差,存在較多不確定和不完整數(shù)據(jù)等難題,傳統(tǒng)ETL系統(tǒng)已難以滿(mǎn)足企業(yè)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的需要。本文采用網(wǎng)絡(luò)眾包的理論和方法,將傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)ETL方法與網(wǎng)絡(luò)眾包方法相結(jié)合,研究構(gòu)建基于眾包的數(shù)據(jù)倉(cāng)庫(kù)ETL系統(tǒng)。論文研究的主要工作和成果如下:第一,分析闡述了傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)ETL系統(tǒng)目前存在的缺陷和不足。面對(duì)大數(shù)據(jù)環(huán)境下,數(shù)據(jù)來(lái)源廣、數(shù)量大、類(lèi)型多,存在較多不確定和不完整數(shù)據(jù)等現(xiàn)狀,傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)ETL系統(tǒng)缺乏有效處理手段,需借助人工知識(shí)和方法來(lái)輔助進(jìn)行數(shù)據(jù)處理。第二,設(shè)計(jì)給出一個(gè)基于眾包的數(shù)據(jù)倉(cāng)庫(kù)ETL系統(tǒng)的總體架構(gòu)。運(yùn)用眾包理論方法,結(jié)合傳統(tǒng)ETL系統(tǒng)體系結(jié)構(gòu),設(shè)計(jì)建立了一個(gè)基于眾包的,支持人工與機(jī)器相結(jié)合進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換、加載處理的數(shù)據(jù)倉(cāng)庫(kù)ETL系統(tǒng)體系結(jié)構(gòu)和軟件平臺(tái)。第三,設(shè)計(jì)給出了一種基于眾包的數(shù)據(jù)倉(cāng)庫(kù)ETL不確定性數(shù)據(jù)信息處理的語(yǔ)言和眾包評(píng)價(jià)控制算法。對(duì)標(biāo)準(zhǔn)SQL語(yǔ)句進(jìn)行了簡(jiǎn)單的擴(kuò)展,針對(duì)ETL過(guò)程眾包的需要,設(shè)計(jì)形成一種基于眾包的數(shù)據(jù)倉(cāng)庫(kù)ETL過(guò)程自適應(yīng)的系統(tǒng)處理擴(kuò)展語(yǔ)...
【文章來(lái)源】:西安石油大學(xué)陜西省
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
石油鉆井器具情況
且鉆井器具的消耗量是非常大的,因此石油鉆井企業(yè)的成本將會(huì)顯著增加[21]。按照以往傳統(tǒng)的油氣鉆井方式,根據(jù)過(guò)去的一些類(lèi)似經(jīng)驗(yàn)去進(jìn)行鉆井器具的采買(mǎi),這種傳統(tǒng)的方式會(huì)帶來(lái)鉆井器具的積壓與不合理等狀況,在當(dāng)前石油行業(yè)競(jìng)爭(zhēng)激烈的情況下一定程度上阻礙了企業(yè)前進(jìn)發(fā)展的步伐。亟需用科學(xué)的方法提高鉆井物料購(gòu)買(mǎi)和使用的效率,以減少企業(yè)生產(chǎn)成本,為企業(yè)經(jīng)濟(jì)發(fā)展注入新的活力,提高石油企業(yè)市場(chǎng)競(jìng)爭(zhēng)力。4.1.2 石油鉆井中的鉆具組合石油鉆井工程中的設(shè)計(jì)主要就是在鉆井前根據(jù)鉆井地區(qū)獲得的相關(guān)地質(zhì)數(shù)據(jù),進(jìn)行具體的的井的施工過(guò)程中一些重要的施工參數(shù)的設(shè)計(jì)[22]。在實(shí)際鉆井工作的開(kāi)展過(guò)程中,對(duì)于不同的井段和不同的地層,鉆頭,鉆具組合是不同的,需要進(jìn)行合理的設(shè)計(jì)提高鉆具器材的利用率,降低成本。每次開(kāi)鉆工作與鉆具組合具有直接的對(duì)應(yīng)關(guān)系。圖 4-2 是某油井在一次油井開(kāi)鉆工作中所需物料的部分結(jié)構(gòu)圖。
Roller_bit_num int(3),};在例子中,整個(gè)數(shù)據(jù)表 DBom 都是不確定的,因而可以直接將整個(gè)表加入“Crowd”屬性,將整個(gè)表的處理都發(fā)布至眾包處理平臺(tái)進(jìn)行解決。數(shù)據(jù)轉(zhuǎn)換過(guò)程涉及到格式修正,字段解碼,單個(gè)字段分離,特征集合轉(zhuǎn)化,度量集合轉(zhuǎn)化,關(guān)鍵字重新構(gòu)造等問(wèn)題,我們采用網(wǎng)絡(luò)眾包的方法對(duì)數(shù)據(jù)進(jìn)行了完善填充,再依據(jù)工程師設(shè)定的轉(zhuǎn)換規(guī)則將數(shù)據(jù)準(zhǔn)備區(qū)中的數(shù)據(jù)進(jìn)行新一輪的轉(zhuǎn)換。將轉(zhuǎn)換后的數(shù)據(jù)繼續(xù)整合在數(shù)據(jù)準(zhǔn)備區(qū)中。4.4 系統(tǒng)界面設(shè)計(jì)(1)系統(tǒng)首頁(yè)。系統(tǒng)設(shè)計(jì)本身本著界面簡(jiǎn)單易理解的原則進(jìn)行設(shè)計(jì),系統(tǒng)首頁(yè)從整體上看分為任務(wù)欄和任務(wù)執(zhí)行狀態(tài)展示部分,任務(wù)欄包括了對(duì)于數(shù)據(jù)源,數(shù)據(jù)任務(wù)的管理,而任務(wù)執(zhí)行狀態(tài)欄則顯示了眾包用戶(hù)執(zhí)行任務(wù)的數(shù)量,未完成的任務(wù)數(shù)量以及用戶(hù)的信用分?jǐn)?shù)等信息。如圖 4-10 所示。
【參考文獻(xiàn)】:
期刊論文
[1]大數(shù)據(jù)環(huán)境下基于元模型控制的數(shù)據(jù)質(zhì)量保障技術(shù)研究[J]. 楊冬菊,徐晨陽(yáng). 計(jì)算機(jī)工程與科學(xué). 2019(02)
[2]基于眾包的數(shù)據(jù)優(yōu)化——以數(shù)字方志特藏資源建設(shè)為例[J]. 李欣,于亞秀,程靜. 圖書(shū)館論壇. 2019(02)
[3]基于ETL工具的系泊監(jiān)測(cè)數(shù)據(jù)回傳方式[J]. 張鵬. 資源節(jié)約與環(huán)保. 2019(01)
[4]鉆井遠(yuǎn)程信息平臺(tái)應(yīng)用研究[J]. 閆冰. 中國(guó)石油和化工標(biāo)準(zhǔn)與質(zhì)量. 2019(02)
[5]基于可變時(shí)間窗口的增量數(shù)據(jù)抽取模型[J]. 劉杰,王桂玲,左小將. 計(jì)算機(jī)科學(xué). 2018(11)
[6]分布式網(wǎng)絡(luò)日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 李亞紅,胡前忠. 信息與電腦(理論版). 2018(21)
[7]基于眾包的鉆井物料數(shù)據(jù)倉(cāng)庫(kù)ETL系統(tǒng)研究[J]. 周潔. 智能計(jì)算機(jī)與應(yīng)用. 2018(04)
[8]ETL任務(wù)集群調(diào)度方法[J]. 李磊. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(11)
[9]基于眾包的石油鉆井物料清單系統(tǒng)的研究[J]. 周潔,方明. 智能計(jì)算機(jī)與應(yīng)用. 2018(02)
[10]大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J]. 張引,陳敏,廖小飛. 計(jì)算機(jī)研究與發(fā)展. 2013(S2)
碩士論文
[1]基于Hadoop的鉆井物料清單系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 向世靜.西安石油大學(xué) 2017
[2]基于眾包的信息查詢(xún)處理方法研究與應(yīng)用[D]. 王凡.西安石油大學(xué) 2017
[3]保險(xiǎn)業(yè)經(jīng)營(yíng)管理系統(tǒng)中ETL的設(shè)計(jì)與應(yīng)用[D]. 田蕊.中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院工程管理與信息技術(shù)學(xué)院) 2017
[4]基于多租戶(hù)的石油鉆井ERP系統(tǒng)的研究[D]. 宮佩.西安石油大學(xué) 2016
[5]基于大數(shù)據(jù)的鉆井物料信息多維分析研究[D]. 李欣.西安石油大學(xué) 2016
[6]數(shù)據(jù)倉(cāng)庫(kù)中ETL建模問(wèn)題的研究[D]. 趙瑞珍.燕山大學(xué) 2009
本文編號(hào):3039213
【文章來(lái)源】:西安石油大學(xué)陜西省
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
石油鉆井器具情況
且鉆井器具的消耗量是非常大的,因此石油鉆井企業(yè)的成本將會(huì)顯著增加[21]。按照以往傳統(tǒng)的油氣鉆井方式,根據(jù)過(guò)去的一些類(lèi)似經(jīng)驗(yàn)去進(jìn)行鉆井器具的采買(mǎi),這種傳統(tǒng)的方式會(huì)帶來(lái)鉆井器具的積壓與不合理等狀況,在當(dāng)前石油行業(yè)競(jìng)爭(zhēng)激烈的情況下一定程度上阻礙了企業(yè)前進(jìn)發(fā)展的步伐。亟需用科學(xué)的方法提高鉆井物料購(gòu)買(mǎi)和使用的效率,以減少企業(yè)生產(chǎn)成本,為企業(yè)經(jīng)濟(jì)發(fā)展注入新的活力,提高石油企業(yè)市場(chǎng)競(jìng)爭(zhēng)力。4.1.2 石油鉆井中的鉆具組合石油鉆井工程中的設(shè)計(jì)主要就是在鉆井前根據(jù)鉆井地區(qū)獲得的相關(guān)地質(zhì)數(shù)據(jù),進(jìn)行具體的的井的施工過(guò)程中一些重要的施工參數(shù)的設(shè)計(jì)[22]。在實(shí)際鉆井工作的開(kāi)展過(guò)程中,對(duì)于不同的井段和不同的地層,鉆頭,鉆具組合是不同的,需要進(jìn)行合理的設(shè)計(jì)提高鉆具器材的利用率,降低成本。每次開(kāi)鉆工作與鉆具組合具有直接的對(duì)應(yīng)關(guān)系。圖 4-2 是某油井在一次油井開(kāi)鉆工作中所需物料的部分結(jié)構(gòu)圖。
Roller_bit_num int(3),};在例子中,整個(gè)數(shù)據(jù)表 DBom 都是不確定的,因而可以直接將整個(gè)表加入“Crowd”屬性,將整個(gè)表的處理都發(fā)布至眾包處理平臺(tái)進(jìn)行解決。數(shù)據(jù)轉(zhuǎn)換過(guò)程涉及到格式修正,字段解碼,單個(gè)字段分離,特征集合轉(zhuǎn)化,度量集合轉(zhuǎn)化,關(guān)鍵字重新構(gòu)造等問(wèn)題,我們采用網(wǎng)絡(luò)眾包的方法對(duì)數(shù)據(jù)進(jìn)行了完善填充,再依據(jù)工程師設(shè)定的轉(zhuǎn)換規(guī)則將數(shù)據(jù)準(zhǔn)備區(qū)中的數(shù)據(jù)進(jìn)行新一輪的轉(zhuǎn)換。將轉(zhuǎn)換后的數(shù)據(jù)繼續(xù)整合在數(shù)據(jù)準(zhǔn)備區(qū)中。4.4 系統(tǒng)界面設(shè)計(jì)(1)系統(tǒng)首頁(yè)。系統(tǒng)設(shè)計(jì)本身本著界面簡(jiǎn)單易理解的原則進(jìn)行設(shè)計(jì),系統(tǒng)首頁(yè)從整體上看分為任務(wù)欄和任務(wù)執(zhí)行狀態(tài)展示部分,任務(wù)欄包括了對(duì)于數(shù)據(jù)源,數(shù)據(jù)任務(wù)的管理,而任務(wù)執(zhí)行狀態(tài)欄則顯示了眾包用戶(hù)執(zhí)行任務(wù)的數(shù)量,未完成的任務(wù)數(shù)量以及用戶(hù)的信用分?jǐn)?shù)等信息。如圖 4-10 所示。
【參考文獻(xiàn)】:
期刊論文
[1]大數(shù)據(jù)環(huán)境下基于元模型控制的數(shù)據(jù)質(zhì)量保障技術(shù)研究[J]. 楊冬菊,徐晨陽(yáng). 計(jì)算機(jī)工程與科學(xué). 2019(02)
[2]基于眾包的數(shù)據(jù)優(yōu)化——以數(shù)字方志特藏資源建設(shè)為例[J]. 李欣,于亞秀,程靜. 圖書(shū)館論壇. 2019(02)
[3]基于ETL工具的系泊監(jiān)測(cè)數(shù)據(jù)回傳方式[J]. 張鵬. 資源節(jié)約與環(huán)保. 2019(01)
[4]鉆井遠(yuǎn)程信息平臺(tái)應(yīng)用研究[J]. 閆冰. 中國(guó)石油和化工標(biāo)準(zhǔn)與質(zhì)量. 2019(02)
[5]基于可變時(shí)間窗口的增量數(shù)據(jù)抽取模型[J]. 劉杰,王桂玲,左小將. 計(jì)算機(jī)科學(xué). 2018(11)
[6]分布式網(wǎng)絡(luò)日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 李亞紅,胡前忠. 信息與電腦(理論版). 2018(21)
[7]基于眾包的鉆井物料數(shù)據(jù)倉(cāng)庫(kù)ETL系統(tǒng)研究[J]. 周潔. 智能計(jì)算機(jī)與應(yīng)用. 2018(04)
[8]ETL任務(wù)集群調(diào)度方法[J]. 李磊. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(11)
[9]基于眾包的石油鉆井物料清單系統(tǒng)的研究[J]. 周潔,方明. 智能計(jì)算機(jī)與應(yīng)用. 2018(02)
[10]大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J]. 張引,陳敏,廖小飛. 計(jì)算機(jī)研究與發(fā)展. 2013(S2)
碩士論文
[1]基于Hadoop的鉆井物料清單系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 向世靜.西安石油大學(xué) 2017
[2]基于眾包的信息查詢(xún)處理方法研究與應(yīng)用[D]. 王凡.西安石油大學(xué) 2017
[3]保險(xiǎn)業(yè)經(jīng)營(yíng)管理系統(tǒng)中ETL的設(shè)計(jì)與應(yīng)用[D]. 田蕊.中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院工程管理與信息技術(shù)學(xué)院) 2017
[4]基于多租戶(hù)的石油鉆井ERP系統(tǒng)的研究[D]. 宮佩.西安石油大學(xué) 2016
[5]基于大數(shù)據(jù)的鉆井物料信息多維分析研究[D]. 李欣.西安石油大學(xué) 2016
[6]數(shù)據(jù)倉(cāng)庫(kù)中ETL建模問(wèn)題的研究[D]. 趙瑞珍.燕山大學(xué) 2009
本文編號(hào):3039213
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3039213.html
最近更新
教材專(zhuān)著