天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

一種大數(shù)據(jù)交互式挖掘框架與實(shí)現(xiàn)

發(fā)布時間:2019-10-02 01:20
【摘要】:在傳統(tǒng)的數(shù)據(jù)挖掘過程中,用戶需根據(jù)專業(yè)知識對數(shù)據(jù)進(jìn)行預(yù)處理,為模型設(shè)定參數(shù)后構(gòu)建模型,通過評估指標(biāo)判斷模型是否可行。該過程的不便性體現(xiàn)在模型以黑盒的方式構(gòu)建,用戶不可見其中間過程,模型產(chǎn)生的結(jié)果也不易被理解。在海量數(shù)據(jù)的環(huán)境下,傳統(tǒng)數(shù)據(jù)挖掘過程在預(yù)處理時異常數(shù)據(jù)的定位和模型生成后知識的表達(dá)方面都有不便。為了解決傳統(tǒng)數(shù)據(jù)挖掘過程存在的問題,本文提出了一種大數(shù)據(jù)環(huán)境下的交互式數(shù)據(jù)挖掘框架。該框架使交互貫穿整個數(shù)據(jù)挖掘的過程,使得用戶可以輕松定位異常輸入源數(shù)據(jù),參與模型訓(xùn)練過程,對模型生成的結(jié)果溯源。本文還基于Spark對該框架進(jìn)行了實(shí)現(xiàn),并在食源性疾病爆發(fā)預(yù)測場景下驗(yàn)證了其可行性。
【圖文】:

曲線,輸入數(shù)據(jù),示例


67王銳君等:一種大數(shù)據(jù)交互式挖掘框架與實(shí)現(xiàn)圖7輸入數(shù)據(jù)示例Fig.7InputDataExamples圖8數(shù)據(jù)處理階段Fig.8PreprocessingStageImplement圖9模型訓(xùn)練階段Fig.9ModelTrainingStageImplement圖10結(jié)果展示階段Fig.10ResultGenerationStageImplement解。觀察指標(biāo)的曲線橫軸為迭代次數(shù),縱軸為觀察指標(biāo)的值,曲線的繪制是動態(tài)的,每次迭代完成生成一個點(diǎn)。此外,還提供以表格的形式來查看中間結(jié)果。結(jié)果展示階段系統(tǒng)實(shí)現(xiàn)如圖10。由于數(shù)據(jù)以分布式方式進(jìn)行存儲,數(shù)據(jù)量可能很大,因此可設(shè)定顯示數(shù)據(jù)的抽樣比例也可設(shè)置過濾條件,只顯示符合條件的數(shù)據(jù)。交互面板中同樣可以設(shè)置需要溯源的數(shù)據(jù)過濾條件,如未設(shè)置,則對所有顯示數(shù)據(jù)進(jìn)行溯源并顯示在表格中。通過以上的過程,用戶可以便捷地處理異常數(shù)據(jù),提高數(shù)據(jù)處理的效率。通過觀察聚類的中間結(jié)果和動態(tài)指標(biāo)的變化情況,了解參數(shù)產(chǎn)生的效果,提高參數(shù)調(diào)整的效率。追溯聚類的結(jié)果數(shù)據(jù)至原始輸入數(shù)據(jù),將用于模型訓(xùn)練不易于觀察的擴(kuò)展后多維數(shù)據(jù)轉(zhuǎn)變成用戶熟悉的輸入結(jié)構(gòu),有利于用戶理解數(shù)據(jù)。5總結(jié)與展望相比于傳統(tǒng)的數(shù)據(jù)挖掘框架,本文提出的大數(shù)據(jù)交互式挖掘框架為分布式環(huán)境下的大數(shù)據(jù)挖掘提供了便捷的交互方式,解決了數(shù)據(jù)異常定位困難、模型訓(xùn)練過程黑盒化、模型調(diào)參效率低等問題。在食源性疾病爆發(fā)預(yù)測的場景下應(yīng)用該框架構(gòu)建系統(tǒng)進(jìn)行驗(yàn)證,可見用戶能夠輕松直觀地進(jìn)行特征構(gòu)建,了解模型訓(xùn)練的過程,通過對結(jié)果數(shù)據(jù)的追溯充分地理解數(shù)據(jù)和

曲線,數(shù)據(jù)處理,階段


67王銳君等:一種大數(shù)據(jù)交互式挖掘框架與實(shí)現(xiàn)圖7輸入數(shù)據(jù)示例Fig.7InputDataExamples圖8數(shù)據(jù)處理階段Fig.8PreprocessingStageImplement圖9模型訓(xùn)練階段Fig.9ModelTrainingStageImplement圖10結(jié)果展示階段Fig.10ResultGenerationStageImplement解。觀察指標(biāo)的曲線橫軸為迭代次數(shù),縱軸為觀察指標(biāo)的值,曲線的繪制是動態(tài)的,每次迭代完成生成一個點(diǎn)。此外,還提供以表格的形式來查看中間結(jié)果。結(jié)果展示階段系統(tǒng)實(shí)現(xiàn)如圖10。由于數(shù)據(jù)以分布式方式進(jìn)行存儲,數(shù)據(jù)量可能很大,,因此可設(shè)定顯示數(shù)據(jù)的抽樣比例也可設(shè)置過濾條件,只顯示符合條件的數(shù)據(jù)。交互面板中同樣可以設(shè)置需要溯源的數(shù)據(jù)過濾條件,如未設(shè)置,則對所有顯示數(shù)據(jù)進(jìn)行溯源并顯示在表格中。通過以上的過程,用戶可以便捷地處理異常數(shù)據(jù),提高數(shù)據(jù)處理的效率。通過觀察聚類的中間結(jié)果和動態(tài)指標(biāo)的變化情況,了解參數(shù)產(chǎn)生的效果,提高參數(shù)調(diào)整的效率。追溯聚類的結(jié)果數(shù)據(jù)至原始輸入數(shù)據(jù),將用于模型訓(xùn)練不易于觀察的擴(kuò)展后多維數(shù)據(jù)轉(zhuǎn)變成用戶熟悉的輸入結(jié)構(gòu),有利于用戶理解數(shù)據(jù)。5總結(jié)與展望相比于傳統(tǒng)的數(shù)據(jù)挖掘框架,本文提出的大數(shù)據(jù)交互式挖掘框架為分布式環(huán)境下的大數(shù)據(jù)挖掘提供了便捷的交互方式,解決了數(shù)據(jù)異常定位困難、模型訓(xùn)練過程黑盒化、模型調(diào)參效率低等問題。在食源性疾病爆發(fā)預(yù)測的場景下應(yīng)用該框架構(gòu)建系統(tǒng)進(jìn)行驗(yàn)證,可見用戶能夠輕松直觀地進(jìn)行特征構(gòu)建,了解模型訓(xùn)練的過程,通過對結(jié)果數(shù)據(jù)的追溯充分地理解數(shù)據(jù)和
【作者單位】: 中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心;中國科學(xué)院大學(xué);
【基金】:國家自然科學(xué)基金(41371386,91224006) 中國科學(xué)院戰(zhàn)略重點(diǎn)研究計劃(XDA06010307,XDA05050601) 十二五科技支撐計劃(2013BAD15B02) 國家衛(wèi)生和計劃生育委員會國家衛(wèi)生家庭特別研究經(jīng)費(fèi)(201302005)
【分類號】:TP311.13

【相似文獻(xiàn)】

相關(guān)重要報紙文章 前1條

1 本報記者 那罡;微軟Spark計劃再添新成員[N];中國計算機(jī)報;2009年

相關(guān)碩士學(xué)位論文 前7條

1 王韜;基于Spark的聚類集成系統(tǒng)研究與設(shè)計[D];西南交通大學(xué);2015年

2 陳曉康;基于Spark 云計算平臺的改進(jìn)K近鄰算法研究[D];廣東工業(yè)大學(xué);2016年

3 李爭獻(xiàn);基于Spark的移動終端信息推送系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];華南理工大學(xué);2016年

4 趙洋;基于spark的網(wǎng)絡(luò)廣告交易計費(fèi)系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2016年

5 尚勃;Spark平臺下基于深度學(xué)習(xí)的網(wǎng)絡(luò)短文本情感分類研究[D];西安建筑科技大學(xué);2016年

6 王海華;Spark數(shù)據(jù)處理平臺中內(nèi)存數(shù)據(jù)空間管理技術(shù)研究[D];北京工業(yè)大學(xué);2016年

7 皮興杰;基于Spark的電網(wǎng)大數(shù)據(jù)統(tǒng)計中等值連接問題的優(yōu)化及其應(yīng)用[D];重慶大學(xué);2016年



本文編號:2544674

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2544674.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶380bf***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com