天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

大規(guī)模結(jié)構(gòu)化數(shù)據(jù)特征抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-11-27 08:46
  近年來,云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等領(lǐng)域取得了令人矚目的進(jìn)步,推動(dòng)著傳統(tǒng)行業(yè)信息化的高速發(fā)展,無論是個(gè)人、企業(yè)還是政府,其數(shù)據(jù)量和服務(wù)量都呈現(xiàn)出爆發(fā)式增長,這也帶來了更多的機(jī)遇和挑戰(zhàn)。如今,數(shù)據(jù)不僅規(guī)模龐大,維度更是迅猛增長、涉及的數(shù)據(jù)類型也日趨復(fù)雜,這導(dǎo)致數(shù)據(jù)內(nèi)含信息的挖掘難度增加。為有效挖掘出海量數(shù)據(jù)中蘊(yùn)含的信息,給搜索、推薦、預(yù)測等需求提供服務(wù),首先就要引入當(dāng)今數(shù)據(jù)科學(xué)中的一個(gè)關(guān)鍵課題——特征工程。特征工程是數(shù)據(jù)挖掘與建模中的關(guān)鍵一環(huán),是指通過數(shù)據(jù)處理手段,將原始數(shù)據(jù)整合成可被模型使用的訓(xùn)練數(shù)據(jù)的過程,可以有效避免維度災(zāi)難、加快運(yùn)行速度并降低程序運(yùn)行的空間復(fù)雜度。特征工程主要包括三個(gè)部分:提取、選擇和生成。特征提取與特征選擇都是為了從原始特征中找出最有效的特征,以便后續(xù)的算法訓(xùn)練。特征生成則是通過整理或計(jì)算數(shù)據(jù),衍生出新的特征。本文構(gòu)筑了一個(gè)可以用來抽取大規(guī)模結(jié)構(gòu)化數(shù)據(jù)的特征工程系統(tǒng),該系統(tǒng)采用分布式架構(gòu)實(shí)現(xiàn),是機(jī)器學(xué)習(xí)平臺(tái)的子系統(tǒng),可通過Docker鏡像和Kubernetes系統(tǒng)進(jìn)行部署,主要面向公安系統(tǒng),支持對千億級(jí)別的樣本和萬億級(jí)別的特征在百臺(tái)服務(wù)器上并行運(yùn)行。系統(tǒng)分... 

【文章來源】:南京大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:93 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

大規(guī)模結(jié)構(gòu)化數(shù)據(jù)特征抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)


圖2.1:?Kubernetes系統(tǒng)架構(gòu)圖??

用例圖,用例圖,模塊,系統(tǒng)管理員


圖3.1:系統(tǒng)管理員用例圖??2.配置模塊預(yù)設(shè):為用戶配置使用模塊的模板,并添加預(yù)設(shè)值,增加用戶??的易用性。??3.上線模塊與修改模塊:可以通過后續(xù)操作更新模塊。??對于用戶,用例圖如3.2所示:??1.選擇模塊:用戶選擇自己所需要的模塊,可以通過拖拽放置到面板;??2.配置參數(shù):在某些模塊,需要用戶配置參數(shù),設(shè)置模塊運(yùn)行的條件;??3.運(yùn)行模塊:用戶在輸入數(shù)據(jù)并選擇模塊以后可以運(yùn)行模塊獲得結(jié)果;??4.導(dǎo)出數(shù)據(jù):用戶可以將運(yùn)行好的結(jié)果導(dǎo)出至本地或者用于下一個(gè)步驟的??輸入。??特征提取模塊用戶需求:特征提取是特征工程系統(tǒng)中最關(guān)鍵的模塊,用戶??需要通過特征提取模塊對數(shù)據(jù)進(jìn)行特征與標(biāo)簽列的整合處理,只有經(jīng)特征提??取以后,用戶才可將初始上傳或經(jīng)初步處理(切分、整合、選擇)以后的數(shù)據(jù)??(類型為dataset)轉(zhuǎn)化成可供機(jī)器學(xué)習(xí)算法使用的數(shù)據(jù)(insset)。同時(shí),用戶可??

模塊圖,用例圖,系統(tǒng)管理員,運(yùn)行結(jié)束


圖3.2:系統(tǒng)用戶用例圖??2.查看模塊運(yùn)行結(jié)果:運(yùn)行結(jié)束以后,用戶可獲知模塊運(yùn)行是否成功

【參考文獻(xiàn)】:
期刊論文
[1]基于獨(dú)熱編碼和卷積神經(jīng)網(wǎng)絡(luò)的異常檢測[J]. 梁杰,陳嘉豪,張雪芹,周悅,林家駿.  清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(07)
[2]特征工程:學(xué)習(xí)分析中識(shí)別行為模式的重要方法[J]. 歐陽嘉煜,范逸洲,羅淑芳,紀(jì)九梅,汪瓊.  現(xiàn)代教育技術(shù). 2018(04)
[3]特征選擇方法綜述[J]. 姚旭,王曉丹,張玉璽,權(quán)文.  控制與決策. 2012(02)
[4]基于正態(tài)分布特征的連續(xù)屬性無監(jiān)督離散化方法研究[J]. 李曉宏,孫林巖,李剛.  科學(xué)與管理. 2009(06)
[5]與特征選取和離散化集成的決策規(guī)則挖掘方法[J]. 陳湘暉,朱善君,吉吟東.  系統(tǒng)工程理論與實(shí)踐. 2001(11)

博士論文
[1]基于信息熵的特征選擇算法研究[D]. 劉華文.吉林大學(xué) 2010

碩士論文
[1]面向高維大數(shù)據(jù)的特征選擇方法研究[D]. 張笑朋.太原理工大學(xué) 2018
[2]基于統(tǒng)計(jì)學(xué)的大數(shù)據(jù)特征分析研究[D]. 徐帥.北京郵電大學(xué) 2018
[3]信息系統(tǒng)中連續(xù)屬性的離散化及規(guī)則提取[D]. 田學(xué)全.電子科技大學(xué) 2006



本文編號(hào):3521937

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3521937.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8d3be***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com