天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Spark的穩(wěn)定特征及流式特征選擇算法研究

發(fā)布時間:2020-03-25 00:24
【摘要】:高維數(shù)據(jù)的處理,一直都是數(shù)據(jù)挖掘領域中的難點。傳統(tǒng)的數(shù)據(jù)挖掘方法在計算過程中往往需要用到數(shù)據(jù)中的所有的特征值,在處理特征維度較低的數(shù)據(jù)時是可行的,但是在處理維度過高的數(shù)據(jù)時則會遇到很多的問題,比如“維度災難”(curse of dimensionality)問題。在大數(shù)據(jù)時代數(shù)據(jù)維度越來越高,如何高效處理這些高維數(shù)據(jù),是很多學者的研究重點。高維數(shù)據(jù)處理最常用的方式是數(shù)據(jù)降維(dimensionality reduction),而對數(shù)據(jù)進行降維最常使用的是特征選擇方法。關于特征選擇算法的研究現(xiàn)在已經(jīng)有很多的成果,如Relief算法等。但是大多對特征選擇算法研究主要是考慮如何提高后續(xù)算法的分類性能,對算法穩(wěn)定性方面的研究還比較少,而特征選擇的穩(wěn)定性是高維數(shù)據(jù)挖掘中一個重要問題。特征選擇算法的穩(wěn)定性是指,當數(shù)據(jù)集發(fā)生輕微的擾動時,所得到的特征子集會不會發(fā)生較大的改變。近些年關于如何提升特征選擇算法的穩(wěn)定性的研究已經(jīng)有了一定的成果。本文分別對兩種較新穩(wěn)定的特征選擇算法IW-Relief和FREL進行實現(xiàn)與研究,并驗證其穩(wěn)定效果。但是很多提高特征選擇穩(wěn)定性的方法在解決算法穩(wěn)定性的過程中,往往并不能降低算法的時間復雜度,有些時候為了實現(xiàn)算法的穩(wěn)定還會增加額外的時間開銷,比如IW-Relief算法,而在很多應用場景中對算法的時間開銷是有確切要求的或者希望能盡可能縮短算法的運行時間,因此需要設計新的解決方案來降低算法的時間開銷。特征選擇的另外一項重要研究課題是對流式數(shù)據(jù)的特征選擇。互聯(lián)網(wǎng)中產(chǎn)生的數(shù)據(jù)大多數(shù)都是流式的,比如金融信息、消息信息、訪問日志等,這些流式數(shù)據(jù)大多需要實時處理。已有的流式的特征選擇算法,大多數(shù)是以串行方式處理數(shù)據(jù),因此對于如何實現(xiàn)流式特征選擇算法的并行化研究也是一個非常有意義的課題。因此,本文對基于Apache Spark的穩(wěn)定特征及流式特征選擇進行了研究。Spark是一款開源的基于分布式的計算框架,因其優(yōu)良的計算性能和完善的數(shù)據(jù)處理組件,近些年來被廣泛的應用于數(shù)據(jù)挖掘、機器學習等領域。使用該框架和相應的算法結合,可以實現(xiàn)算法的并行化計算,從而可以有效的加快算法的運行速度。本文中結合Spark平臺和IW-Relief、FREL這兩種穩(wěn)定的特征選擇算法及流式特征選擇算法SAOLA,設計基于Spark的并行穩(wěn)定特征選擇及流式特征選擇算法,然后使用14個公開數(shù)據(jù)集,通過實驗驗證并行化后的算法在時間開銷方面的性能。而在Spark平臺中影響算法運行時間的因素較多,本文詳細驗證Spark平臺中各項主要參數(shù),如worker、partition、executors等對運行時間的影響。并根據(jù)實驗結果進行分析和總結,說明各項參數(shù)對實驗結果造成影響的原因,同時對并行化后的算法進行對比,分析每個算法的優(yōu)劣。實驗結果發(fā)現(xiàn),基于Spark的穩(wěn)定特征選擇算法的時間加速比最大可以達到8,各項參數(shù)中對Spark運行時間影響最大的參數(shù)為分區(qū)數(shù)(partitions),而基于Spark的流式特征選擇其加速比介于1.4~1.6。
【圖文】:

數(shù)據(jù),子集,樣本,特征選擇


圖 2-2 數(shù)據(jù)擾動交叉驗證法(Cross-validation)[40]也可以用來驗證一個特征選擇算法是否具有能,因為交叉驗證法中每份樣本子集都和其他的樣本子集之間存在一份的差異是實現(xiàn)了數(shù)據(jù)擾動的效果。如圖 2-3 所示,交叉驗證法:首先需要把選定的數(shù)一定的邏輯平均分成 n 等份,然后從中選取 n-1 份作為訓練集,剩下的一份為重復執(zhí)行 n 次。在對特征選擇算法的穩(wěn)定性測量中,每個樣本自己從中選取 n-每個樣本子集都和其他的樣本子集有一份不一樣的數(shù)據(jù)。

交叉驗證,子集


圖 2-2 數(shù)據(jù)擾動證法(Cross-validation)[40]也可以用來驗證一個特征選擇算法為交叉驗證法中每份樣本子集都和其他的樣本子集之間存在一了數(shù)據(jù)擾動的效果。如圖 2-3 所示,交叉驗證法:首先需要把邏輯平均分成 n 等份,然后從中選取 n-1 份作為訓練集,剩下行 n 次。在對特征選擇算法的穩(wěn)定性測量中,每個樣本自己從本子集都和其他的樣本子集有一份不一樣的數(shù)據(jù)。
【學位授予單位】:河南大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP311.13

【相似文獻】

相關期刊論文 前10條

1 代琨;于宏毅;馬學剛;李青;;基于支持向量機的特征選擇算法綜述[J];信息工程大學學報;2014年01期

2 陳建華;王治和;蔣蕓;許虎寅;樊東輝;;一種改進的文本分類特征選擇算法[J];微電子學與計算機;2011年12期

3 張文靜;王備戰(zhàn);張志宏;;基于圖的特征選擇算法綜述[J];安徽大學學報(自然科學版);2017年01期

4 孫剛;張靖;;面向高維微陣列數(shù)據(jù)的集成特征選擇算法[J];計算機工程與科學;2016年07期

5 張自敏;;大數(shù)據(jù)中基于稀疏投影的在線特征選擇算法[J];湖南科技大學學報(自然科學版);2018年03期

6 陳曉明;;海量高維數(shù)據(jù)下分布式特征選擇算法的研究與應用[J];科技通報;2013年08期

7 劉飛飛;;特征選擇算法及應用綜述[J];辦公自動化;2018年21期

8 侯嶼;秦小林;彭皓月;張力戈;;全局調距和聲特征選擇算法[J];計算機工程與應用;2019年02期

9 林夢雷;劉景華;王晨曦;林耀進;;基于標記權重的多標記特征選擇算法[J];計算機科學;2017年10期

10 胡佳妮,徐蔚然,郭軍,鄧偉洪;中文文本分類中的特征選擇算法研究[J];光通信研究;2005年03期

相關會議論文 前10條

1 甄超;鄭濤;許潔萍;;音樂流派分類中特征選擇算法研究[A];第18屆全國多媒體學術會議(NCMT2009)、第5屆全國人機交互學術會議(CHCI2009)、第5屆全國普適計算學術會議(PCC2009)論文集[C];2009年

2 陳偉海;李建軍;趙志華;曹丹陽;李晉宏;;數(shù)據(jù)挖掘特征選擇算法研究及其在鋁電解中的應用[A];2011中國有色金屬行業(yè)儀表自動化學術會議論文集[C];2011年

3 張仰森;曹元大;;最大熵建模方法中一種改進的特征選擇算法[A];NCIRCS2004第一屆全國信息檢索與內容安全學術會議論文集[C];2004年

4 張錚;胡社教;江萍;;基于EP模式的特征選擇算法[A];2011中國儀器儀表與測控技術大會論文集[C];2011年

5 周炎濤;唐劍波;王家琴;;基于信息熵的改進TFIDF特征選擇算法[A];第二十六屆中國控制會議論文集[C];2007年

6 徐燕;孫春明;王斌;李錦濤;;基于詞條頻率的特征選擇算法研究[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年

7 李文法;段m#毅;劉悅;孫春來;;一種面向流分類的特征選擇算法[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年

8 戴鍵;楊宏暉;;用于水聲目標識別的自適應免疫克隆特征選擇算法[A];2011'中國西部聲學學術交流會論文集[C];2011年

9 楊宏暉;李江濤;甘安琴;姚曉輝;;用于水下目標識別的無監(jiān)督譜特征選擇算法[A];2016年中國造船工程學會水中目標特性學組學術交流會論文集[C];2016年

10 羅勇;周超;許超;;文本分類在商品廣告分類中的應用[A];全國第五屆信號和智能信息處理與應用學術會議?(第一冊)[C];2011年

相關博士學位論文 前10條

1 田肅巖;吸納通路信息識別相關基因的特征選擇算法的研究[D];吉林大學;2018年

2 李云;特征選擇算法及其在基于內容圖像檢索中的應用研究[D];重慶大學;2005年

3 張靖;面向高維小樣本數(shù)據(jù)的分類特征選擇算法研究[D];合肥工業(yè)大學;2014年

4 劉華文;基于信息熵的特征選擇算法研究[D];吉林大學;2010年

5 史彩娟;網(wǎng)絡空間圖像標注中半監(jiān)督稀疏特征選擇算法研究[D];北京交通大學;2015年

6 楊杰明;文本分類中文本表示模型和特征選擇算法研究[D];吉林大學;2013年

7 潘巍巍;故障嚴重程度識別的有序分類特征分析方法[D];哈爾濱工業(yè)大學;2013年

8 楊峻山;生物組學數(shù)據(jù)的集成特征選擇研究[D];深圳大學;2017年

9 王劍橋;基于局部特性的毫米波距離像識別方法研究[D];南京理工大學;2014年

10 耿耀君;高通量數(shù)據(jù)特征選擇算法研究[D];西安電子科技大學;2013年

相關碩士學位論文 前10條

1 趙凱;Android惡意應用檢測中特征選擇算法的研究[D];湖南大學;2016年

2 郭喜芝;多標簽分類中流特征選擇算法研究[D];南京師范大學;2018年

3 王國權;面向高維不平衡數(shù)據(jù)的特征選擇算法研究[D];哈爾濱工業(yè)大學;2017年

4 施瑞朗;中文文本分類中特征選擇算法的研究與改進[D];杭州電子科技大學;2018年

5 脫倩娟;基于數(shù)據(jù)相似性的特征選擇算法研究[D];閩南師范大學;2018年

6 張夢林;基于SAL框架的特征選擇算法[D];吉林大學;2018年

7 初蓓;基于演化學習的特征選擇算法的研究及改進優(yōu)化[D];吉林大學;2018年

8 趙軍;基于Top-r方法的特征選擇算法研究[D];湖南大學;2014年

9 趙凱旋;基于強化學習的特征選擇算法研究[D];重慶交通大學;2018年

10 吳中華;流特征選擇算法設計及其在基因表達數(shù)據(jù)上的應用[D];南京理工大學;2018年

,

本文編號:2599099

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2599099.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶69104***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com