基于信息�；母咝elief算法研究

發(fā)布時間：2021-01-16 13:33

　　隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,信息的多樣化及產(chǎn)生速度有著質(zhì)的飛躍,促使數(shù)據(jù)呈現(xiàn)爆發(fā)式的增長。大量的數(shù)據(jù)中勢必蘊含著很多有價值的信息,數(shù)據(jù)挖掘就是在這些數(shù)據(jù)中“沙里淘金”的過程。在數(shù)據(jù)挖掘領(lǐng)域中,分類問題受到廣泛關(guān)注。特征選擇是數(shù)據(jù)挖掘中一個重要的預處理過程,通過剔除冗余或不相關(guān)的特征,從而達到提高模型精度、減少特征以及提高運行效率的目的,便于研究人員獲取有用的信息。事實證明,Relief及其衍生算法是一類成功的特征選擇器。與全局搜索和啟發(fā)式搜索方法不同,Relief算法依據(jù)分類間隔來度量特征對樣本的區(qū)分能力,是一種簡單有效的特征加權(quán)方法,但當處理大規(guī)模數(shù)據(jù)時,仍存在計算成本較高的問題。本文以信息�；癁榛A(chǔ),從樣本�；椭С窒蛄苛；慕嵌瘸霭l(fā),結(jié)合Relief算法固有的特征加權(quán)機制,針對提高Relief算法的效率開展研究工作,主要內(nèi)容如下:（1）從樣本�；慕嵌瘸霭l(fā),結(jié)合Relief算法的特征加權(quán)機制與樣本空間存在的潛在聯(lián)系,提出了基于樣本粒化的快速Relief算法。該算法克服了傳統(tǒng)Relief算法依賴全部數(shù)據(jù)的局限,以知識粒度和Shannon熵共同作為評價指標,從信息�；慕嵌葘υ紨�(shù)據(jù)進...

【文章來源】：山西大學山西省

【文章頁數(shù)】：59 頁

【學位級別】：碩士

【部分圖文】：

基于信息�；母咝elief算法研究

圖3.1分類問題的分類決策（4）對于一個多分類問題，ReliefF的做法是隨機選取一個樣本點Ri，然后從

基于信息�；母咝elief算法研究

多分類問

工作流程圖,工作流程,算法,隨機抽樣

基于信息粒化的高效Relief算法研究18表3.1數(shù)據(jù)集描述數(shù)據(jù)集名稱縮寫樣本數(shù)條件特征數(shù)類別數(shù)UserKnowledgeModelingUserKM40354BreastCancerWisconsinBreastCW68392BanknoteAuthenticationBanknoteA137242WineQuality-WhiteWineQW4898115WaveformWaveform5000213PageBlocksPageB5473105ElectricalGridStabilitySimulatedElectricalGridSS10000132MagicGammaTelescopeMagicGT19020102圖3.3上、下方分別為FSSMC和SGF-ReliefF算法的工作流程算法的另一個主要參數(shù)為篩選粒的閾值θ，當θ太大時，篩選的粒的數(shù)量太少，容易受噪聲點影響，且粒的代表性不夠。當θ太小時，篩選的粒數(shù)量過多，導致運行成本仍很高，且在隨機抽樣時易抽到代表性不高的點。實際上，根據(jù)訓練數(shù)據(jù)的實際情況來設(shè)定閾值θ會得到較好的結(jié)果，由于本章的中心思想在于論述基于樣本粒化的快速Relief算法的可行性，所以閾值θ只簡單設(shè)定為全部顆粒數(shù)目的1/4。此外，SGF-ReliefF算法、ReliefF-RS算法和FSSMC算法一個共同的參數(shù)為隨機抽樣的個數(shù)m，m的大小同樣也影響著運算的效率，當m太小時，抽取的樣本可能包含不了足夠的信息；當m太大時，運行成本會很高。在進行實驗測試時，m值的設(shè)定與訓練樣本集的大小有關(guān)，通常設(shè)為全部訓練樣本數(shù)的5%或10%。

本文編號：2980919

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xixikjs/2980919.html

上一篇：轉(zhuǎn)向架軸距尺寸與平行度三維檢測技術(shù)研究
下一篇：面向二維形狀識別的輪廓和骨架序列編碼方法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于信息�；母咝elief算法研究

基于信息�；母咝elief算法研究