天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于粗糙集與LDA的不完備數(shù)據(jù)處理方法研究

發(fā)布時間:2021-08-05 01:54
  進(jìn)入21世紀(jì)后,互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,數(shù)據(jù)可以快速通過線上方式進(jìn)行獲取和存儲,這為數(shù)據(jù)挖掘工作帶來了機(jī)遇,但由于各種原因往往會獲取到不完備數(shù)據(jù),如何準(zhǔn)確、有效的處理不完備數(shù)據(jù)是當(dāng)前研究的熱點,因此,本文首先通過優(yōu)化的填補(bǔ)算法使不完備數(shù)據(jù)通過填補(bǔ)成為完備數(shù)據(jù),接著針對完備數(shù)據(jù)的分類問題展開研究,本文主要研究工作如下:(1)針對利用相似樣本進(jìn)行填補(bǔ)的過程中,不能精確定位和填補(bǔ)時易受數(shù)據(jù)干擾,影響算法填補(bǔ)效果等問題。設(shè)計了基于粗糙集的樣本缺失維度填補(bǔ)算法。該算法首先利用粗糙集進(jìn)行屬性約簡,接著對約簡后的決策表進(jìn)行k均值聚類,并利用相似度進(jìn)行待填補(bǔ)樣本與聚簇結(jié)果的比較,從而精確定位較相似樣本。最后以最小二乘法為核心思想,進(jìn)行相應(yīng)缺失維度上的數(shù)據(jù)擬合,減少了不相關(guān)數(shù)據(jù)的干擾。實驗結(jié)果表明了本文算法的有效性。(2)針對利用近鄰樣本進(jìn)行類別預(yù)測的過程中,訓(xùn)練集較大和樣本特征數(shù)差異,影響算法分類效果等問題。設(shè)計了基于線性鑒別分析法的樣本均值KNN改進(jìn)算法。該算法首先利用線性鑒別分析法,降低樣本特征數(shù)及其差異帶來的不利影響。進(jìn)而比較了待測樣本和各類樣本均值相似度,選擇性篩選訓(xùn)練集,最后利用改進(jìn)的距離公式計... 

【文章來源】:西安科技大學(xué)陜西省

【文章頁數(shù)】:68 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于粗糙集與LDA的不完備數(shù)據(jù)處理方法研究


KNN算法的決策過程

擬合曲線,擬合曲線,決策表,粗糙集


3基于粗糙集的樣本缺失維度填補(bǔ)算法25圖3.1擬合曲線其中,直線0.2362x+8.303的誤差平方和為0.7338。二次多項式-2.803×10-2x2+0.5446x+7.686的誤差平方和為0.3515。三次多項式5.563×10-3x3-0.1198x2+0.9679x+7.209的誤差平方和為0.1672。一次到三次的擬合曲線中,根據(jù)誤差平方和可知,當(dāng)前真實數(shù)據(jù)的較合適擬合曲線為三次多項式5.563×10-3x3-0.1198x2+0.9679x+7.209。3.3算法思想基于粗糙集的樣本缺失維度填補(bǔ)算法(FARS)的核心思想是:首先利用粗糙集進(jìn)行屬性約簡,達(dá)到特征選擇的目的,接著對約簡后的決策表進(jìn)行k均值聚類,并利用相似度進(jìn)行待填補(bǔ)樣本與聚簇結(jié)果的比較,達(dá)到劃分待填補(bǔ)樣本的目的,最后以最小二乘法為核心思想,進(jìn)行相應(yīng)缺失維度上的數(shù)據(jù)擬合,從而減少不相關(guān)數(shù)據(jù)的干擾,完成不完備數(shù)據(jù)的填補(bǔ)工作。3.4算法設(shè)計為了解決利用相似樣本填補(bǔ)的過程中,縮小搜索范圍時不能精確定位和填補(bǔ)時易受數(shù)據(jù)干擾,影響算法填補(bǔ)效果等問題,本章設(shè)計了基于粗糙集的樣本缺失維度填補(bǔ)算法,具體步驟如下:輸入:決策表QDTfVC),,,(D,其中},...,,{21nxxxQ,C為條件屬性,D為決策屬性,其中xi為),...,,(21imiixxx,有m維特征,yi為xi對應(yīng)的類別,共有t個類別,提取含有完備數(shù)據(jù)的樣本,組成決策表C-DT,提取含有不完備數(shù)據(jù)的樣本組成M-DT。輸出:填補(bǔ)完整的決策表RE-M-DT。(1)對決策表C-DT進(jìn)行k均值離散化處理,得到?jīng)Q策表C-DT-L;(2)利用粗糙集基于屬性重要度的屬性約簡算法對決策表C-DT-L進(jìn)行屬性約簡,得

對比圖,缺失,算法,數(shù)據(jù)集


西安科技大學(xué)非全日制碩士學(xué)位論文30表3.12缺失率25%時三種算法的實驗結(jié)果數(shù)據(jù)集(缺失率25%)FARS算法KNNI算法楊的算法RMSE運行時間/msRMSE運行時間/msRMSE運行時間/msIris0.421111680.4756170.705117Seeds0.0169463010.030411320.0198192Ecoli0.120256240.34417670.166298Wine0.473928601.07011570.671232表3.13缺失率30%時三種算法的實驗結(jié)果數(shù)據(jù)集(缺失率30%)FARS算法KNNI算法楊的算法RMSE運行時間/msRMSE運行時間/msRMSE運行時間/msIris0.41089010.5007480.770125Seeds0.0167499140.032623710.0221204Ecoli0.122446800.34440430.173391Wine0.502852761.12824070.711420圖3.2缺失率10%三種算法RMSE對比圖3.3缺失率15%三種算法RMSE對比


本文編號:3322826

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3322826.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cd0b1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com