基于粗糙集與LDA的不完備數(shù)據(jù)處理方法研究
發(fā)布時間:2021-08-05 01:54
進入21世紀后,互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,數(shù)據(jù)可以快速通過線上方式進行獲取和存儲,這為數(shù)據(jù)挖掘工作帶來了機遇,但由于各種原因往往會獲取到不完備數(shù)據(jù),如何準確、有效的處理不完備數(shù)據(jù)是當前研究的熱點,因此,本文首先通過優(yōu)化的填補算法使不完備數(shù)據(jù)通過填補成為完備數(shù)據(jù),接著針對完備數(shù)據(jù)的分類問題展開研究,本文主要研究工作如下:(1)針對利用相似樣本進行填補的過程中,不能精確定位和填補時易受數(shù)據(jù)干擾,影響算法填補效果等問題。設(shè)計了基于粗糙集的樣本缺失維度填補算法。該算法首先利用粗糙集進行屬性約簡,接著對約簡后的決策表進行k均值聚類,并利用相似度進行待填補樣本與聚簇結(jié)果的比較,從而精確定位較相似樣本。最后以最小二乘法為核心思想,進行相應缺失維度上的數(shù)據(jù)擬合,減少了不相關(guān)數(shù)據(jù)的干擾。實驗結(jié)果表明了本文算法的有效性。(2)針對利用近鄰樣本進行類別預測的過程中,訓練集較大和樣本特征數(shù)差異,影響算法分類效果等問題。設(shè)計了基于線性鑒別分析法的樣本均值KNN改進算法。該算法首先利用線性鑒別分析法,降低樣本特征數(shù)及其差異帶來的不利影響。進而比較了待測樣本和各類樣本均值相似度,選擇性篩選訓練集,最后利用改進的距離公式計...
【文章來源】:西安科技大學陜西省
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
KNN算法的決策過程
3基于粗糙集的樣本缺失維度填補算法25圖3.1擬合曲線其中,直線0.2362x+8.303的誤差平方和為0.7338。二次多項式-2.803×10-2x2+0.5446x+7.686的誤差平方和為0.3515。三次多項式5.563×10-3x3-0.1198x2+0.9679x+7.209的誤差平方和為0.1672。一次到三次的擬合曲線中,根據(jù)誤差平方和可知,當前真實數(shù)據(jù)的較合適擬合曲線為三次多項式5.563×10-3x3-0.1198x2+0.9679x+7.209。3.3算法思想基于粗糙集的樣本缺失維度填補算法(FARS)的核心思想是:首先利用粗糙集進行屬性約簡,達到特征選擇的目的,接著對約簡后的決策表進行k均值聚類,并利用相似度進行待填補樣本與聚簇結(jié)果的比較,達到劃分待填補樣本的目的,最后以最小二乘法為核心思想,進行相應缺失維度上的數(shù)據(jù)擬合,從而減少不相關(guān)數(shù)據(jù)的干擾,完成不完備數(shù)據(jù)的填補工作。3.4算法設(shè)計為了解決利用相似樣本填補的過程中,縮小搜索范圍時不能精確定位和填補時易受數(shù)據(jù)干擾,影響算法填補效果等問題,本章設(shè)計了基于粗糙集的樣本缺失維度填補算法,具體步驟如下:輸入:決策表QDTfVC),,,(D,其中},...,,{21nxxxQ,C為條件屬性,D為決策屬性,其中xi為),...,,(21imiixxx,有m維特征,yi為xi對應的類別,共有t個類別,提取含有完備數(shù)據(jù)的樣本,組成決策表C-DT,提取含有不完備數(shù)據(jù)的樣本組成M-DT。輸出:填補完整的決策表RE-M-DT。(1)對決策表C-DT進行k均值離散化處理,得到?jīng)Q策表C-DT-L;(2)利用粗糙集基于屬性重要度的屬性約簡算法對決策表C-DT-L進行屬性約簡,得
西安科技大學非全日制碩士學位論文30表3.12缺失率25%時三種算法的實驗結(jié)果數(shù)據(jù)集(缺失率25%)FARS算法KNNI算法楊的算法RMSE運行時間/msRMSE運行時間/msRMSE運行時間/msIris0.421111680.4756170.705117Seeds0.0169463010.030411320.0198192Ecoli0.120256240.34417670.166298Wine0.473928601.07011570.671232表3.13缺失率30%時三種算法的實驗結(jié)果數(shù)據(jù)集(缺失率30%)FARS算法KNNI算法楊的算法RMSE運行時間/msRMSE運行時間/msRMSE運行時間/msIris0.41089010.5007480.770125Seeds0.0167499140.032623710.0221204Ecoli0.122446800.34440430.173391Wine0.502852761.12824070.711420圖3.2缺失率10%三種算法RMSE對比圖3.3缺失率15%三種算法RMSE對比
本文編號:3322826
【文章來源】:西安科技大學陜西省
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
KNN算法的決策過程
3基于粗糙集的樣本缺失維度填補算法25圖3.1擬合曲線其中,直線0.2362x+8.303的誤差平方和為0.7338。二次多項式-2.803×10-2x2+0.5446x+7.686的誤差平方和為0.3515。三次多項式5.563×10-3x3-0.1198x2+0.9679x+7.209的誤差平方和為0.1672。一次到三次的擬合曲線中,根據(jù)誤差平方和可知,當前真實數(shù)據(jù)的較合適擬合曲線為三次多項式5.563×10-3x3-0.1198x2+0.9679x+7.209。3.3算法思想基于粗糙集的樣本缺失維度填補算法(FARS)的核心思想是:首先利用粗糙集進行屬性約簡,達到特征選擇的目的,接著對約簡后的決策表進行k均值聚類,并利用相似度進行待填補樣本與聚簇結(jié)果的比較,達到劃分待填補樣本的目的,最后以最小二乘法為核心思想,進行相應缺失維度上的數(shù)據(jù)擬合,從而減少不相關(guān)數(shù)據(jù)的干擾,完成不完備數(shù)據(jù)的填補工作。3.4算法設(shè)計為了解決利用相似樣本填補的過程中,縮小搜索范圍時不能精確定位和填補時易受數(shù)據(jù)干擾,影響算法填補效果等問題,本章設(shè)計了基于粗糙集的樣本缺失維度填補算法,具體步驟如下:輸入:決策表QDTfVC),,,(D,其中},...,,{21nxxxQ,C為條件屬性,D為決策屬性,其中xi為),...,,(21imiixxx,有m維特征,yi為xi對應的類別,共有t個類別,提取含有完備數(shù)據(jù)的樣本,組成決策表C-DT,提取含有不完備數(shù)據(jù)的樣本組成M-DT。輸出:填補完整的決策表RE-M-DT。(1)對決策表C-DT進行k均值離散化處理,得到?jīng)Q策表C-DT-L;(2)利用粗糙集基于屬性重要度的屬性約簡算法對決策表C-DT-L進行屬性約簡,得
西安科技大學非全日制碩士學位論文30表3.12缺失率25%時三種算法的實驗結(jié)果數(shù)據(jù)集(缺失率25%)FARS算法KNNI算法楊的算法RMSE運行時間/msRMSE運行時間/msRMSE運行時間/msIris0.421111680.4756170.705117Seeds0.0169463010.030411320.0198192Ecoli0.120256240.34417670.166298Wine0.473928601.07011570.671232表3.13缺失率30%時三種算法的實驗結(jié)果數(shù)據(jù)集(缺失率30%)FARS算法KNNI算法楊的算法RMSE運行時間/msRMSE運行時間/msRMSE運行時間/msIris0.41089010.5007480.770125Seeds0.0167499140.032623710.0221204Ecoli0.122446800.34440430.173391Wine0.502852761.12824070.711420圖3.2缺失率10%三種算法RMSE對比圖3.3缺失率15%三種算法RMSE對比
本文編號:3322826
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3322826.html
最近更新
教材專著