天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類碩士論文 >

面向符號(hào)數(shù)據(jù)的高效特征選擇算法研究

發(fā)布時(shí)間:2021-02-09 06:16
  隨著大數(shù)據(jù)時(shí)代的來(lái)臨,人們?nèi)粘5纳a(chǎn)生活中每天都在產(chǎn)生著海量規(guī)模的數(shù)據(jù)集,如何高效地從這些數(shù)據(jù)中獲取知識(shí)是目前眾多專家學(xué)者廣泛關(guān)注的問(wèn)題。數(shù)據(jù)挖掘是指從海量的、不完整的、模糊的實(shí)際數(shù)據(jù)中提取隱含在其中有用信息和知識(shí)的過(guò)程,特征選擇是數(shù)據(jù)挖掘中廣泛應(yīng)用的一項(xiàng)數(shù)據(jù)預(yù)處理技術(shù)。在我們現(xiàn)實(shí)生活中的數(shù)據(jù)并不完全是靜態(tài)的、完備的,比如會(huì)存在著標(biāo)簽缺失、數(shù)據(jù)動(dòng)態(tài)變化等情況。對(duì)此,針對(duì)這類數(shù)據(jù)集如何高效的從中獲取知識(shí)是本文的主要研究?jī)?nèi)容。本文利用粗糙集理論和信息熵作為工具,針對(duì)于符號(hào)數(shù)據(jù),主要包括以下三方面的研究?jī)?nèi)容。一、針對(duì)含有缺失信息的動(dòng)態(tài)數(shù)據(jù)集中由維數(shù)動(dòng)態(tài)變化引起特征選擇結(jié)果的更新問(wèn)題,通過(guò)深入分析互補(bǔ)信息熵在含有缺失數(shù)據(jù)取值的數(shù)據(jù)集中維數(shù)增加時(shí)的更新機(jī)制,進(jìn)而提出一種缺失數(shù)據(jù)維數(shù)增量式特征選擇算法,并通過(guò)實(shí)驗(yàn)對(duì)新算法的可行性和高效性作了進(jìn)一步的驗(yàn)證。二、針對(duì)于部分標(biāo)記數(shù)據(jù)如何進(jìn)行高效特征選擇的問(wèn)題,本文基于粗糙集和信息熵的概念,提出了一種基于信息熵的粗糙特征選擇算法。通過(guò)分析給定數(shù)據(jù)集上有標(biāo)記數(shù)據(jù)集和無(wú)標(biāo)記數(shù)據(jù)的信息熵,重新定義了整個(gè)數(shù)據(jù)集上的信息熵。在此基礎(chǔ)上定義了半監(jiān)督意義下基于信息熵的特... 

【文章來(lái)源】:山西大學(xué)山西省

【文章頁(yè)數(shù)】:59 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

面向符號(hào)數(shù)據(jù)的高效特征選擇算法研究


半監(jiān)督學(xué)習(xí)示意

數(shù)據(jù)集,特征選擇


面向符號(hào)數(shù)據(jù)的高效特征選擇算法研究14的計(jì)算時(shí)間。圖3.1Backup-Large數(shù)據(jù)集圖3.2Dermatology數(shù)據(jù)集圖3.3Mushroom數(shù)據(jù)集圖3.4Ticdata2000數(shù)據(jù)集圖3.1-3.4可以看出維數(shù)增量算法DISA在數(shù)據(jù)集在逐漸增加的時(shí)候計(jì)算時(shí)間明顯少于傳統(tǒng)的非增量算法CFS,并且數(shù)據(jù)集中增加規(guī)模的不斷變大DISA的高效性更加明顯。CFS作為一種傳統(tǒng)的特征選擇算法,當(dāng)數(shù)據(jù)集維數(shù)增加后,只能在新數(shù)據(jù)集上重新計(jì)算并求解新的特征選擇結(jié)果,屬于一種靜態(tài)的數(shù)據(jù)挖掘技術(shù)。而本文的新算法DISA在處理含有缺失數(shù)據(jù)的數(shù)據(jù)集動(dòng)態(tài)增加的情況下,可有效利用原始數(shù)據(jù)集上信息熵值和特征選擇結(jié)果,有效避免了CFS算法的重復(fù)計(jì)算,提高了計(jì)算效率。

數(shù)據(jù)集,特征選擇


面向符號(hào)數(shù)據(jù)的高效特征選擇算法研究14的計(jì)算時(shí)間。圖3.1Backup-Large數(shù)據(jù)集圖3.2Dermatology數(shù)據(jù)集圖3.3Mushroom數(shù)據(jù)集圖3.4Ticdata2000數(shù)據(jù)集圖3.1-3.4可以看出維數(shù)增量算法DISA在數(shù)據(jù)集在逐漸增加的時(shí)候計(jì)算時(shí)間明顯少于傳統(tǒng)的非增量算法CFS,并且數(shù)據(jù)集中增加規(guī)模的不斷變大DISA的高效性更加明顯。CFS作為一種傳統(tǒng)的特征選擇算法,當(dāng)數(shù)據(jù)集維數(shù)增加后,只能在新數(shù)據(jù)集上重新計(jì)算并求解新的特征選擇結(jié)果,屬于一種靜態(tài)的數(shù)據(jù)挖掘技術(shù)。而本文的新算法DISA在處理含有缺失數(shù)據(jù)的數(shù)據(jù)集動(dòng)態(tài)增加的情況下,可有效利用原始數(shù)據(jù)集上信息熵值和特征選擇結(jié)果,有效避免了CFS算法的重復(fù)計(jì)算,提高了計(jì)算效率。


本文編號(hào):3025189

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3025189.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0153e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com