面向符號(hào)數(shù)據(jù)的高效特征選擇算法研究
發(fā)布時(shí)間:2021-02-09 06:16
隨著大數(shù)據(jù)時(shí)代的來(lái)臨,人們?nèi)粘5纳a(chǎn)生活中每天都在產(chǎn)生著海量規(guī)模的數(shù)據(jù)集,如何高效地從這些數(shù)據(jù)中獲取知識(shí)是目前眾多專家學(xué)者廣泛關(guān)注的問(wèn)題。數(shù)據(jù)挖掘是指從海量的、不完整的、模糊的實(shí)際數(shù)據(jù)中提取隱含在其中有用信息和知識(shí)的過(guò)程,特征選擇是數(shù)據(jù)挖掘中廣泛應(yīng)用的一項(xiàng)數(shù)據(jù)預(yù)處理技術(shù)。在我們現(xiàn)實(shí)生活中的數(shù)據(jù)并不完全是靜態(tài)的、完備的,比如會(huì)存在著標(biāo)簽缺失、數(shù)據(jù)動(dòng)態(tài)變化等情況。對(duì)此,針對(duì)這類數(shù)據(jù)集如何高效的從中獲取知識(shí)是本文的主要研究?jī)?nèi)容。本文利用粗糙集理論和信息熵作為工具,針對(duì)于符號(hào)數(shù)據(jù),主要包括以下三方面的研究?jī)?nèi)容。一、針對(duì)含有缺失信息的動(dòng)態(tài)數(shù)據(jù)集中由維數(shù)動(dòng)態(tài)變化引起特征選擇結(jié)果的更新問(wèn)題,通過(guò)深入分析互補(bǔ)信息熵在含有缺失數(shù)據(jù)取值的數(shù)據(jù)集中維數(shù)增加時(shí)的更新機(jī)制,進(jìn)而提出一種缺失數(shù)據(jù)維數(shù)增量式特征選擇算法,并通過(guò)實(shí)驗(yàn)對(duì)新算法的可行性和高效性作了進(jìn)一步的驗(yàn)證。二、針對(duì)于部分標(biāo)記數(shù)據(jù)如何進(jìn)行高效特征選擇的問(wèn)題,本文基于粗糙集和信息熵的概念,提出了一種基于信息熵的粗糙特征選擇算法。通過(guò)分析給定數(shù)據(jù)集上有標(biāo)記數(shù)據(jù)集和無(wú)標(biāo)記數(shù)據(jù)的信息熵,重新定義了整個(gè)數(shù)據(jù)集上的信息熵。在此基礎(chǔ)上定義了半監(jiān)督意義下基于信息熵的特...
【文章來(lái)源】:山西大學(xué)山西省
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
半監(jiān)督學(xué)習(xí)示意
面向符號(hào)數(shù)據(jù)的高效特征選擇算法研究14的計(jì)算時(shí)間。圖3.1Backup-Large數(shù)據(jù)集圖3.2Dermatology數(shù)據(jù)集圖3.3Mushroom數(shù)據(jù)集圖3.4Ticdata2000數(shù)據(jù)集圖3.1-3.4可以看出維數(shù)增量算法DISA在數(shù)據(jù)集在逐漸增加的時(shí)候計(jì)算時(shí)間明顯少于傳統(tǒng)的非增量算法CFS,并且數(shù)據(jù)集中增加規(guī)模的不斷變大DISA的高效性更加明顯。CFS作為一種傳統(tǒng)的特征選擇算法,當(dāng)數(shù)據(jù)集維數(shù)增加后,只能在新數(shù)據(jù)集上重新計(jì)算并求解新的特征選擇結(jié)果,屬于一種靜態(tài)的數(shù)據(jù)挖掘技術(shù)。而本文的新算法DISA在處理含有缺失數(shù)據(jù)的數(shù)據(jù)集動(dòng)態(tài)增加的情況下,可有效利用原始數(shù)據(jù)集上信息熵值和特征選擇結(jié)果,有效避免了CFS算法的重復(fù)計(jì)算,提高了計(jì)算效率。
面向符號(hào)數(shù)據(jù)的高效特征選擇算法研究14的計(jì)算時(shí)間。圖3.1Backup-Large數(shù)據(jù)集圖3.2Dermatology數(shù)據(jù)集圖3.3Mushroom數(shù)據(jù)集圖3.4Ticdata2000數(shù)據(jù)集圖3.1-3.4可以看出維數(shù)增量算法DISA在數(shù)據(jù)集在逐漸增加的時(shí)候計(jì)算時(shí)間明顯少于傳統(tǒng)的非增量算法CFS,并且數(shù)據(jù)集中增加規(guī)模的不斷變大DISA的高效性更加明顯。CFS作為一種傳統(tǒng)的特征選擇算法,當(dāng)數(shù)據(jù)集維數(shù)增加后,只能在新數(shù)據(jù)集上重新計(jì)算并求解新的特征選擇結(jié)果,屬于一種靜態(tài)的數(shù)據(jù)挖掘技術(shù)。而本文的新算法DISA在處理含有缺失數(shù)據(jù)的數(shù)據(jù)集動(dòng)態(tài)增加的情況下,可有效利用原始數(shù)據(jù)集上信息熵值和特征選擇結(jié)果,有效避免了CFS算法的重復(fù)計(jì)算,提高了計(jì)算效率。
本文編號(hào):3025189
【文章來(lái)源】:山西大學(xué)山西省
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
半監(jiān)督學(xué)習(xí)示意
面向符號(hào)數(shù)據(jù)的高效特征選擇算法研究14的計(jì)算時(shí)間。圖3.1Backup-Large數(shù)據(jù)集圖3.2Dermatology數(shù)據(jù)集圖3.3Mushroom數(shù)據(jù)集圖3.4Ticdata2000數(shù)據(jù)集圖3.1-3.4可以看出維數(shù)增量算法DISA在數(shù)據(jù)集在逐漸增加的時(shí)候計(jì)算時(shí)間明顯少于傳統(tǒng)的非增量算法CFS,并且數(shù)據(jù)集中增加規(guī)模的不斷變大DISA的高效性更加明顯。CFS作為一種傳統(tǒng)的特征選擇算法,當(dāng)數(shù)據(jù)集維數(shù)增加后,只能在新數(shù)據(jù)集上重新計(jì)算并求解新的特征選擇結(jié)果,屬于一種靜態(tài)的數(shù)據(jù)挖掘技術(shù)。而本文的新算法DISA在處理含有缺失數(shù)據(jù)的數(shù)據(jù)集動(dòng)態(tài)增加的情況下,可有效利用原始數(shù)據(jù)集上信息熵值和特征選擇結(jié)果,有效避免了CFS算法的重復(fù)計(jì)算,提高了計(jì)算效率。
面向符號(hào)數(shù)據(jù)的高效特征選擇算法研究14的計(jì)算時(shí)間。圖3.1Backup-Large數(shù)據(jù)集圖3.2Dermatology數(shù)據(jù)集圖3.3Mushroom數(shù)據(jù)集圖3.4Ticdata2000數(shù)據(jù)集圖3.1-3.4可以看出維數(shù)增量算法DISA在數(shù)據(jù)集在逐漸增加的時(shí)候計(jì)算時(shí)間明顯少于傳統(tǒng)的非增量算法CFS,并且數(shù)據(jù)集中增加規(guī)模的不斷變大DISA的高效性更加明顯。CFS作為一種傳統(tǒng)的特征選擇算法,當(dāng)數(shù)據(jù)集維數(shù)增加后,只能在新數(shù)據(jù)集上重新計(jì)算并求解新的特征選擇結(jié)果,屬于一種靜態(tài)的數(shù)據(jù)挖掘技術(shù)。而本文的新算法DISA在處理含有缺失數(shù)據(jù)的數(shù)據(jù)集動(dòng)態(tài)增加的情況下,可有效利用原始數(shù)據(jù)集上信息熵值和特征選擇結(jié)果,有效避免了CFS算法的重復(fù)計(jì)算,提高了計(jì)算效率。
本文編號(hào):3025189
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3025189.html
最近更新
教材專著