天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

屬性子集選擇算法及其推薦方法研究

發(fā)布時(shí)間:2017-12-29 02:01

  本文關(guān)鍵詞:屬性子集選擇算法及其推薦方法研究 出處:《西安交通大學(xué)》2017年博士論文 論文類(lèi)型:學(xué)位論文


  更多相關(guān)文章: 屬性子集選擇 算法推薦 元學(xué)習(xí) 多標(biāo)簽學(xué)習(xí)


【摘要】:數(shù)據(jù)挖掘領(lǐng)域存在一個(gè)重要原則GIGO(Garbage In,Garbage Out),說(shuō)明挖掘知識(shí)的可靠性取決于收集數(shù)據(jù)的質(zhì)量,而影響數(shù)據(jù)質(zhì)量的一個(gè)重要因素就是用于描述數(shù)據(jù)的屬性質(zhì)量。為此研究人員常借助于屬性子集選擇(簡(jiǎn)稱(chēng)屬性選擇),通過(guò)特定策略從原始屬性集合中選擇與學(xué)習(xí)目標(biāo)密切相關(guān)的屬性子集來(lái)描述數(shù)據(jù)集。本文研究重點(diǎn)為屬性選擇算法及如何為新問(wèn)題推薦合適的屬性選擇算法。屬性選擇通常通過(guò)識(shí)別并刪除與學(xué)習(xí)目標(biāo)不相關(guān)的屬性和對(duì)描述學(xué)習(xí)目標(biāo)而言是冗余的屬性來(lái)完成。然而屬性間交互作用也是屬性選擇過(guò)程中一個(gè)不容忽視的因素。已有研究中很少能夠在刪除不相關(guān)、冗余屬性的同時(shí)兼顧屬性間交互作用。為此本文首先提出了兩種新的基于規(guī)則挖掘的屬性選擇算法同時(shí)兼顧到上述幾點(diǎn)。對(duì)于中低維度數(shù)據(jù)集,本文提出了一種基于關(guān)聯(lián)規(guī)則挖掘的屬性選擇算法FEAST(Feature subset s Election Algorithm based a Sossica Tion rule mining),該方法首先挖掘兩種帶約束的關(guān)聯(lián)規(guī)則:分類(lèi)和原子型關(guān)聯(lián)規(guī)則,之后利用分類(lèi)型關(guān)聯(lián)規(guī)則來(lái)刪除不相關(guān)屬性并保留屬性間交互作用,最后利用原子型關(guān)聯(lián)規(guī)則識(shí)別和刪除冗余屬性得到最終屬性子集。同時(shí),由于支持度和置信度閾值是FEAST算法中的兩個(gè)關(guān)鍵參數(shù),為了更好的利用FEAST算法,提出了一種基于偏最小二乘回歸的閾值預(yù)測(cè)方法來(lái)為新的數(shù)據(jù)集預(yù)測(cè)合適的參數(shù)。人工數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明FEAST能夠在識(shí)別不相關(guān)、冗余屬性的同時(shí)兼顧到屬性間交互作用,實(shí)際數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了FEAST算法在提高常用分類(lèi)器Na?ve Bayes,C4.5,PART以及IB1的平均分類(lèi)精度上優(yōu)于其他常用屬性選擇算法以及閾值預(yù)測(cè)方法的有效性。對(duì)于高維數(shù)據(jù)集,FEAST算法由于高時(shí)間復(fù)雜度而不適用。為此本文提出了一種基于FOIL(First Order Inductive Leaner)規(guī)則生成方法的屬性選擇算法FRFS(FOIL Rule based F eature subset Selection algorithm)。該算法通過(guò)在基本FOIL規(guī)則生成過(guò)程中加入約束條件來(lái)過(guò)濾冗余屬性并保留屬性間交互作用,同時(shí)通過(guò)提出的一種基于規(guī)則支持度的屬性相關(guān)性度量指標(biāo)Cover Ratio來(lái)識(shí)別不相關(guān)屬性。最后在人工數(shù)據(jù)集和實(shí)際高維數(shù)據(jù)集上對(duì)FRFS的性能進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明了FRFS不僅能在識(shí)別不相關(guān)、冗余屬性的同時(shí)兼顧到屬性間交互作用,而且在提高分類(lèi)器Na?ve Bayes,C4.5,PART和IB1的平均分類(lèi)精度上要明顯優(yōu)于常用屬性選擇算法,同時(shí)相比其他屬性選擇算法在高維數(shù)據(jù)集上的運(yùn)行效率提高10倍以上。盡管新屬性選擇算法或者已有算法的改進(jìn)在不斷提出,根據(jù)NFL(No Free Lunch)理論,并不存在特定屬性選擇算法適用于所有問(wèn)題。對(duì)于給定屬性選擇問(wèn)題,不同屬性選擇算法間存在性能差異。如何為指定問(wèn)題推薦性能較優(yōu)的屬性選擇算法就顯得尤為重要。數(shù)據(jù)挖掘領(lǐng)域的元學(xué)習(xí)是一種通過(guò)分析問(wèn)題特征和算法性能間關(guān)系,進(jìn)而利用這種關(guān)系為新問(wèn)題選擇合適算法的方法。本文將該思想用于屬性選擇算法推薦,提出了一種基于元學(xué)習(xí)的屬性選擇算法自動(dòng)推薦方法。對(duì)于指定數(shù)據(jù)集,該推薦方法首先抽取數(shù)據(jù)集特征,并根據(jù)數(shù)據(jù)集特征來(lái)計(jì)算其近鄰數(shù)據(jù)集,然后根據(jù)候選屬性選擇算法在這些近鄰數(shù)據(jù)集上的性能對(duì)候選算法進(jìn)行排序,最后將性能表現(xiàn)較優(yōu),即排序靠前的算法推薦給該數(shù)據(jù)集。同時(shí)該推薦方法中采用了一種面向用戶(hù)的多標(biāo)準(zhǔn)度量指標(biāo)來(lái)評(píng)價(jià)屬性選擇算法性能,能兼顧到屬性選擇算法選擇子集上對(duì)應(yīng)分類(lèi)器的分類(lèi)精度,算法運(yùn)行時(shí)間和選擇屬性的數(shù)量。最后在115實(shí)際數(shù)據(jù)集和22個(gè)不同的屬性選擇算法上對(duì)該推薦方法進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果表明了該方法能夠快速有效地推薦合適的屬性選擇算法,推薦命中率高達(dá)90%以上。基于元學(xué)習(xí)的算法推薦方法根據(jù)元特征(即描述數(shù)據(jù)集的指標(biāo))抽取方法和元目標(biāo)(候選算法的相對(duì)性能)表現(xiàn)形式不同可分為不同類(lèi)別。已有推薦方法通常將元學(xué)習(xí)目標(biāo)看作單個(gè)算法(或單標(biāo)簽形式)或候選算法的排序,且基于算法排序的推薦方法推薦結(jié)果通常也是算法排序,并不能確定具體有幾個(gè)算法可用于推薦。然而從理論和實(shí)驗(yàn)角度分析均可得出,指定數(shù)據(jù)集上合適算法存在多個(gè),且隨著數(shù)據(jù)集不同合適算法數(shù)量不同,即元目標(biāo)看作多標(biāo)簽形式更加合理。因此本文將算法推薦看作多標(biāo)簽學(xué)習(xí)問(wèn)題并提出了一種基于多標(biāo)簽學(xué)習(xí)的屬性選擇算法推薦方法。最后,通過(guò)在115實(shí)際屬性選擇數(shù)據(jù)集,5種不同數(shù)據(jù)集特征提取方法和22個(gè)屬性選擇算法上進(jìn)行實(shí)驗(yàn),結(jié)果表明了基于多標(biāo)簽學(xué)習(xí)的推薦方法相比已有的基于算法排序和單標(biāo)簽的推薦方法能夠顯著提高不同數(shù)據(jù)特征上的平均推薦命中率。
[Abstract]:......
【學(xué)位授予單位】:西安交通大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP311.13

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 仲盛;多元選擇算法的改進(jìn)[J];微機(jī)發(fā)展;1996年06期

2 蔣宗禮,徐斌斌;網(wǎng)絡(luò)中同步源選擇算法研究[J];北京工業(yè)大學(xué)學(xué)報(bào);2005年04期

3 嚴(yán)文中;朱金山;薛榕;趙問(wèn)道;;無(wú)線(xiàn)小區(qū)固定中繼選擇算法及仿真[J];電聲技術(shù);2007年01期

4 何振華;裴廷睿;曾文麗;朱曉瑜;;面向用戶(hù)的異構(gòu)網(wǎng)接入選擇算法[J];計(jì)算機(jī)工程與應(yīng)用;2010年15期

5 解志斌;汪晉寬;王峗;高靜;;基于Householder-QR分解的低復(fù)雜度天線(xiàn)選擇算法[J];東北大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年09期

6 段俊毅;;基于頻移最小化的天線(xiàn)選擇算法[J];長(zhǎng)沙通信職業(yè)技術(shù)學(xué)院學(xué)報(bào);2012年03期

7 解志斌;劉淑娟;田雨波;顏培玉;;一種基于相異度的接收天線(xiàn)選擇算法[J];電波科學(xué)學(xué)報(bào);2012年01期

8 曹蔚;;基于用戶(hù)公平性的中繼選擇算法[J];中國(guó)科技信息;2011年20期

9 潘峰,丁云飛,汪為農(nóng);基于逐級(jí)反向選擇算法的入侵檢測(cè)[J];上海交通大學(xué)學(xué)報(bào);2005年04期

10 薛桂芹,汪晉寬,賈利琴;相關(guān)信道下多模式天線(xiàn)選擇算法的研究[J];儀器儀表學(xué)報(bào);2005年S2期

相關(guān)會(huì)議論文 前5條

1 王磊;鄭寶玉;賈國(guó)強(qiáng);;空間復(fù)用系統(tǒng)中一種新的天線(xiàn)選擇算法[A];2008年中國(guó)通信學(xué)會(huì)無(wú)線(xiàn)及移動(dòng)通信委員會(huì)學(xué)術(shù)年會(huì)論文集[C];2008年

2 薛桂芹;汪晉寬;賈利琴;;相關(guān)信道下多模式天線(xiàn)選擇算法的研究[A];第七屆青年學(xué)術(shù)會(huì)議論文集[C];2005年

3 蘇永哲;;分布式MIMO系統(tǒng)中一種新的快速天線(xiàn)選擇算法[A];2009年全國(guó)無(wú)線(xiàn)電應(yīng)用與管理學(xué)術(shù)會(huì)議論文集[C];2009年

4 王廣濤;宋擒豹;車(chē)蕊;;一種新的基于信息熵的屬性選擇算法[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年

5 譙驍;董秀成;唐海英;代顯志;;基于H.264的快速運(yùn)動(dòng)估計(jì)和幀間模式選擇算法[A];四川省電工技術(shù)學(xué)會(huì)第九屆學(xué)術(shù)年會(huì)論文集[C];2008年

相關(guān)博士學(xué)位論文 前3條

1 王廣濤;屬性子集選擇算法及其推薦方法研究[D];西安交通大學(xué);2017年

2 蘭鵬;MIMO系統(tǒng)下行鏈路天線(xiàn)與用戶(hù)選擇算法研究[D];山東大學(xué);2009年

3 解志斌;MIMO系統(tǒng)的優(yōu)化與天線(xiàn)選擇算法的研究[D];東北大學(xué);2009年

相關(guān)碩士學(xué)位論文 前10條

1 林毅松;MIMO系統(tǒng)中基于信道容量的收發(fā)聯(lián)合天線(xiàn)選擇算法的研究[D];華僑大學(xué);2015年

2 王順順;載波索引調(diào)制OFDM無(wú)線(xiàn)傳輸技術(shù)研究[D];電子科技大學(xué);2015年

3 楊存;多終端協(xié)同下的網(wǎng)絡(luò)選擇算法研究[D];南京郵電大學(xué);2015年

4 白琰;IEEE 802.11ad網(wǎng)絡(luò)中的中繼選擇算法研究[D];西安電子科技大學(xué);2015年

5 殷建鵬;支持QoS的異構(gòu)無(wú)線(xiàn)網(wǎng)絡(luò)接入選擇算法研究[D];華南理工大學(xué);2016年

6 唐昭;基于上下文感知的服務(wù)選擇算法的研究[D];北京郵電大學(xué);2011年

7 薛桂芹;多輸入多輸出系統(tǒng)中天線(xiàn)選擇算法的研究[D];東北大學(xué);2006年

8 孟華軍;Ad Hoc網(wǎng)絡(luò)模型下的邊不相交路徑選擇算法[D];大連海事大學(xué);2006年

9 張進(jìn);MPLS TE中路徑選擇算法的研究與應(yīng)用[D];西北工業(yè)大學(xué);2006年

10 楊賓;車(chē)聯(lián)網(wǎng)中繼選擇算法研究[D];重慶郵電大學(xué);2014年



本文編號(hào):1348314

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1348314.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)ab880***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com