基于鄰域粗糙集的主動學(xué)習(xí)方法
【圖文】:
別的密度均值,其中,sim(o,j)為2個樣本的相似度,這里考慮余弦相似度,設(shè)向量M=(M1,M2,…,Mn),N=(N1,N2,…,,Nn)sim(M,N)=Σn1(Mi×Ni)Σn1M2i醝×Σn1N2i醝(9)鄰域內(nèi)的無標(biāo)記樣本信息量原理如圖1所示,在有標(biāo)記樣本集中計算無標(biāo)記樣本A和B的信息量,在A的鄰域中,含有更多類別的樣本,所以無標(biāo)記樣本A的信息量大于B,樣本A更容易被選中。圖1鄰域內(nèi)的無標(biāo)記樣本信息量原理圖Fig.1Principleofcalculatingtheinformationquantityofthenonlabeledsamplesintheneighborhood2.1.4計算待標(biāo)記樣本的泛化量考慮樣本的泛化性能,也就是需要待標(biāo)記樣本處于訓(xùn)練集的低密度區(qū)域,并且處于無標(biāo)簽數(shù)據(jù)集的高密度區(qū)域。無標(biāo)簽樣本鄰域泛化性定義如下gene(x)=dens_u(x)p/dens_l(x)q(10)(10)式中:dens_1表示樣本在訓(xùn)練集中的鄰域密度;dens_u表示樣本在無標(biāo)簽數(shù)據(jù)集中的鄰域密度;q,p為權(quán)重。無標(biāo)記樣本在有標(biāo)記樣本鄰域和無標(biāo)記樣本鄰域計算泛化量原理如圖2所示,在所有樣本集中計算無標(biāo)記樣本A和B的泛化量,在A的鄰域中,A處于無標(biāo)記樣本集的高密度區(qū)域,有標(biāo)記樣本集的低密度區(qū)域,而B樣本處于有標(biāo)記樣本的高密度區(qū)域,所以,A的泛化量大于B,樣本A會更容易被選中。2.1.5計算待標(biāo)記樣本的重要性為了避免信息量和泛化量過大過小,所以考慮取p泛數(shù),省去了調(diào)參過程。imp(x)=(info(x)p+gene(x)p)1/p(11)將樣本按照重要性排序,取TopK添加到訓(xùn)練集,并從無標(biāo)簽樣本中刪除這部分樣本2.1.6基于鄰域樣本縮減解決采集野點的問題在無標(biāo)記樣本集中指定一個較小的鄰域半徑權(quán)重w,在預(yù)處理階段刪除鄰域內(nèi)的樣本即可,即可達(dá)到去除野點?
小?圖1鄰域內(nèi)的無標(biāo)記樣本信息量原理圖Fig.1Principleofcalculatingtheinformationquantityofthenonlabeledsamplesintheneighborhood2.1.4計算待標(biāo)記樣本的泛化量考慮樣本的泛化性能,也就是需要待標(biāo)記樣本處于訓(xùn)練集的低密度區(qū)域,并且處于無標(biāo)簽數(shù)據(jù)集的高密度區(qū)域。無標(biāo)簽樣本鄰域泛化性定義如下gene(x)=dens_u(x)p/dens_l(x)q(10)(10)式中:dens_1表示樣本在訓(xùn)練集中的鄰域密度;dens_u表示樣本在無標(biāo)簽數(shù)據(jù)集中的鄰域密度;q,p為權(quán)重。無標(biāo)記樣本在有標(biāo)記樣本鄰域和無標(biāo)記樣本鄰域計算泛化量原理如圖2所示,在所有樣本集中計算無標(biāo)記樣本A和B的泛化量,在A的鄰域中,A處于無標(biāo)記樣本集的高密度區(qū)域,有標(biāo)記樣本集的低密度區(qū)域,而B樣本處于有標(biāo)記樣本的高密度區(qū)域,所以,A的泛化量大于B,樣本A會更容易被選中。2.1.5計算待標(biāo)記樣本的重要性為了避免信息量和泛化量過大過小,所以考慮取p泛數(shù),省去了調(diào)參過程。imp(x)=(info(x)p+gene(x)p)1/p(11)將樣本按照重要性排序,取TopK添加到訓(xùn)練集,并從無標(biāo)簽樣本中刪除這部分樣本2.1.6基于鄰域樣本縮減解決采集野點的問題在無標(biāo)記樣本集中指定一個較小的鄰域半徑權(quán)重w,在預(yù)處理階段刪除鄰域內(nèi)的樣本即可,即可達(dá)到去除野點的目的。圖2無標(biāo)記樣本在有標(biāo)記樣本鄰域和無標(biāo)記樣本鄰域計算泛化量原理Fig.2Nonlabeledsamplesarecalculatedfromtheneighborhoodoflabeledsamplesandtheneighborhoodofunlabeledsamples2.2算法描述基于鄰域粗糙集的主動學(xué)習(xí)方法的具體步驟。1)根據(jù)指定參數(shù)劃分?jǐn)?shù)據(jù)集,輸入訓(xùn)練集占比,無標(biāo)簽樣本占比,剩余數(shù)據(jù)為測試集,算法如下。算法1數(shù)據(jù)集劃分算法輸入:全部數(shù)據(jù)集ASet,訓(xùn)練集比重t,無標(biāo)簽數(shù)據(jù)比重u。
【作者單位】: 重慶郵電大學(xué)計算智能重慶市重點實驗室;
【基金】:國家自然科學(xué)基金(61309014) 教育部人文社科規(guī)劃項目(15XJA630003) 重慶市教委科學(xué)技術(shù)研究項目(KJ1500416) 重慶市基礎(chǔ)與前沿研究計劃項目(cstc2013jcyj A40063)~~
【分類號】:TP181
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 周軍,張慶靈,陳文實;覆蓋粗糙集的一般化[J];東北大學(xué)學(xué)報;2004年10期
2 邱兆雷;范穎;王愛云;;粗糙集理論及進(jìn)展[J];信息技術(shù)與信息化;2006年05期
3 徐偉華;張文修;;覆蓋廣義粗糙集的模糊性[J];模糊系統(tǒng)與數(shù)學(xué);2006年06期
4 石杰;;粗糙集理論及其應(yīng)用研究[J];科技信息;2008年33期
5 唐彬;;粗糙集理論和應(yīng)用研究[J];內(nèi)江科技;2008年03期
6 胡軍;王國胤;;覆蓋粗糙集的模糊度[J];重慶郵電大學(xué)學(xué)報(自然科學(xué)版);2009年04期
7 燕紅文;康向平;張麗;;依賴空間與粗糙集理論[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2009年09期
8 林國平;;覆蓋廣義粗糙集與信任函數(shù)[J];漳州師范學(xué)院學(xué)報(自然科學(xué)版);2010年02期
9 王石平;祝峰;朱培勇;;基于抽象相關(guān)關(guān)系的粗糙集研究[J];南京大學(xué)學(xué)報(自然科學(xué)版);2010年05期
10 成新文;陳國超;李琦;;關(guān)于粗糙集的理論及應(yīng)用研究[J];煤炭技術(shù);2010年10期
相關(guān)會議論文 前10條
1 鄒剛;滕書華;孫即祥;陳森林;敖永紅;;一種粗糙集優(yōu)化協(xié)同原型模式約簡分類方法[A];第十四屆全國信號處理學(xué)術(shù)年會(CCSP-2009)論文集[C];2009年
2 葛麗;傅彥;;粗糙集在科學(xué)數(shù)據(jù)屬性約簡中的應(yīng)用[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
3 陳雪飛;;粗糙集分類中耦合數(shù)據(jù)的處理方法研究[A];2008年全國開放式分布與并行計算機(jī)學(xué)術(shù)會議論文集(上冊)[C];2008年
4 肖健梅;蘆曉明;王錫淮;;集裝箱起重機(jī)防搖系統(tǒng)粗糙集控制[A];第二十六屆中國控制會議論文集[C];2007年
5 王印松;馮康;;主汽溫調(diào)節(jié)系統(tǒng)性能評價的粗糙集實現(xiàn)方法[A];第二十七屆中國控制會議論文集[C];2008年
6 卓明;王麗珍;譚旭;;基于粗糙集近似集擴(kuò)展的規(guī)則提取算法[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2000年
7 董廣軍;張永生;戴晨光;范永弘;;基于粗糙集的多源信息融合處理技術(shù)[A];第三屆全國信息獲取與處理學(xué)術(shù)會議論文集[C];2005年
8 李雄;李勝利;徐宗昌;;基于粗糙集理論的狀態(tài)監(jiān)測與故障診斷(英文)[A];第三屆全國信息獲取與處理學(xué)術(shù)會議論文集[C];2005年
9 袁瑗;黃河清;;基于粗糙集輔助推理的故障診斷專家系統(tǒng)[A];全國自動化新技術(shù)學(xué)術(shù)交流會會議論文集(一)[C];2005年
10 孫亮;楊飛;于建均;陳梅蓮;;一種基于指數(shù)粗糙集合的變精度控制器應(yīng)用研究[A];第25屆中國控制會議論文集(下冊)[C];2006年
相關(guān)博士學(xué)位論文 前10條
1 馬希驁;概率粗糙集屬性約簡理論及方法研究[D];西南交通大學(xué);2014年
2 唐孝;基于粗糙集的知識發(fā)現(xiàn)方法及其在ECG信號識別中的應(yīng)用[D];電子科技大學(xué);2015年
3 曾凱;鄰域;植谟嬎愕年P(guān)鍵技術(shù)研究與應(yīng)用[D];電子科技大學(xué);2015年
4 王永生;基于粗糙集理論的動態(tài)數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究[D];北京科技大學(xué);2016年
5 馬周明;基于邊界域的多粒度粗糙集及其相關(guān)度量[D];河北師范大學(xué);2017年
6 孔芝;粗糙集理論若干問題的研究與應(yīng)用[D];東北大學(xué);2009年
7 秦中廣;基于粗糙集的交叉研究及其在中醫(yī)診斷的應(yīng)用[D];華南理工大學(xué);2002年
8 劉少輝;知識發(fā)現(xiàn)中粗糙集理論的研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2003年
9 鄧大勇;基于粗糙集的數(shù)據(jù)約簡及粗糙集擴(kuò)展模型的研究[D];北京交通大學(xué);2007年
10 孫英娟;基于粗糙集的分類方法研究[D];吉林大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 江飛;粗糙集神經(jīng)網(wǎng)絡(luò)故障診斷方法研究[D];西安石油大學(xué);2015年
2 張德齊;基于粗糙集理論的電機(jī)故障診斷方法研究[D];渤海大學(xué);2015年
3 聶萌瑤;基于泛系串并模型的粗糙集概念擴(kuò)展與拓?fù)淇臻g[D];蘭州大學(xué);2015年
4 孫宇航;粗糙集屬性約簡方法在醫(yī)療診斷中的應(yīng)用研究[D];蘇州大學(xué);2015年
5 車世遠(yuǎn);基于群搜索優(yōu)化粗糙集的腦科學(xué)數(shù)據(jù)研究[D];大連海事大學(xué);2015年
6 邊松珍;簡易覆蓋及基于覆蓋的粗傳播[D];山東大學(xué);2015年
7 張雷;基于粗糙集和SVM的體域網(wǎng)健康評估方法研究[D];浙江師范大學(xué);2015年
8 張寧;基于粗糙集的代價區(qū)間與多人三支決策的研究[D];浙江師范大學(xué);2015年
9 樊兵嬌;基于證據(jù)理論的知識發(fā)現(xiàn)與不確定性研究[D];重慶理工大學(xué);2015年
10 程鈺;基于粗糙集的屬性選擇系統(tǒng)的設(shè)計與實現(xiàn)[D];山西大學(xué);2015年
本文編號:2541595
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2541595.html