基于Spark的多標簽超網(wǎng)絡(luò)集成學(xué)習(xí)
本文選題:多標簽學(xué)習(xí) + 超網(wǎng)絡(luò); 參考:《智能系統(tǒng)學(xué)報》2017年05期
【摘要】:近年來,多標簽學(xué)習(xí)在圖像識別和文本分類等多個領(lǐng)域得到了廣泛關(guān)注,具有越來越重要的潛在應(yīng)用價值。盡管多標簽學(xué)習(xí)的發(fā)展日新月異,但仍然存在兩個主要挑戰(zhàn),即如何利用標簽間的相關(guān)性以及如何處理大規(guī)模的多標簽數(shù)據(jù)。針對上述問題,基于MLHN算法,提出一種能有效利用標簽相關(guān)性且能處理大數(shù)據(jù)集的基于Spark的多標簽超網(wǎng)絡(luò)集成算法SEI-MLHN。該算法首先引入代價敏感,使其適應(yīng)不平衡數(shù)據(jù)集。其次,改良了超網(wǎng)絡(luò)演化學(xué)習(xí)過程,并優(yōu)化了損失函數(shù),降低了算法時間復(fù)雜度。最后,進行了選擇性集成,使其適應(yīng)大規(guī)模數(shù)據(jù)集。在11個不同規(guī)模的數(shù)據(jù)集上進行實驗,結(jié)果表明,該算法具有較好的分類性能,較低的時間復(fù)雜度且具備良好的處理大規(guī)模數(shù)據(jù)集的能力。
[Abstract]:In recent years, multi-label learning has received extensive attention in many fields, such as image recognition and text classification, and has more and more important potential application value. Despite the rapid development of multi-label learning, there are still two main challenges: how to use the correlation between tags and how to deal with large-scale multi-label data. In order to solve the above problems, based on the MLHN algorithm, a multi-label super-network integration algorithm based on Spark is proposed, which can effectively utilize tag correlation and process big data sets. This algorithm first introduces cost sensitivity to adapt to unbalanced data sets. Secondly, the evolutionary learning process of supernetwork is improved, and the loss function is optimized to reduce the time complexity of the algorithm. Finally, selective integration is carried out to adapt to large scale data sets. Experiments on 11 data sets of different sizes show that the algorithm has good classification performance, low time complexity and good ability to deal with large data sets.
【作者單位】: 重慶郵電大學(xué)軟件工程學(xué)院;重慶郵電大學(xué)計算智能重慶市重點實驗室;
【基金】:重慶市基礎(chǔ)與前沿研究計劃項目(cstc2014jcyj A40001,cstc2014jcyj A40022) 重慶教委科學(xué)技術(shù)研究項目(自然科學(xué)類)(KJ1400436)
【分類號】:TP181
【相似文獻】
相關(guān)期刊論文 前10條
1 張曉斌;魏永祥;韓德民;夏寅;李希平;原林;唐雷;王興海;;數(shù)字化耳鼻咽喉數(shù)據(jù)集的采集[J];中華耳鼻咽喉頭頸外科雜志;2005年06期
2 職為梅;郭華平;范明;葉陽東;;非平衡數(shù)據(jù)集分類方法探討[J];計算機科學(xué);2012年S1期
3 韓慧;王路;溫明;王文淵;;不均衡數(shù)據(jù)集學(xué)習(xí)中基于初分類的過抽樣算法[J];計算機應(yīng)用;2006年08期
4 高嘉偉;梁吉業(yè);;非平衡數(shù)據(jù)集分類問題研究進展[J];計算機科學(xué);2008年04期
5 吳克壽;曾志強;;非平衡數(shù)據(jù)集分類研究[J];計算機技術(shù)與發(fā)展;2011年09期
6 顏杰,李彩霞,曾芳芳,方積乾;如何控制SAS結(jié)果的輸出[J];中國衛(wèi)生統(tǒng)計;2004年02期
7 王雙成;冷翠平;李小琳;;小數(shù)據(jù)集的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)[J];自動化學(xué)報;2009年08期
8 李鵬;王曉龍;劉遠超;王寶勛;;一種基于混合策略的失衡數(shù)據(jù)集分類方法[J];電子學(xué)報;2007年11期
9 王燦偉;于治樓;張化祥;;一種適合不平衡數(shù)據(jù)集的新型提升算法[J];計算機工程與應(yīng)用;2011年28期
10 蔡娜;王俊英;劉惟一;;一種基于小數(shù)據(jù)集的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)方法[J];云南大學(xué)學(xué)報(自然科學(xué)版);2007年04期
相關(guān)博士學(xué)位論文 前3條
1 嚴遠亭;不完整數(shù)據(jù)集的多視角集成分類研究[D];安徽大學(xué);2016年
2 史熒中;耦合的支持向量學(xué)習(xí)方法及應(yīng)用研究[D];江南大學(xué);2016年
3 雒曉卓;基于聯(lián)合稀疏和局部線性的極限學(xué)習(xí)機及應(yīng)用[D];西安電子科技大學(xué);2015年
相關(guān)碩士學(xué)位論文 前10條
1 皮興杰;基于Spark的電網(wǎng)大數(shù)據(jù)統(tǒng)計中等值連接問題的優(yōu)化及其應(yīng)用[D];重慶大學(xué);2016年
2 袁銘;基于R-SMOTE方法的非平衡數(shù)據(jù)分類研究[D];河北大學(xué);2015年
3 程偉;基于半監(jiān)督SVM的非平衡學(xué)習(xí)[D];西安電子科技大學(xué);2014年
4 馬蕊;基于觸覺序列的物體分類方法[D];石家莊鐵道大學(xué);2015年
5 閆欣;綜合過采樣和欠采樣的不平衡數(shù)據(jù)集的學(xué)習(xí)研究[D];東北電力大學(xué);2016年
6 朱政;V-支持向量分類機中若干問題的研究[D];華東師范大學(xué);2016年
7 蔣偉;基于特征的軌跡數(shù)據(jù)集化簡研究[D];蘇州大學(xué);2016年
8 徐麗麗;面向不平衡數(shù)據(jù)集的分類算法研究[D];遼寧師范大學(xué);2016年
9 王聰;基于深度學(xué)習(xí)的交通標志檢測算法研究[D];北方工業(yè)大學(xué);2017年
10 張貝貝;基于類別失衡數(shù)據(jù)集的改進支持向量機模型的研究[D];安徽理工大學(xué);2017年
,本文編號:1881637
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1881637.html