多標(biāo)記特征選擇及其類屬屬性獲取算法
發(fā)布時(shí)間:2021-04-11 21:27
近年來,大數(shù)據(jù)技術(shù)以及人工智能技術(shù)得到了高速的發(fā)展,同時(shí)也推動了多標(biāo)記學(xué)習(xí)的發(fā)展,多標(biāo)記學(xué)習(xí)逐漸被諸多學(xué)者和專家列入重點(diǎn)的研究課題并在這方面取得了非常不錯(cuò)的成績。其中,多標(biāo)記特征選擇也在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中得到了越來越多的關(guān)注,而且已經(jīng)提出了大量的算法來實(shí)現(xiàn)特征空間的降維,并成功地應(yīng)用于多種領(lǐng)域。多標(biāo)記特征選擇的目的就是實(shí)現(xiàn)特征降維,選擇具有高度鑒別能力的特征,來實(shí)現(xiàn)相關(guān)性最大化與冗余性最小化。與多標(biāo)記特征提取不同,特征選擇是從原始特征空間中選擇特征,不進(jìn)行任何變換,很好地保留了原始特征的物理意義,在可讀性和可解釋性方面,多標(biāo)記特征選擇算法已成為許多研究者關(guān)注的焦點(diǎn)。在多數(shù)特征選擇算法中主要利用信息熵等方法判斷相關(guān)性,利用條件概率判斷冗余性,這些方法不僅需要先驗(yàn)知識,而且計(jì)算較為復(fù)雜。并且進(jìn)行多標(biāo)記特征選擇時(shí),標(biāo)記具有其本身所獨(dú)有的屬性,這些獨(dú)有的屬性對于標(biāo)記具有很強(qiáng)的判別能力,因此,加強(qiáng)對類屬屬性的研究,可以更加高效地開展多標(biāo)記學(xué)習(xí),基于上述問題,本文提出了兩種特征選擇算法,主要內(nèi)容如下:(1)本文利用粗糙集隸屬度與肯德爾相關(guān)系數(shù)進(jìn)行特征選擇。粗糙集計(jì)算的特點(diǎn)就是不需要先驗(yàn)知識,對數(shù)...
【文章來源】:安慶師范大學(xué)安徽省
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
單標(biāo)記學(xué)習(xí)樣例
21.2國內(nèi)外研究現(xiàn)狀在傳統(tǒng)的單標(biāo)記學(xué)習(xí)過程中,我們所認(rèn)為的真實(shí)世界,它的每一個(gè)對象只存在一個(gè)類別標(biāo)記與之對應(yīng),例如圖1.1我們只把它標(biāo)記為“兔子”,沒有了其它標(biāo)記。但是我們知道在現(xiàn)實(shí)的世界中,每一個(gè)對象都具有很多種類別屬性,存在很多的類別標(biāo)記,即屬于多標(biāo)記的類別標(biāo)記。例如圖1.2,我們可以把圖片做出多個(gè)標(biāo)記,如“天空”,“海水”,“沙子”等。圖1.1單標(biāo)記學(xué)習(xí)樣例多標(biāo)記問題在我們的實(shí)際生活中也是非常常見的,例如在文本分類中,一篇文章可能被標(biāo)記為“地理”,“歷史”類文章;在風(fēng)景分類中,一張圖片可能被標(biāo)注為“鮮花”或“樹林”;在一篇“當(dāng)前政治會議對經(jīng)濟(jì)的影響”的新聞報(bào)道中,我們可以把這篇報(bào)道標(biāo)記為“政治”或“經(jīng)濟(jì)”新聞來表現(xiàn)出這兩方面的相關(guān)性等等。隨著我們時(shí)代的快速發(fā)展,我們生產(chǎn)生活所產(chǎn)生的數(shù)據(jù)也在不斷地增加,數(shù)據(jù)的復(fù)雜化使得傳統(tǒng)對象的語義變得不唯一,單一語義的單標(biāo)記學(xué)習(xí)完全不能滿足數(shù)據(jù)發(fā)展的要求。越來越多的國內(nèi)外學(xué)者開始廣泛關(guān)注于多標(biāo)記對象的多義性特點(diǎn)。在多標(biāo)記學(xué)習(xí)過程中,一個(gè)對象可以對應(yīng)多種解釋,我們就把這些多種解釋,標(biāo)注為合理的類別標(biāo)記,即標(biāo)記子集。作為一種學(xué)習(xí)建模工具,多標(biāo)記學(xué)習(xí)框架應(yīng)運(yùn)而生[9]。圖1.2多標(biāo)記學(xué)習(xí)樣例與單標(biāo)記不同,多標(biāo)記學(xué)習(xí)問題在我們的學(xué)習(xí)、生產(chǎn)、生活中有著非常多的應(yīng)用,在建立多義性對象學(xué)習(xí)模型方面扮演著非常重要的角色,F(xiàn)在在很多的領(lǐng)域多標(biāo)記都有著廣泛的應(yīng)用,比如在文本分類[10-11]、情感分析[12-13]、生物信息學(xué)[14]和圖像視頻自動標(biāo)注[15]等方面,其中最早出現(xiàn)于文檔分類中所遇見的歧義性問天空海水沙子兔子
9術(shù)的應(yīng)用與開發(fā),提高數(shù)據(jù)運(yùn)行的準(zhǔn)確性和運(yùn)行效率,來完善特征選擇方法,體現(xiàn)一定的應(yīng)用價(jià)值。在機(jī)器學(xué)習(xí)的相關(guān)領(lǐng)域中,特征數(shù)量一般會比較高,因此不相關(guān)的特征勢必會對特征產(chǎn)生不同程度的影響,不同的特征之間也會出現(xiàn)一定程度的依賴性,可能會產(chǎn)生一些不理想的后果,具體表述為:(1)特征個(gè)數(shù)與之前相比逐漸增加,導(dǎo)致特征的分析以及模型的訓(xùn)練時(shí)間不斷延長。(2)特征個(gè)數(shù)的不斷增加為“維度災(zāi)難”的產(chǎn)生提供了條件,導(dǎo)致模型逐漸趨向復(fù)雜化發(fā)展,對其推廣能力產(chǎn)生嚴(yán)重的影響?偟膩碇v,不同類型與屬性的新搜索算法為特征選擇算法的應(yīng)用與實(shí)踐提供了有力的支持與保障,再加上評估標(biāo)準(zhǔn)的不斷完善,推動了特征選擇算法的發(fā)展與進(jìn)步。特征選擇方法流程圖,(如圖2.1所示)。特征選擇方法大致可以分成三種不同類型:過濾式(filter)、包裹式(wrapper)和嵌入式(embedding)。圖2.1特征選擇一般流程2.3.1過濾式選擇(filter)過濾式方法的特征選擇過程中,(如圖2.2所示),需要基于數(shù)據(jù)集完成特征的正確選擇,再選擇合適的訓(xùn)練學(xué)習(xí)器。借助特征的有效選擇完成初試特征的快速“過濾”,以完成過濾處理后的特征為基礎(chǔ),對模型進(jìn)行訓(xùn)練。
【參考文獻(xiàn)】:
期刊論文
[1]基于標(biāo)記增強(qiáng)的多標(biāo)記代價(jià)敏感特征選擇算法[J]. 黃錦濤,錢文彬,王映龍. 小型微型計(jì)算機(jī)系統(tǒng). 2020(04)
[2]基于標(biāo)記相關(guān)性的多標(biāo)記三支分類算法[J]. 余鷹,吳新念,王樂為,張應(yīng)龍. 山東大學(xué)學(xué)報(bào)(理學(xué)版). 2020(03)
[3]不平衡訓(xùn)練數(shù)據(jù)下的基于深度學(xué)習(xí)的文本分類[J]. 陳志,郭武. 小型微型計(jì)算機(jī)系統(tǒng). 2020(01)
[4]基于專家特征的條件互信息多標(biāo)記特征選擇算法[J]. 程玉勝,宋帆,王一賓,錢坤. 計(jì)算機(jī)應(yīng)用. 2020(02)
[5]基于標(biāo)簽相關(guān)性的類屬屬性多標(biāo)簽分類算法[J]. 牟甲鵬,蔡劍,余孟池,徐建. 計(jì)算機(jī)應(yīng)用研究. 2020(09)
[6]多標(biāo)簽學(xué)習(xí)中基于互信息的快速特征選擇方法[J]. 徐洪峰,孫振強(qiáng). 計(jì)算機(jī)應(yīng)用. 2019(10)
[7]彈性網(wǎng)絡(luò)核極限學(xué)習(xí)機(jī)的多標(biāo)記學(xué)習(xí)算法[J]. 王一賓,裴根生,程玉勝. 智能系統(tǒng)學(xué)報(bào). 2019(04)
[8]文本分類TF-IDF算法的改進(jìn)研究[J]. 葉雪梅,毛雪岷,夏錦春,王波. 計(jì)算機(jī)工程與應(yīng)用. 2019(02)
[9]基于稀疏表示的視頻目標(biāo)跟蹤研究綜述[J]. 黃宏圖,畢篤彥,侯志強(qiáng),胡長城,高山,查宇飛,庫濤. 自動化學(xué)報(bào). 2018(10)
[10]基于粗糙集的數(shù)據(jù)流多標(biāo)記分布特征選擇[J]. 程玉勝,陳飛,王一賓. 計(jì)算機(jī)應(yīng)用. 2018(11)
本文編號:3131987
【文章來源】:安慶師范大學(xué)安徽省
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
單標(biāo)記學(xué)習(xí)樣例
21.2國內(nèi)外研究現(xiàn)狀在傳統(tǒng)的單標(biāo)記學(xué)習(xí)過程中,我們所認(rèn)為的真實(shí)世界,它的每一個(gè)對象只存在一個(gè)類別標(biāo)記與之對應(yīng),例如圖1.1我們只把它標(biāo)記為“兔子”,沒有了其它標(biāo)記。但是我們知道在現(xiàn)實(shí)的世界中,每一個(gè)對象都具有很多種類別屬性,存在很多的類別標(biāo)記,即屬于多標(biāo)記的類別標(biāo)記。例如圖1.2,我們可以把圖片做出多個(gè)標(biāo)記,如“天空”,“海水”,“沙子”等。圖1.1單標(biāo)記學(xué)習(xí)樣例多標(biāo)記問題在我們的實(shí)際生活中也是非常常見的,例如在文本分類中,一篇文章可能被標(biāo)記為“地理”,“歷史”類文章;在風(fēng)景分類中,一張圖片可能被標(biāo)注為“鮮花”或“樹林”;在一篇“當(dāng)前政治會議對經(jīng)濟(jì)的影響”的新聞報(bào)道中,我們可以把這篇報(bào)道標(biāo)記為“政治”或“經(jīng)濟(jì)”新聞來表現(xiàn)出這兩方面的相關(guān)性等等。隨著我們時(shí)代的快速發(fā)展,我們生產(chǎn)生活所產(chǎn)生的數(shù)據(jù)也在不斷地增加,數(shù)據(jù)的復(fù)雜化使得傳統(tǒng)對象的語義變得不唯一,單一語義的單標(biāo)記學(xué)習(xí)完全不能滿足數(shù)據(jù)發(fā)展的要求。越來越多的國內(nèi)外學(xué)者開始廣泛關(guān)注于多標(biāo)記對象的多義性特點(diǎn)。在多標(biāo)記學(xué)習(xí)過程中,一個(gè)對象可以對應(yīng)多種解釋,我們就把這些多種解釋,標(biāo)注為合理的類別標(biāo)記,即標(biāo)記子集。作為一種學(xué)習(xí)建模工具,多標(biāo)記學(xué)習(xí)框架應(yīng)運(yùn)而生[9]。圖1.2多標(biāo)記學(xué)習(xí)樣例與單標(biāo)記不同,多標(biāo)記學(xué)習(xí)問題在我們的學(xué)習(xí)、生產(chǎn)、生活中有著非常多的應(yīng)用,在建立多義性對象學(xué)習(xí)模型方面扮演著非常重要的角色,F(xiàn)在在很多的領(lǐng)域多標(biāo)記都有著廣泛的應(yīng)用,比如在文本分類[10-11]、情感分析[12-13]、生物信息學(xué)[14]和圖像視頻自動標(biāo)注[15]等方面,其中最早出現(xiàn)于文檔分類中所遇見的歧義性問天空海水沙子兔子
9術(shù)的應(yīng)用與開發(fā),提高數(shù)據(jù)運(yùn)行的準(zhǔn)確性和運(yùn)行效率,來完善特征選擇方法,體現(xiàn)一定的應(yīng)用價(jià)值。在機(jī)器學(xué)習(xí)的相關(guān)領(lǐng)域中,特征數(shù)量一般會比較高,因此不相關(guān)的特征勢必會對特征產(chǎn)生不同程度的影響,不同的特征之間也會出現(xiàn)一定程度的依賴性,可能會產(chǎn)生一些不理想的后果,具體表述為:(1)特征個(gè)數(shù)與之前相比逐漸增加,導(dǎo)致特征的分析以及模型的訓(xùn)練時(shí)間不斷延長。(2)特征個(gè)數(shù)的不斷增加為“維度災(zāi)難”的產(chǎn)生提供了條件,導(dǎo)致模型逐漸趨向復(fù)雜化發(fā)展,對其推廣能力產(chǎn)生嚴(yán)重的影響?偟膩碇v,不同類型與屬性的新搜索算法為特征選擇算法的應(yīng)用與實(shí)踐提供了有力的支持與保障,再加上評估標(biāo)準(zhǔn)的不斷完善,推動了特征選擇算法的發(fā)展與進(jìn)步。特征選擇方法流程圖,(如圖2.1所示)。特征選擇方法大致可以分成三種不同類型:過濾式(filter)、包裹式(wrapper)和嵌入式(embedding)。圖2.1特征選擇一般流程2.3.1過濾式選擇(filter)過濾式方法的特征選擇過程中,(如圖2.2所示),需要基于數(shù)據(jù)集完成特征的正確選擇,再選擇合適的訓(xùn)練學(xué)習(xí)器。借助特征的有效選擇完成初試特征的快速“過濾”,以完成過濾處理后的特征為基礎(chǔ),對模型進(jìn)行訓(xùn)練。
【參考文獻(xiàn)】:
期刊論文
[1]基于標(biāo)記增強(qiáng)的多標(biāo)記代價(jià)敏感特征選擇算法[J]. 黃錦濤,錢文彬,王映龍. 小型微型計(jì)算機(jī)系統(tǒng). 2020(04)
[2]基于標(biāo)記相關(guān)性的多標(biāo)記三支分類算法[J]. 余鷹,吳新念,王樂為,張應(yīng)龍. 山東大學(xué)學(xué)報(bào)(理學(xué)版). 2020(03)
[3]不平衡訓(xùn)練數(shù)據(jù)下的基于深度學(xué)習(xí)的文本分類[J]. 陳志,郭武. 小型微型計(jì)算機(jī)系統(tǒng). 2020(01)
[4]基于專家特征的條件互信息多標(biāo)記特征選擇算法[J]. 程玉勝,宋帆,王一賓,錢坤. 計(jì)算機(jī)應(yīng)用. 2020(02)
[5]基于標(biāo)簽相關(guān)性的類屬屬性多標(biāo)簽分類算法[J]. 牟甲鵬,蔡劍,余孟池,徐建. 計(jì)算機(jī)應(yīng)用研究. 2020(09)
[6]多標(biāo)簽學(xué)習(xí)中基于互信息的快速特征選擇方法[J]. 徐洪峰,孫振強(qiáng). 計(jì)算機(jī)應(yīng)用. 2019(10)
[7]彈性網(wǎng)絡(luò)核極限學(xué)習(xí)機(jī)的多標(biāo)記學(xué)習(xí)算法[J]. 王一賓,裴根生,程玉勝. 智能系統(tǒng)學(xué)報(bào). 2019(04)
[8]文本分類TF-IDF算法的改進(jìn)研究[J]. 葉雪梅,毛雪岷,夏錦春,王波. 計(jì)算機(jī)工程與應(yīng)用. 2019(02)
[9]基于稀疏表示的視頻目標(biāo)跟蹤研究綜述[J]. 黃宏圖,畢篤彥,侯志強(qiáng),胡長城,高山,查宇飛,庫濤. 自動化學(xué)報(bào). 2018(10)
[10]基于粗糙集的數(shù)據(jù)流多標(biāo)記分布特征選擇[J]. 程玉勝,陳飛,王一賓. 計(jì)算機(jī)應(yīng)用. 2018(11)
本文編號:3131987
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3131987.html
最近更新
教材專著