天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于KNN的多標(biāo)簽分類算法研究

發(fā)布時(shí)間:2019-08-14 11:51
【摘要】:分類是將給定的數(shù)據(jù)劃分到預(yù)定義的數(shù)據(jù)類中的過程,在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中是非常重要的一個(gè)學(xué)科分支并有著廣泛的應(yīng)用和研究。根據(jù)數(shù)據(jù)屬于單個(gè)類還是多個(gè)類,分類分為單標(biāo)簽分類和多標(biāo)簽分類,由于多標(biāo)簽?zāi)芨诱鎸?shí)的表達(dá)現(xiàn)實(shí)世界中的存在,其應(yīng)用相對(duì)單標(biāo)簽而言更加廣泛。目前多標(biāo)簽分類比較多的應(yīng)用在文本分類,生物信息分類,場(chǎng)景分類,圖像自動(dòng)標(biāo)注,視頻剪輯等眾多領(lǐng)域。雖然多標(biāo)簽應(yīng)用廣泛,但由于多標(biāo)簽內(nèi)在的復(fù)雜性即標(biāo)簽之間存在相關(guān)性和多標(biāo)簽數(shù)據(jù)表達(dá)的復(fù)雜性以及輸出空間的指數(shù)性,仍然需要對(duì)現(xiàn)有的理論和算法有進(jìn)一步的研究和整合,以使多標(biāo)簽分類算法有進(jìn)一步的改善。1、相關(guān)理論分析。首先簡(jiǎn)要介紹了單標(biāo)簽的相關(guān)理論;然后對(duì)多標(biāo)簽分類的相關(guān)理論和方法進(jìn)行了詳盡的闡述和分析。2、基于MLKNN(Multi-Label K-Nearest Neighbor,多標(biāo)簽k鄰近算法)。KNN(K-Nearest Neighbor,k鄰近)算法是一種簡(jiǎn)單但高效的聚類算法,有著廣泛的應(yīng)用,在多標(biāo)簽分類中也得到了一定程度的應(yīng)用。在分析多標(biāo)簽分類算法MLKNN存在缺陷和不足的基礎(chǔ)上,本文提出一種改進(jìn)的MLKNN算法。對(duì)于每一個(gè)輸入數(shù)據(jù),利用KNN算法得出輸入數(shù)據(jù)的k鄰域進(jìn)而求得每個(gè)數(shù)據(jù)中每個(gè)標(biāo)簽的先驗(yàn)概率和后驗(yàn)概率,然后得出每一個(gè)標(biāo)簽在數(shù)據(jù)中的最大概率。將每個(gè)數(shù)據(jù)的各個(gè)標(biāo)簽概率放到數(shù)據(jù)的特征向量中并以此來表示局部的標(biāo)簽相關(guān)性,再用帶有標(biāo)簽概率的數(shù)據(jù)特征訓(xùn)練分類模型。對(duì)比實(shí)驗(yàn)結(jié)果驗(yàn)證了所提算法具有較好的多標(biāo)簽分類效果。3、多實(shí)例數(shù)據(jù)表示分類方法。現(xiàn)存的很多分類方法都只是將數(shù)據(jù)樣本表示為一個(gè)實(shí)例訓(xùn)練分類模型進(jìn)而得出未分類數(shù)據(jù)的標(biāo)簽,沒有利用數(shù)據(jù)本身所包含的豐富的信息,鑒于此在KNN的框架下,本文提出一種基于多實(shí)例數(shù)據(jù)表示的多標(biāo)簽分類方法。該算法首先對(duì)于每一個(gè)輸入數(shù)據(jù),利用KNN算法得到該輸入數(shù)據(jù)的k鄰域,對(duì)于每一個(gè)標(biāo)簽,k鄰域中包含該標(biāo)簽的所有數(shù)據(jù)的算術(shù)平均值作為對(duì)應(yīng)標(biāo)簽的原型向量。將輸入數(shù)據(jù)與該數(shù)據(jù)對(duì)應(yīng)的每一個(gè)原型向量的差值作為對(duì)應(yīng)標(biāo)簽的實(shí)例,這樣原始數(shù)據(jù)將有多個(gè)實(shí)例表示,從而得到新的訓(xùn)練集數(shù)據(jù)。用新的訓(xùn)練集數(shù)據(jù)訓(xùn)練分類模型。對(duì)比實(shí)驗(yàn)結(jié)果證明了所提算法的有效性。
【圖文】:

標(biāo)簽,圖像分類,相關(guān)性


互影響;在文本分類中,一篇關(guān)于‘貿(mào)易’的文章不太可能與‘娛樂’標(biāo)簽有關(guān);對(duì)于音樂分類來說,,一首屬于‘勵(lì)志’的歌曲就不太可能包含‘消極’因素;在圖像自動(dòng)標(biāo)注中,對(duì)于圖2.1中的兩幅圖,兩者在顏色上是相似的,僅憑顏色是很難正確預(yù)測(cè)‘fish’和‘ocean’這兩個(gè)標(biāo)簽。但是,若圖2.1(a)有‘fish’這個(gè)標(biāo)簽的話,那么它同時(shí)包含‘ocean’標(biāo)簽的概率就很高。同樣對(duì)于圖2.1(b),若該圖含有標(biāo)簽‘grass’,那么該圖含有標(biāo)簽‘sky’的概率就很高。(a) ‘fish’‘ocean’‘blue’ (b) ‘sky’‘grass’‘blue’圖2.1 標(biāo)簽相關(guān)性在圖像分類中的作用標(biāo)簽相關(guān)性按照作用范圍可以劃分為全局相關(guān)性和局部相關(guān)性。全局相關(guān)性是指標(biāo)簽之間的相關(guān)性為所有數(shù)據(jù)共享。這種標(biāo)簽相關(guān)性在特定條件下是有用的,比如在圖像標(biāo)注領(lǐng)域,如果圖像主要是關(guān)于海洋的如圖2.1(a),這時(shí)標(biāo)簽‘fish’和‘ocean’之間的相關(guān)性可以為所有數(shù)據(jù)共享;在文本分類中,若文本都是關(guān)于國(guó)際商業(yè)的,那么‘國(guó)際貿(mào)易’和‘匯率’之間的相關(guān)性就可以為所有文本共享。但在現(xiàn)實(shí)中

分類結(jié)構(gòu),聚類,訓(xùn)練集,中心算法


ly 。圖4.1 兩層分類結(jié)構(gòu)首先,把每一個(gè)包看成是一個(gè)原子,使用 k -中心算法將訓(xùn)練集聚類為沒有交集的M個(gè)分組。這里使用豪斯多夫距離(Hausdorff distance) 來測(cè)量?jī)蓚(gè)包之間的距離。具體來說是給定兩個(gè)包 和1 2 1{ , ,..., }nA a a a1 2,2{ , ..., }nB b b bmaxmin ,max a ba b,兩個(gè)包的豪斯多夫距離定義為:H ( A, B ) max{ min }(4.3)A B B A b a b a a b 測(cè)量?jī)蓚(gè)實(shí)例之間的距離,這里使用歐幾里得距離。聚類處理后,訓(xùn)練集被分為M 個(gè)分組,每個(gè)分組的中心是jC ,定義為:argmin ( , )jjjA GB GC H A B(4.4)因?yàn)榫垲惸軒椭l(fā)現(xiàn)數(shù)據(jù)集潛在的結(jié)構(gòu),每一個(gè)分組的中心相當(dāng)于對(duì)不同實(shí)例包的分布信息進(jìn)行了編碼。使用這些包的中心
【學(xué)位授予單位】:江西理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP311.13;TP181

【參考文獻(xiàn)】

相關(guān)期刊論文 前4條

1 王莉莉;付忠良;;基于標(biāo)簽相關(guān)性的多標(biāo)簽分類AdaBoost算法[J];四川大學(xué)學(xué)報(bào)(工程科學(xué)版);2016年05期

2 劉端陽;邱衛(wèi)杰;;基于加權(quán)SVM主動(dòng)學(xué)習(xí)的多標(biāo)簽分類[J];計(jì)算機(jī)工程;2011年08期

3 劉端陽;邱衛(wèi)杰;;基于SVM期望間隔的多標(biāo)簽分類的主動(dòng)學(xué)習(xí)[J];計(jì)算機(jī)科學(xué);2011年04期

4 鄭東飛;石冰;;文本分類的歸納學(xué)習(xí)算法和描述[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年04期



本文編號(hào):2526556

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2526556.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d2873***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com