天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于主題模型的多標(biāo)簽學(xué)習(xí)問(wèn)題研究

發(fā)布時(shí)間:2020-10-31 19:27
   在現(xiàn)實(shí)世界中,很多時(shí)候一個(gè)事物可以同時(shí)和一組標(biāo)簽相關(guān)聯(lián),這種情況可以被建模為多標(biāo)簽學(xué)習(xí)。多標(biāo)簽學(xué)習(xí)是指一個(gè)實(shí)例可以同時(shí)關(guān)聯(lián)多個(gè)標(biāo)簽而不是單個(gè)標(biāo)簽。近些年多標(biāo)簽學(xué)習(xí)在越來(lái)越多的應(yīng)用場(chǎng)景中被廣泛運(yùn)用,包括文本分類、圖像領(lǐng)域、生物信息學(xué)、web挖掘等領(lǐng)域。多標(biāo)簽學(xué)習(xí)由于其數(shù)據(jù)集的特殊性,還面臨著很多困難和挑戰(zhàn)。其中一個(gè)最常見(jiàn)的問(wèn)題是潛在可能的輸出標(biāo)簽空間的巨大規(guī)模。為了緩解這個(gè)問(wèn)題,一些方法選擇利用標(biāo)簽相關(guān)性來(lái)減少預(yù)測(cè)過(guò)程中的輸出空間。然而,如何挖掘標(biāo)簽相關(guān)性是一個(gè)很大的問(wèn)題。此外,標(biāo)簽不平衡是多標(biāo)簽分類中普遍存在的另一個(gè)問(wèn)題,當(dāng)前的不平衡校正方法經(jīng)常直接使用單標(biāo)簽方法,不能考慮標(biāo)簽相關(guān)性。針對(duì)多標(biāo)簽學(xué)習(xí)的相關(guān)問(wèn)題和挑戰(zhàn),本文的主要工作有:1.針對(duì)標(biāo)簽之間關(guān)聯(lián)性,提出了基于主題模型的多標(biāo)簽學(xué)習(xí)算法MLLT。首先本文利用主題模型去挖掘標(biāo)簽和標(biāo)簽集中隱含的標(biāo)簽主題,從而進(jìn)一步的利用標(biāo)簽主題作為額外的標(biāo)簽之間關(guān)聯(lián)信息,將其引入學(xué)習(xí)過(guò)程中,使其成為新的特征,構(gòu)成新的多標(biāo)簽訓(xùn)練集。最終在得到一部分從標(biāo)簽主題得到的關(guān)聯(lián)信息后,本文借助了BR算法的思想,直接將多標(biāo)簽學(xué)習(xí)拆分為多個(gè)單標(biāo)簽學(xué)習(xí)過(guò)程進(jìn)行學(xué)習(xí)。且不難發(fā)現(xiàn),該算法的時(shí)間復(fù)雜度很低,基本是接近BR算法的。實(shí)驗(yàn)表明,該算法在多個(gè)不同規(guī)模不同領(lǐng)域的標(biāo)準(zhǔn)數(shù)據(jù)集上,均取得了不弱于目前先進(jìn)算法的效果,而從算法效率來(lái)說(shuō),它和算法BR接近,大大優(yōu)于現(xiàn)在主流的多標(biāo)簽學(xué)習(xí)算法。2.基于算法MLLT,本文進(jìn)一步提出了相應(yīng)的擴(kuò)展和改進(jìn),使其可以更加靈活,準(zhǔn)確,且使用范圍更加廣泛。首先,考慮到多標(biāo)簽學(xué)習(xí)算法MLLT是通過(guò)標(biāo)簽主題來(lái)引入一部分標(biāo)簽關(guān)聯(lián)信息,本質(zhì)上其實(shí)是對(duì)多標(biāo)簽數(shù)據(jù)集的改造。本文將任意現(xiàn)有的先進(jìn)的多標(biāo)簽學(xué)習(xí)算法作為基分類器引入,這樣一來(lái)多標(biāo)簽學(xué)習(xí)算法MLLT就被擴(kuò)展為一個(gè)多標(biāo)簽學(xué)習(xí)框架MLLTM,該框架可以適用于絕大多數(shù)已有的多標(biāo)簽算法,可以在原有算法性能的基礎(chǔ)上得到額外的提升和突破,同時(shí)算法的時(shí)間效率和原算法接近。接著,本文具體討論了標(biāo)簽主題個(gè)數(shù)的選取策略,本文采用一個(gè)遞增的主題個(gè)數(shù)序列來(lái)取代固定的主題個(gè)數(shù),從最小值開(kāi)始依次選取作為標(biāo)簽主題個(gè)數(shù),依次將預(yù)測(cè)得到的主題加入到特征中為更大值的標(biāo)簽個(gè)數(shù)的預(yù)測(cè)提供額外信息,這樣一來(lái)前面預(yù)測(cè)的標(biāo)簽主題就可以為后面待預(yù)測(cè)的標(biāo)簽主題提供額外信息,從而提升準(zhǔn)確率。迭代的重復(fù)上述過(guò)程直至序列終止,以最終生成的數(shù)據(jù)集去預(yù)測(cè)標(biāo)簽,從而使得算法可以隨著序列的增長(zhǎng)性能得到穩(wěn)定的提升,同時(shí)所花費(fèi)的時(shí)間復(fù)雜度也和原算法基本接近。最后,本文針對(duì)在包含過(guò)多單類別樣本的多標(biāo)簽數(shù)據(jù)集上很難挖掘標(biāo)簽關(guān)系這一問(wèn)題,我們進(jìn)一步擴(kuò)展框架,構(gòu)建一個(gè)二元分類器的訓(xùn)練集,將是否為多標(biāo)簽樣本作為類標(biāo),以此分類器作為一個(gè)前置處理。實(shí)驗(yàn)表明,通過(guò)該策略改進(jìn)和優(yōu)化框架,使得對(duì)單標(biāo)簽樣本過(guò)多的數(shù)據(jù)集上效果不好的問(wèn)題得以很好的解決,也使得框架具有更好的完備性和普適性,同時(shí)所花費(fèi)的時(shí)間復(fù)雜度也和原算法基本接近。3.針對(duì)多標(biāo)簽類別不均衡的問(wèn)題,傳統(tǒng)的多標(biāo)簽類別不均衡的處理策略往往伴隨著犧牲了標(biāo)簽關(guān)系信息,所以本文希望在前文工作的基礎(chǔ)上針對(duì)類標(biāo)不均衡問(wèn)題進(jìn)一步擴(kuò)展算法框架,從而兼具考慮標(biāo)簽相關(guān)性的發(fā)掘和類別不平衡的處理。本文提出了一種面向多標(biāo)簽不均衡問(wèn)題的算法框架MLLTC-IMB。我們針對(duì)每一個(gè)標(biāo)簽,將其與每一個(gè)主題構(gòu)建一個(gè)多類分類器,去評(píng)估每一個(gè)標(biāo)簽和每一個(gè)標(biāo)簽主題的共生關(guān)系。最終再以MLLT框架的結(jié)果和多個(gè)多類分類器的結(jié)果集成得到最終結(jié)果,計(jì)算合適的閾值,得到最終的分類模型。這樣一來(lái),該方法同時(shí)兼顧了標(biāo)簽的關(guān)聯(lián)性和類別不均衡問(wèn)題。實(shí)驗(yàn)表明,該框架一方面可以在原有的基礎(chǔ)上繼續(xù)提高性能,同時(shí)非常擅長(zhǎng)處理多標(biāo)簽的類別不均衡的情況。唯一的弱點(diǎn)在于由于額外訓(xùn)練了多個(gè)多類分類器,使得時(shí)間的成本有所提升。4.以實(shí)際的中醫(yī)帕金森診療的應(yīng)用場(chǎng)景為例,將中醫(yī)量表診斷帕金森這一問(wèn)題抽象出來(lái),建模成一個(gè)多類標(biāo)問(wèn)題,并構(gòu)建相應(yīng)的多標(biāo)簽數(shù)據(jù)集。分析數(shù)據(jù)集特點(diǎn),發(fā)現(xiàn)數(shù)據(jù)集中單標(biāo)簽樣本比例過(guò)高,且有著嚴(yán)重的類別不均衡問(wèn)題,符合本文的研究場(chǎng)景。通過(guò)實(shí)驗(yàn)分別對(duì)比了傳統(tǒng)多標(biāo)簽算法,框架MLLTC,框架MLLTCS以及框架MLLTC-IMB上的結(jié)果。實(shí)驗(yàn)證明,本文提出的框架在處理多標(biāo)簽問(wèn)題的標(biāo)簽關(guān)聯(lián)性,單類別樣本過(guò)多以及類別不均衡問(wèn)題上都有著很好的應(yīng)對(duì)模式,最終取得了具有突破性的結(jié)果。同時(shí),利用本文提出的框架建立了帕金森量表診療的分類模型,從而為醫(yī)生在診斷過(guò)程中提供一個(gè)標(biāo)準(zhǔn)化的參考和輔助,同時(shí)在挖掘的過(guò)程中得到的一些潛在可解釋規(guī)律可以由醫(yī)生做進(jìn)一步的研究和分析。
【學(xué)位單位】:南京大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位年份】:2018
【中圖分類】:TP181
【部分圖文】:

圖像,標(biāo)簽,分類器,實(shí)例


因可能包含多個(gè)功能等等。為了解釋現(xiàn)實(shí)世界的這些多語(yǔ)義的對(duì)象,最直觀的??解決方案就是用一組標(biāo)簽代替單個(gè)標(biāo)簽來(lái)與實(shí)例對(duì)象關(guān)聯(lián),來(lái)顯式的表達(dá)其語(yǔ)??義。如圖1.1所示,該圖像上就同時(shí)包含了大海,海灘,鳥(niǎo),樹(shù)等標(biāo)簽。這樣一??來(lái),多標(biāo)簽學(xué)習(xí)框架作為這類問(wèn)題的處理框架自然而然的出現(xiàn)。在此給出多標(biāo)??簽學(xué)習(xí)的形式化定義。??曬,,'墨??,.:.??\?i??圖1.1:多標(biāo)簽圖像??假設(shè);f?=艫表示實(shí)例的d維特征向量輸入空間,y?=?{也仍,...,%}表示實(shí)??例的g維標(biāo)簽輸出空間。于是多標(biāo)簽學(xué)習(xí)的訓(xùn)練集可被定義為{(而,%)丨1?<??i?<?iv丨,其中而e?y是實(shí)例的d維特征向量,x?g?;y是實(shí)例而所對(duì)應(yīng)的標(biāo)簽??集。這樣一來(lái)多標(biāo)簽學(xué)習(xí)任務(wù)其實(shí)就可以轉(zhuǎn)化為從訓(xùn)練集中尋找一個(gè)合適的??分類器&?:1?使得可以通過(guò)該分類器從特征向量的輸入空間映射到標(biāo)??簽集的輸出空間。當(dāng)遇到未知標(biāo)簽的實(shí)例z時(shí),可以通過(guò)該分類器預(yù)測(cè)其標(biāo)簽??集簡(jiǎn)單的說(shuō)

關(guān)系圖,結(jié)構(gòu)關(guān)系,主要工作,論文


?第一章緒論???行中醫(yī)帕金森的診療。??第七章是總結(jié)與展望,主要對(duì)本文工作進(jìn)行了總結(jié),并對(duì)下一步工作進(jìn)行??了展望。??在本文中,一二章主要交代了背景知識(shí),第三章利用主題模型的思想提出??了一種具體的多標(biāo)簽學(xué)習(xí)算法,第四章在第三章的基礎(chǔ)上將該算法泛化成一個(gè)??普適的多標(biāo)簽學(xué)習(xí)優(yōu)化框架,第五章針對(duì)多標(biāo)簽不均衡的問(wèn)題進(jìn)一步擴(kuò)展框架,??第六章則是針對(duì)實(shí)際的中醫(yī)診療帕金森的應(yīng)用場(chǎng)景進(jìn)行建模,發(fā)現(xiàn)該應(yīng)用場(chǎng)景??下的數(shù)據(jù)情況完全符合三四五章算法框架所針對(duì)的問(wèn)題,在此基礎(chǔ)上運(yùn)用本文??的算法框架對(duì)此實(shí)際應(yīng)用進(jìn)行很好的解決。具體論文主要工作與組織關(guān)系圖??如1.2所示。??

算法評(píng)價(jià),指標(biāo),標(biāo)簽集


一個(gè)樣本實(shí)例的結(jié)果,最終給出所有樣本的綜合結(jié)果,如均值等等。而基于標(biāo)??簽的指標(biāo)則是通過(guò)獨(dú)立的評(píng)估每一個(gè)標(biāo)簽的結(jié)果,最終返回的是所有標(biāo)簽結(jié)果??的綜合值,如mirco/macro均值等,具體分類如圖2.1。下面來(lái)具體介紹每個(gè)指標(biāo)??的定義。??1.基于實(shí)例的指標(biāo)??Subset?Accuracy:多標(biāo)簽學(xué)習(xí)中最嚴(yán)格的指標(biāo),統(tǒng)計(jì)測(cè)試集中預(yù)測(cè)結(jié)果集和??測(cè)試樣本的實(shí)際標(biāo)簽集完全一致的樣本所占比例。不難想象,當(dāng)標(biāo)簽空間??很大的時(shí)候,想要做到預(yù)測(cè)結(jié)果和實(shí)際標(biāo)簽集一致是非常困難的事情,所??11??
【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 朱昌俊;;“二等座院士”身上的職業(yè)精神[J];作文與考試;2017年26期

2 李艷;賈君枝;;輕型標(biāo)簽本體與受控詞表的結(jié)合研究[J];數(shù)字圖書(shū)館論壇;2014年08期

3 包佳佳;田偉;;大規(guī)模圖上標(biāo)簽集約束路徑的集合查詢[J];計(jì)算機(jī)科學(xué);2013年04期

4 吳金成;曹嬌;趙文棟;張磊;;標(biāo)簽集中式發(fā)布訂閱機(jī)制性能分析[J];指揮控制與仿真;2010年06期

5 吳小蘭;章成志;;結(jié)合用戶關(guān)系網(wǎng)和標(biāo)簽共現(xiàn)網(wǎng)的微博用戶標(biāo)簽推薦研究[J];情報(bào)學(xué)報(bào);2015年05期

6 李松麗;曹平;姜盼;;國(guó)際標(biāo)準(zhǔn)化組織的標(biāo)準(zhǔn)標(biāo)簽集研究分析[J];航空標(biāo)準(zhǔn)化與質(zhì)量;2018年02期

7 喬亞琴;馬盈倉(cāng);張毅斌;楊小飛;;標(biāo)簽相關(guān)的多標(biāo)簽分類算法[J];紡織高;A(chǔ)科學(xué)學(xué)報(bào);2017年04期

8 田楓;沈旭昆;;基于標(biāo)簽集相關(guān)性學(xué)習(xí)的大規(guī)模網(wǎng)絡(luò)圖像在線標(biāo)注[J];自動(dòng)化學(xué)報(bào);2014年08期

9 鄭海雁;王遠(yuǎn)方;熊政;李昆明;崇志宏;尹飛;;標(biāo)簽集約束近似頻繁模式的并行挖掘[J];計(jì)算機(jī)工程與應(yīng)用;2015年09期

10 包靖玲;霍永豐;顧佳;韓靜;李君;袁慶;李敬文;沈錫賓;;美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館期刊文檔標(biāo)簽集概述[J];中國(guó)科技期刊研究;2013年04期


相關(guān)博士學(xué)位論文 前3條

1 彭岳;基于主題模型的多標(biāo)簽學(xué)習(xí)問(wèn)題研究[D];南京大學(xué);2018年

2 黃媛;面向服務(wù)的社會(huì)化標(biāo)注方法研究[D];武漢大學(xué);2013年

3 杜卿;面向個(gè)性化服務(wù)的User Profile研究及應(yīng)用[D];華南理工大學(xué);2014年


相關(guān)碩士學(xué)位論文 前10條

1 聶藤;一種基于子空間分解和判別分析的多標(biāo)簽分類算法[D];華中科技大學(xué);2016年

2 賀釋千;標(biāo)簽零模型及子圖分布算法應(yīng)用研究[D];燕山大學(xué);2017年

3 何敬怡;播存環(huán)境下基于標(biāo)簽的個(gè)性化推薦技術(shù)研究[D];東南大學(xué);2017年

4 劉春偉;微博用戶個(gè)性化標(biāo)簽提取技術(shù)研究[D];哈爾濱工程大學(xué);2016年

5 楊爍陶;基于非負(fù)矩陣分解的多標(biāo)簽分類算法研究[D];大連理工大學(xué);2017年

6 方澤陽(yáng);基于多標(biāo)簽的海量文本的分類算法的研究與設(shè)計(jì)[D];北京郵電大學(xué);2017年

7 張榮輝;基于深度學(xué)習(xí)的圖像多標(biāo)簽分類算法研究[D];北京郵電大學(xué);2016年

8 張永偉;多標(biāo)簽分類中在線學(xué)習(xí)算法研究[D];南京師范大學(xué);2017年

9 葉婷;社會(huì)化標(biāo)簽語(yǔ)義規(guī)范化及其在推薦系統(tǒng)中的應(yīng)用[D];南京財(cái)經(jīng)大學(xué);2017年

10 頡小鳳;基于深度標(biāo)簽關(guān)聯(lián)挖掘的高維不平衡文本分類方法研究[D];重慶郵電大學(xué);2017年



本文編號(hào):2864401

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2864401.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1d7ec***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com