基于集成學(xué)習(xí)的高維稀疏多標(biāo)簽文本分類
發(fā)布時(shí)間:2022-01-04 21:41
現(xiàn)如今的人類生活在一個(gè)信息大爆炸的時(shí)代,從復(fù)雜信息中定位自己需求信息的要求也在不斷提高。多標(biāo)簽學(xué)習(xí)就是這樣一種技術(shù),它可以為人們將信息準(zhǔn)確的分門別類,為人們的生活生產(chǎn)提供極大的便利。正因如此,對(duì)于多標(biāo)簽學(xué)習(xí)的研究成為當(dāng)前數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域的熱門方向。相比于單標(biāo)簽分類問(wèn)題,多標(biāo)簽分類研究的是樣本同時(shí)對(duì)應(yīng)多個(gè)標(biāo)簽的分類方法,它需要更加復(fù)雜的模型來(lái)學(xué)習(xí)。隨著對(duì)多標(biāo)簽分類研究的深入,挖掘標(biāo)簽之間的關(guān)聯(lián)以提高分類性能成為了研究學(xué)者們?cè)絹?lái)越關(guān)注的問(wèn)題。其中文本分類是多標(biāo)簽分類中的一個(gè)重要方向,它的數(shù)據(jù)往往有著高維稀疏的特性,這種特性導(dǎo)致直接學(xué)習(xí)多標(biāo)簽分類模型十分困難,讓學(xué)習(xí)的模型容易過(guò)擬合。集成學(xué)習(xí)是一種有效控制模型過(guò)擬合的學(xué)習(xí)方法,它可以使用不同的策略將一組弱學(xué)習(xí)器結(jié)合起來(lái),產(chǎn)生比最好的單一學(xué)習(xí)器更好的性能。鑒于此,本文針對(duì)這些問(wèn)題進(jìn)行了研究:對(duì)于文本數(shù)據(jù)中的“維數(shù)災(zāi)難”問(wèn)題,一般需要對(duì)文本空間進(jìn)行降維,以此降低模型的復(fù)雜度,提高分類性能。為此,本文提出了一種基于樣本規(guī)則的集成學(xué)習(xí)模型,它依據(jù)文本數(shù)據(jù)稀疏的特性,截取某些樣本中特征和標(biāo)簽均為1的部分組成基分類器的學(xué)習(xí)空間,達(dá)到了使基分類器的維...
【文章來(lái)源】:重慶郵電大學(xué)重慶市
【文章頁(yè)數(shù)】:51 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
智能法官系統(tǒng)功能模塊圖
圖 4.2 智能法官系統(tǒng)流程圖4.1.2 智能法官原始數(shù)據(jù)介紹本系統(tǒng)所使用的原始數(shù)據(jù)集來(lái)自明略數(shù)據(jù) MINGLAMP,URL 鏈接為http://www.datafountain.cn/#/competitions/277/data-intro。本數(shù)據(jù)集包含兩部分,第一部分為樣本集包含 12 萬(wàn)個(gè)樣本,第二部分為法律條文文本。其中樣本集為 4 列多行文本,第一列為文檔 ID,第二列為案件事實(shí)描述,第三列為罰金額度類別,第四列為對(duì)應(yīng)的法律條文編號(hào)序列。此處需要說(shuō)明的是,本系統(tǒng)只使用了原始數(shù)據(jù)的第二列和第四列。由于案件事實(shí)描述的文本較長(zhǎng),以下數(shù)據(jù)實(shí)例只截取了某一文檔的部分文本以作參考,其中省略號(hào)部分為已省略文本。數(shù)據(jù)樣例如表 4.1 所示:
文本預(yù)處理流程圖
本文編號(hào):3569106
【文章來(lái)源】:重慶郵電大學(xué)重慶市
【文章頁(yè)數(shù)】:51 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
智能法官系統(tǒng)功能模塊圖
圖 4.2 智能法官系統(tǒng)流程圖4.1.2 智能法官原始數(shù)據(jù)介紹本系統(tǒng)所使用的原始數(shù)據(jù)集來(lái)自明略數(shù)據(jù) MINGLAMP,URL 鏈接為http://www.datafountain.cn/#/competitions/277/data-intro。本數(shù)據(jù)集包含兩部分,第一部分為樣本集包含 12 萬(wàn)個(gè)樣本,第二部分為法律條文文本。其中樣本集為 4 列多行文本,第一列為文檔 ID,第二列為案件事實(shí)描述,第三列為罰金額度類別,第四列為對(duì)應(yīng)的法律條文編號(hào)序列。此處需要說(shuō)明的是,本系統(tǒng)只使用了原始數(shù)據(jù)的第二列和第四列。由于案件事實(shí)描述的文本較長(zhǎng),以下數(shù)據(jù)實(shí)例只截取了某一文檔的部分文本以作參考,其中省略號(hào)部分為已省略文本。數(shù)據(jù)樣例如表 4.1 所示:
文本預(yù)處理流程圖
本文編號(hào):3569106
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3569106.html
最近更新
教材專著