面向非對稱和多標(biāo)簽的文本分類技術(shù)研究
發(fā)布時(shí)間:2021-03-16 06:50
如今快速發(fā)展的信息技術(shù)讓人們可以快速地創(chuàng)建和分享信息,而人們獲取信息的主要方式是電子形式的文件,在比較多樣化和雜亂化的信息中快速準(zhǔn)確地尋找到需要的信息將會變得更加困難。文本分類技術(shù)是對文檔進(jìn)行整理和分類的一項(xiàng)重要技術(shù),但是隨著自媒體的發(fā)展,文本概念遷移現(xiàn)象越來越頻繁,傳統(tǒng)的單標(biāo)簽已經(jīng)不能準(zhǔn)確地描述現(xiàn)實(shí)對象的動態(tài)變化,急需多標(biāo)簽分類技術(shù)準(zhǔn)確客觀地描述現(xiàn)實(shí)對象的多語義現(xiàn)象。文本分類中不僅存在著多標(biāo)簽問題,同時(shí)也伴隨著非對稱問題(即數(shù)據(jù)不均衡問題)的發(fā)生。對于數(shù)據(jù)不均衡問題,解決途徑一般分為三種,主要是從算法、特征選擇和數(shù)據(jù)3個(gè)層次上進(jìn)行的,算法層次上的方法主要是基于現(xiàn)有的一些分類算法上進(jìn)行改進(jìn);數(shù)據(jù)層次上的方法主要是利用重采樣技術(shù)來改善數(shù)據(jù)的類別分布;特征選擇層次上,一般是通過改進(jìn)現(xiàn)有的特征選擇算法或者提出新的特征選擇算法來適應(yīng)非對稱的數(shù)據(jù)集。論文提出的方法PKM-undersampling算法主要是從數(shù)據(jù)層次上進(jìn)行的,采用了下采樣技術(shù)的思想,通過在多數(shù)類樣本上進(jìn)行聚類來減少其樣本的數(shù)量,從而達(dá)到數(shù)據(jù)分布均衡的目的。而論文使用的聚類算法主要是在k-means算法上進(jìn)行了優(yōu)化,本文提出的算法...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本分類的訓(xùn)練和分類過程
神經(jīng)元模型
SMOTE算法假設(shè)訓(xùn)練集中的一個(gè)少數(shù)類樣本數(shù)為T,計(jì)算出數(shù)據(jù)集中類別的不平衡比例,根據(jù)此比
【參考文獻(xiàn)】:
期刊論文
[1]文本分類中信息增益特征選擇方法的研究[J]. 郭亞維,劉曉霞. 計(jì)算機(jī)工程與應(yīng)用. 2012(27)
[2]不均衡問題中的特征選擇新算法:Im-IG[J]. 尤鳴宇,陳燕,李國正. 山東大學(xué)學(xué)報(bào)(工學(xué)版). 2010(05)
[3]不平衡類數(shù)據(jù)挖掘研究綜述[J]. 翟云,楊炳儒,曲武. 計(jì)算機(jī)科學(xué). 2010(10)
[4]一種基于隨機(jī)游走模型的多標(biāo)簽分類算法[J]. 鄭偉,王朝坤,劉璋,王建民. 計(jì)算機(jī)學(xué)報(bào). 2010(08)
碩士論文
[1]基于不均衡數(shù)據(jù)集的文本分類算法研究[D]. 謝娜娜.重慶大學(xué) 2013
[2]面向不均衡數(shù)據(jù)集分類的W-SVM模型[D]. 刁翠霞.合肥工業(yè)大學(xué) 2012
本文編號:3085602
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本分類的訓(xùn)練和分類過程
神經(jīng)元模型
SMOTE算法假設(shè)訓(xùn)練集中的一個(gè)少數(shù)類樣本數(shù)為T,計(jì)算出數(shù)據(jù)集中類別的不平衡比例,根據(jù)此比
【參考文獻(xiàn)】:
期刊論文
[1]文本分類中信息增益特征選擇方法的研究[J]. 郭亞維,劉曉霞. 計(jì)算機(jī)工程與應(yīng)用. 2012(27)
[2]不均衡問題中的特征選擇新算法:Im-IG[J]. 尤鳴宇,陳燕,李國正. 山東大學(xué)學(xué)報(bào)(工學(xué)版). 2010(05)
[3]不平衡類數(shù)據(jù)挖掘研究綜述[J]. 翟云,楊炳儒,曲武. 計(jì)算機(jī)科學(xué). 2010(10)
[4]一種基于隨機(jī)游走模型的多標(biāo)簽分類算法[J]. 鄭偉,王朝坤,劉璋,王建民. 計(jì)算機(jī)學(xué)報(bào). 2010(08)
碩士論文
[1]基于不均衡數(shù)據(jù)集的文本分類算法研究[D]. 謝娜娜.重慶大學(xué) 2013
[2]面向不均衡數(shù)據(jù)集分類的W-SVM模型[D]. 刁翠霞.合肥工業(yè)大學(xué) 2012
本文編號:3085602
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3085602.html
最近更新
教材專著