基于集成學(xué)習(xí)的短文本分類方法
發(fā)布時(shí)間:2021-03-15 09:46
隨著互聯(lián)網(wǎng)與社交媒體的快速發(fā)展,人們的學(xué)習(xí)與生活方式也在不斷變化。微博、Twitter、BBS和SNS等平臺的興起帶來了大量的短文本數(shù)據(jù),如新聞標(biāo)題、網(wǎng)絡(luò)聊天和商品評價(jià)等。這些數(shù)據(jù)涵蓋范圍廣,信息含量高,為公司、政府和科研機(jī)構(gòu)等組織提供了關(guān)鍵的信息來源。因此,如何對這些短文本數(shù)據(jù)進(jìn)行有效管理和分類成為了當(dāng)下研究的重點(diǎn)。由于短文本具有篇幅短小、特征稀疏和文本形式不規(guī)范等特點(diǎn),傳統(tǒng)的長文本分類方法對短文本不能取得較好的分類效果。針對此問題,本文對短文本特征擴(kuò)展方法進(jìn)行研究,并結(jié)合集成學(xué)習(xí)方法來提升短文本的分類性能及泛化能力。本文研究包含以下幾點(diǎn):1.針對短文本特征稀疏問題,本文提出了基于LDA主題模型的短文本特征擴(kuò)展方法。首先通過大文檔集訓(xùn)練LDA主題模型,通過該模型預(yù)測短文本的文檔-主題、主題-詞概率分布;然后選擇概率值較高的主題,將其下概率較高的詞擴(kuò)展到短文本中。由于傳統(tǒng)LDA主題模型主題間相似度較高,本文使用加權(quán)LDA主題模型進(jìn)行訓(xùn)練,降低主題間相似度,提高待擴(kuò)展詞之間的差異度;最后設(shè)計(jì)實(shí)驗(yàn)驗(yàn)證該方法的可行性和有效性。實(shí)驗(yàn)結(jié)果表明,使用該方法進(jìn)行特征擴(kuò)展后,短文本可以取得更好的分類效...
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本分類的一般過程
多分類器系統(tǒng)框架
選擇性集成的基本思想在過去幾十年里,國內(nèi)外研究者們提出了很多分類器選擇方法,目前主要包括
【參考文獻(xiàn)】:
期刊論文
[1]基于特征選擇的SVM選擇性集成學(xué)習(xí)方法[J]. 扈曉君,康寧. 電子技術(shù)與軟件工程. 2019(18)
[2]基于信息熵的集成學(xué)習(xí)過程多樣性度量研究[J]. 周鋼,郭福亮. 計(jì)算機(jī)工程與科學(xué). 2019(09)
[3]基于句子級學(xué)習(xí)改進(jìn)CNN的短文本分類方法[J]. 韓棟,王春華,肖敏. 計(jì)算機(jī)工程與設(shè)計(jì). 2019(01)
[4]基于知識圖譜擴(kuò)展的短文本分類方法[J]. 丁連紅,孫斌,張宏偉. 情報(bào)工程. 2018(05)
[5]基于稀疏自學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的句子分類模型[J]. 高云龍,左萬利,王英,王鑫. 計(jì)算機(jī)研究與發(fā)展. 2018(01)
[6]融合詞語類別特征和語義的短文本分類方法[J]. 馬慧芳,周汝南,吉余崗,魯小勇. 計(jì)算機(jī)工程與科學(xué). 2017(02)
[7]基于蟻群優(yōu)化的極限學(xué)習(xí)機(jī)選擇性集成學(xué)習(xí)算法[J]. 楊菊,袁玉龍,于化龍. 計(jì)算機(jī)科學(xué). 2016(10)
[8]基于遺傳算法優(yōu)化的稀疏表示圖像融合算法[J]. 趙學(xué)軍,李育珍,雷書彧. 北京郵電大學(xué)學(xué)報(bào). 2016(02)
[9]基于語義擴(kuò)展的短問題分類[J]. 冶忠林,楊燕,賈真,尹紅風(fēng). 計(jì)算機(jī)應(yīng)用. 2015(03)
[10]基于LDA特征擴(kuò)展的短文本分類[J]. 呂超鎮(zhèn),姬東鴻,吳飛飛. 計(jì)算機(jī)工程與應(yīng)用. 2015(04)
本文編號:3083980
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本分類的一般過程
多分類器系統(tǒng)框架
選擇性集成的基本思想在過去幾十年里,國內(nèi)外研究者們提出了很多分類器選擇方法,目前主要包括
【參考文獻(xiàn)】:
期刊論文
[1]基于特征選擇的SVM選擇性集成學(xué)習(xí)方法[J]. 扈曉君,康寧. 電子技術(shù)與軟件工程. 2019(18)
[2]基于信息熵的集成學(xué)習(xí)過程多樣性度量研究[J]. 周鋼,郭福亮. 計(jì)算機(jī)工程與科學(xué). 2019(09)
[3]基于句子級學(xué)習(xí)改進(jìn)CNN的短文本分類方法[J]. 韓棟,王春華,肖敏. 計(jì)算機(jī)工程與設(shè)計(jì). 2019(01)
[4]基于知識圖譜擴(kuò)展的短文本分類方法[J]. 丁連紅,孫斌,張宏偉. 情報(bào)工程. 2018(05)
[5]基于稀疏自學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的句子分類模型[J]. 高云龍,左萬利,王英,王鑫. 計(jì)算機(jī)研究與發(fā)展. 2018(01)
[6]融合詞語類別特征和語義的短文本分類方法[J]. 馬慧芳,周汝南,吉余崗,魯小勇. 計(jì)算機(jī)工程與科學(xué). 2017(02)
[7]基于蟻群優(yōu)化的極限學(xué)習(xí)機(jī)選擇性集成學(xué)習(xí)算法[J]. 楊菊,袁玉龍,于化龍. 計(jì)算機(jī)科學(xué). 2016(10)
[8]基于遺傳算法優(yōu)化的稀疏表示圖像融合算法[J]. 趙學(xué)軍,李育珍,雷書彧. 北京郵電大學(xué)學(xué)報(bào). 2016(02)
[9]基于語義擴(kuò)展的短問題分類[J]. 冶忠林,楊燕,賈真,尹紅風(fēng). 計(jì)算機(jī)應(yīng)用. 2015(03)
[10]基于LDA特征擴(kuò)展的短文本分類[J]. 呂超鎮(zhèn),姬東鴻,吳飛飛. 計(jì)算機(jī)工程與應(yīng)用. 2015(04)
本文編號:3083980
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3083980.html
最近更新
教材專著