基于深度學(xué)習(xí)的多標(biāo)簽短文本分類方法研究
發(fā)布時間:2022-01-02 09:10
網(wǎng)絡(luò)平臺的蓬勃發(fā)展使得短文本數(shù)據(jù)大量涌現(xiàn),由于該類數(shù)據(jù)具有多標(biāo)簽、多角度的特征,用戶在瀏覽短文本時無法快速獲取目標(biāo)信息,因此針對短文本進(jìn)行有效的多標(biāo)簽分類是現(xiàn)在研究的熱門問題之一。短文本數(shù)據(jù)具有內(nèi)容短、數(shù)據(jù)量大、表述不規(guī)范等特點,這些特點導(dǎo)致其分類時面臨噪聲多、特征不密集、上下文不獨立等問題。由于短文本中標(biāo)簽數(shù)的增長,傳統(tǒng)的分類方法無法滿足現(xiàn)有的需求。針對目前短文本分類方法存在的數(shù)據(jù)分布不均勻,建模矩陣特征稀疏等問題,本文做了如下貢獻(xiàn):(1)針對傳統(tǒng)特征提取算法無法對稀疏的短文本特征進(jìn)行有效提取的問題,本文提出了基于Word2vec模型的短文本特征提取方法。首先對短文本進(jìn)行向量化表示,并對其進(jìn)行兩方面的處理,一方面是利用優(yōu)化的Word2vec模型對向量進(jìn)行降維,然后利用詞頻-逆文本頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法進(jìn)行加權(quán),另一方面是直接利用TF-IDF進(jìn)行向量處理。然后將這兩種方法處理過的向量進(jìn)行合并和特征提取,最后使用支持向量機(Support Vector Machine,SVM)進(jìn)行分類。通過實驗證明,該...
【文章來源】:桂林電子科技大學(xué)廣西壯族自治區(qū)
【文章頁數(shù)】:51 頁
【學(xué)位級別】:碩士
【部分圖文】:
sigmoid函數(shù)圖像
圖3-5分詞結(jié)果
【參考文獻(xiàn)】:
期刊論文
[1]基于word2vec和雙向LSTM的情感分類深度模型[J]. 黃賢英,劉廣峰,劉小洋,陽安志. 計算機應(yīng)用研究. 2019(12)
[2]基于詞向量的文本特征選擇方法研究[J]. 陳磊,李俊. 小型微型計算機系統(tǒng). 2018(05)
[3]基于遞歸神經(jīng)網(wǎng)絡(luò)的文本分類研究[J]. 黃磊,杜昌順. 北京化工大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[4]基于深度學(xué)習(xí)的問題分類方法研究[J]. 李超,柴玉梅,南曉斐,高明磊. 計算機科學(xué). 2016(12)
[5]一種基于概率的卡方特征選擇方法[J]. 張輝宜,謝業(yè)名,袁志祥,孫國華. 計算機工程. 2016(08)
[6]基于標(biāo)簽聚類的多標(biāo)簽分類算法[J]. 申超波,王志海,孫艷歌. 軟件. 2014(08)
[7]面向信息檢索的自適應(yīng)中文分詞系統(tǒng)[J]. 曹勇剛,曹羽中,金茂忠,劉超. 軟件學(xué)報. 2006(03)
博士論文
[1]面向內(nèi)容安全的文本分類研究[D]. 張博鋒.國防科學(xué)技術(shù)大學(xué) 2007
碩士論文
[1]基于SVM和半監(jiān)督學(xué)習(xí)的短文本分類算法研究[D]. 向俊.南京信息工程大學(xué) 2017
[2]基于長短時記憶網(wǎng)絡(luò)的多標(biāo)簽文本分類[D]. 熊濤.浙江大學(xué) 2017
[3]短文本分類研究[D]. 劉英濤.重慶理工大學(xué) 2016
[4]基于維基百科的短文本特征擴展及分類算法研究[D]. 秦靚靚.天津理工大學(xué) 2016
本文編號:3563905
【文章來源】:桂林電子科技大學(xué)廣西壯族自治區(qū)
【文章頁數(shù)】:51 頁
【學(xué)位級別】:碩士
【部分圖文】:
sigmoid函數(shù)圖像
圖3-5分詞結(jié)果
【參考文獻(xiàn)】:
期刊論文
[1]基于word2vec和雙向LSTM的情感分類深度模型[J]. 黃賢英,劉廣峰,劉小洋,陽安志. 計算機應(yīng)用研究. 2019(12)
[2]基于詞向量的文本特征選擇方法研究[J]. 陳磊,李俊. 小型微型計算機系統(tǒng). 2018(05)
[3]基于遞歸神經(jīng)網(wǎng)絡(luò)的文本分類研究[J]. 黃磊,杜昌順. 北京化工大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[4]基于深度學(xué)習(xí)的問題分類方法研究[J]. 李超,柴玉梅,南曉斐,高明磊. 計算機科學(xué). 2016(12)
[5]一種基于概率的卡方特征選擇方法[J]. 張輝宜,謝業(yè)名,袁志祥,孫國華. 計算機工程. 2016(08)
[6]基于標(biāo)簽聚類的多標(biāo)簽分類算法[J]. 申超波,王志海,孫艷歌. 軟件. 2014(08)
[7]面向信息檢索的自適應(yīng)中文分詞系統(tǒng)[J]. 曹勇剛,曹羽中,金茂忠,劉超. 軟件學(xué)報. 2006(03)
博士論文
[1]面向內(nèi)容安全的文本分類研究[D]. 張博鋒.國防科學(xué)技術(shù)大學(xué) 2007
碩士論文
[1]基于SVM和半監(jiān)督學(xué)習(xí)的短文本分類算法研究[D]. 向俊.南京信息工程大學(xué) 2017
[2]基于長短時記憶網(wǎng)絡(luò)的多標(biāo)簽文本分類[D]. 熊濤.浙江大學(xué) 2017
[3]短文本分類研究[D]. 劉英濤.重慶理工大學(xué) 2016
[4]基于維基百科的短文本特征擴展及分類算法研究[D]. 秦靚靚.天津理工大學(xué) 2016
本文編號:3563905
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3563905.html
最近更新
教材專著