基于機(jī)器學(xué)習(xí)的文本分類算法
發(fā)布時(shí)間:2021-02-28 00:27
作為處理文檔的重要方式,文本分類在信息處理、新聞分類、輿情監(jiān)測(cè)、文檔的自動(dòng)分類等方面中起著重要作用。最近幾十年,機(jī)器學(xué)習(xí)的理論和方法得到了完善和充實(shí),將相關(guān)理論和成果應(yīng)用到文本分類中獲得了大量的研究成果。但是在大數(shù)據(jù)時(shí)背景下的文本數(shù)據(jù)具有數(shù)量大、無(wú)序、主題分布不均等特點(diǎn),如何提高文本分類正確率是當(dāng)前面臨的挑戰(zhàn)。文本分類需要進(jìn)行特征選擇、文本表示、分類器模型構(gòu)建,而其中使用到的算法存在一些不足,因此本文將從這三個(gè)方面展開(kāi)對(duì)文本分類算法的研究工作。(1)針對(duì)詞頻征選擇算法在提取特征項(xiàng)時(shí)不考慮特征項(xiàng)與類別間的相關(guān)性問(wèn)題,因此提出了一種基于詞語(yǔ)相似度和詞頻混合特征的文本分類算法。該算法通過(guò)計(jì)算每一類文本所有的詞條與對(duì)應(yīng)類別特征項(xiàng)表中的特征項(xiàng)的相似度值,若計(jì)算的值大于預(yù)先設(shè)置的相似度值時(shí)給予保留作為內(nèi)容,反之不保留。當(dāng)計(jì)算所有文本集合中詞條的相似度值之后,通過(guò)詞頻提取與類別相關(guān)性較強(qiáng)的特征子集,剔除對(duì)類別劃分影響較大的特征項(xiàng)。實(shí)驗(yàn)驗(yàn)證了改進(jìn)后算法的有效性。(2)針對(duì)傳統(tǒng)的VSM存在維度過(guò)高、向量化表示非常稀疏、無(wú)法很好地表示文檔的語(yǔ)義的問(wèn)題,提出基于TF-IDF和Word2vec改進(jìn)的向量空間模...
【文章來(lái)源】:西安科技大學(xué)陜西省
【文章頁(yè)數(shù)】:53 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
不同相似度S對(duì)應(yīng)的平均正確率
實(shí)驗(yàn)結(jié)果對(duì)應(yīng)的折線圖如圖3.5 所示。圖 3.5 本文算法與其它特征選擇算法對(duì)比圖本文中測(cè)試數(shù)據(jù)五個(gè)類別:體育、藝術(shù)、軍事、政治和農(nóng)業(yè),從圖 3.5 中可以看出:相同的分類器下,本文改進(jìn)的詞頻特征選擇算法的分類正確率幾乎都優(yōu)于其他算法所得到的結(jié)果。本文提出的改進(jìn)算法在平均正確率方面比 IG(Information Gain)算法提高了大約 4%,比 CHI(Chi-Square Test)算法提高出近 8%,比 MI(Mutual Information)算法提高了大約 7%。綜上所述:基于詞語(yǔ)相似度和 TF 混合特征的文本分類算法,比 TF 特征選擇算法提取到的特征項(xiàng)更能代表文本類別的信息。實(shí)驗(yàn)驗(yàn)證了,本文提出的改進(jìn)分類算法在文
實(shí)驗(yàn)三:對(duì)分詞后的文本集使用 Word2vec 模型空間向量化,原后使用分類器進(jìn)行,實(shí)驗(yàn)結(jié)果如下表 3.6 所示:表 3.6 Word2vec 模型分類實(shí)驗(yàn)結(jié)果本類別 體育(%) 藝術(shù)(%) 軍事(%) 政治(%) 農(nóng)業(yè)(%) 平均正確率(%)ord2vec 模型 82.40 83.30 69.40 77.00 83.80 79.18實(shí)驗(yàn)四:運(yùn)用 TF 特征選擇算法和提出了基于詞語(yǔ)相似度和 TF 混合特征的文本分法進(jìn)行特征提取,在通過(guò)基于 TF-IDF 算法和 Word2vec 改進(jìn)的向量空間模型進(jìn)行空量化,最后使用分類器進(jìn)行分類。對(duì)實(shí)驗(yàn)的結(jié)果進(jìn)行分析統(tǒng)計(jì)可以得到表3.7所示:表 3.7 改進(jìn)前后的 TF 特征選擇與改進(jìn)的 Word2vec 模型分類實(shí)驗(yàn)結(jié)果本類別 體育(%) 藝術(shù)(%) 軍事(%) 政治(%) 農(nóng)業(yè)(%) 平均正確率(%)+改進(jìn) Word2vec 85.20 84.60 75.30 79.40 88.60 82.62進(jìn) TF+改進(jìn) Word2vec 87.60 92.80 87.40 85.20 90.50 88.70為了更清晰地表現(xiàn)改進(jìn)空間向量化模型的效果,將表 3.4、3.6 和表 3.7 的實(shí)驗(yàn)數(shù)據(jù)線圖表示,結(jié)果如圖 3.6 所示。
【參考文獻(xiàn)】:
期刊論文
[1]融合詞向量及BTM模型的問(wèn)題分類方法[J]. 黃賢英,謝晉,龍姝言. 計(jì)算機(jī)工程與設(shè)計(jì). 2019(02)
[2]C4.5決策樹(shù)分類算法性能分析[J]. 劉瑞玲. 信息系統(tǒng)工程. 2019(01)
[3]基于隨機(jī)森林的文本分類并行化[J]. 彭徵,王靈矯,郭華. 計(jì)算機(jī)科學(xué). 2018(12)
[4]基于softmax回歸的通信信號(hào)循環(huán)譜的多分類識(shí)別方法[J]. 劉亞沖,唐智靈. 現(xiàn)代電子技術(shù). 2018(03)
[5]基于VDCNN與LSTM混合模型的中文文本分類研究[J]. 彭玉青,宋初柏,閆倩,趙曉松,魏銘. 計(jì)算機(jī)工程. 2018(11)
[6]基于Softmax回歸的通信輻射源特征分類識(shí)別方法[J]. 劉亞沖,唐智靈. 計(jì)算機(jī)工程. 2018(02)
[7]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒. 工業(yè)控制計(jì)算機(jī). 2016(02)
[8]基于信息增益的文本特征選擇方法[J]. 任永功,楊榮杰,尹明飛,馬名威. 計(jì)算機(jī)科學(xué). 2012(11)
[9]基于同義詞詞林的詞語(yǔ)相似度計(jì)算方法[J]. 田久樂(lè),趙蔚. 吉林大學(xué)學(xué)報(bào)(信息科學(xué)版). 2010(06)
[10]基于類別相關(guān)性和交叉熵的特征選擇方法[J]. 朱顥東,鐘勇. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版). 2010(02)
碩士論文
[1]基于語(yǔ)義的中文文本特征提取方法研究[D]. 于群.哈爾濱工程大學(xué) 2017
[2]基于語(yǔ)義網(wǎng)的輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 錢(qián)斌.蘭州大學(xué) 2016
[3]基于布爾模型和擴(kuò)展布爾模型的中文信息檢索系統(tǒng)[D]. 馬強(qiáng).遼寧科技大學(xué) 2012
[4]基于理解的漢語(yǔ)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 蘇勇.電子科技大學(xué) 2011
[5]基于決策樹(shù)中文文本分類技術(shù)的研究與實(shí)現(xiàn)[D]. 苑擎飏.東北大學(xué) 2008
本文編號(hào):3055027
【文章來(lái)源】:西安科技大學(xué)陜西省
【文章頁(yè)數(shù)】:53 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
不同相似度S對(duì)應(yīng)的平均正確率
實(shí)驗(yàn)結(jié)果對(duì)應(yīng)的折線圖如圖3.5 所示。圖 3.5 本文算法與其它特征選擇算法對(duì)比圖本文中測(cè)試數(shù)據(jù)五個(gè)類別:體育、藝術(shù)、軍事、政治和農(nóng)業(yè),從圖 3.5 中可以看出:相同的分類器下,本文改進(jìn)的詞頻特征選擇算法的分類正確率幾乎都優(yōu)于其他算法所得到的結(jié)果。本文提出的改進(jìn)算法在平均正確率方面比 IG(Information Gain)算法提高了大約 4%,比 CHI(Chi-Square Test)算法提高出近 8%,比 MI(Mutual Information)算法提高了大約 7%。綜上所述:基于詞語(yǔ)相似度和 TF 混合特征的文本分類算法,比 TF 特征選擇算法提取到的特征項(xiàng)更能代表文本類別的信息。實(shí)驗(yàn)驗(yàn)證了,本文提出的改進(jìn)分類算法在文
實(shí)驗(yàn)三:對(duì)分詞后的文本集使用 Word2vec 模型空間向量化,原后使用分類器進(jìn)行,實(shí)驗(yàn)結(jié)果如下表 3.6 所示:表 3.6 Word2vec 模型分類實(shí)驗(yàn)結(jié)果本類別 體育(%) 藝術(shù)(%) 軍事(%) 政治(%) 農(nóng)業(yè)(%) 平均正確率(%)ord2vec 模型 82.40 83.30 69.40 77.00 83.80 79.18實(shí)驗(yàn)四:運(yùn)用 TF 特征選擇算法和提出了基于詞語(yǔ)相似度和 TF 混合特征的文本分法進(jìn)行特征提取,在通過(guò)基于 TF-IDF 算法和 Word2vec 改進(jìn)的向量空間模型進(jìn)行空量化,最后使用分類器進(jìn)行分類。對(duì)實(shí)驗(yàn)的結(jié)果進(jìn)行分析統(tǒng)計(jì)可以得到表3.7所示:表 3.7 改進(jìn)前后的 TF 特征選擇與改進(jìn)的 Word2vec 模型分類實(shí)驗(yàn)結(jié)果本類別 體育(%) 藝術(shù)(%) 軍事(%) 政治(%) 農(nóng)業(yè)(%) 平均正確率(%)+改進(jìn) Word2vec 85.20 84.60 75.30 79.40 88.60 82.62進(jìn) TF+改進(jìn) Word2vec 87.60 92.80 87.40 85.20 90.50 88.70為了更清晰地表現(xiàn)改進(jìn)空間向量化模型的效果,將表 3.4、3.6 和表 3.7 的實(shí)驗(yàn)數(shù)據(jù)線圖表示,結(jié)果如圖 3.6 所示。
【參考文獻(xiàn)】:
期刊論文
[1]融合詞向量及BTM模型的問(wèn)題分類方法[J]. 黃賢英,謝晉,龍姝言. 計(jì)算機(jī)工程與設(shè)計(jì). 2019(02)
[2]C4.5決策樹(shù)分類算法性能分析[J]. 劉瑞玲. 信息系統(tǒng)工程. 2019(01)
[3]基于隨機(jī)森林的文本分類并行化[J]. 彭徵,王靈矯,郭華. 計(jì)算機(jī)科學(xué). 2018(12)
[4]基于softmax回歸的通信信號(hào)循環(huán)譜的多分類識(shí)別方法[J]. 劉亞沖,唐智靈. 現(xiàn)代電子技術(shù). 2018(03)
[5]基于VDCNN與LSTM混合模型的中文文本分類研究[J]. 彭玉青,宋初柏,閆倩,趙曉松,魏銘. 計(jì)算機(jī)工程. 2018(11)
[6]基于Softmax回歸的通信輻射源特征分類識(shí)別方法[J]. 劉亞沖,唐智靈. 計(jì)算機(jī)工程. 2018(02)
[7]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒. 工業(yè)控制計(jì)算機(jī). 2016(02)
[8]基于信息增益的文本特征選擇方法[J]. 任永功,楊榮杰,尹明飛,馬名威. 計(jì)算機(jī)科學(xué). 2012(11)
[9]基于同義詞詞林的詞語(yǔ)相似度計(jì)算方法[J]. 田久樂(lè),趙蔚. 吉林大學(xué)學(xué)報(bào)(信息科學(xué)版). 2010(06)
[10]基于類別相關(guān)性和交叉熵的特征選擇方法[J]. 朱顥東,鐘勇. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版). 2010(02)
碩士論文
[1]基于語(yǔ)義的中文文本特征提取方法研究[D]. 于群.哈爾濱工程大學(xué) 2017
[2]基于語(yǔ)義網(wǎng)的輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 錢(qián)斌.蘭州大學(xué) 2016
[3]基于布爾模型和擴(kuò)展布爾模型的中文信息檢索系統(tǒng)[D]. 馬強(qiáng).遼寧科技大學(xué) 2012
[4]基于理解的漢語(yǔ)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 蘇勇.電子科技大學(xué) 2011
[5]基于決策樹(shù)中文文本分類技術(shù)的研究與實(shí)現(xiàn)[D]. 苑擎飏.東北大學(xué) 2008
本文編號(hào):3055027
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3055027.html
最近更新
教材專著