天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于機器學習的文本分類算法

發(fā)布時間:2021-02-28 00:27
  作為處理文檔的重要方式,文本分類在信息處理、新聞分類、輿情監(jiān)測、文檔的自動分類等方面中起著重要作用。最近幾十年,機器學習的理論和方法得到了完善和充實,將相關(guān)理論和成果應(yīng)用到文本分類中獲得了大量的研究成果。但是在大數(shù)據(jù)時背景下的文本數(shù)據(jù)具有數(shù)量大、無序、主題分布不均等特點,如何提高文本分類正確率是當前面臨的挑戰(zhàn)。文本分類需要進行特征選擇、文本表示、分類器模型構(gòu)建,而其中使用到的算法存在一些不足,因此本文將從這三個方面展開對文本分類算法的研究工作。(1)針對詞頻征選擇算法在提取特征項時不考慮特征項與類別間的相關(guān)性問題,因此提出了一種基于詞語相似度和詞頻混合特征的文本分類算法。該算法通過計算每一類文本所有的詞條與對應(yīng)類別特征項表中的特征項的相似度值,若計算的值大于預先設(shè)置的相似度值時給予保留作為內(nèi)容,反之不保留。當計算所有文本集合中詞條的相似度值之后,通過詞頻提取與類別相關(guān)性較強的特征子集,剔除對類別劃分影響較大的特征項。實驗驗證了改進后算法的有效性。(2)針對傳統(tǒng)的VSM存在維度過高、向量化表示非常稀疏、無法很好地表示文檔的語義的問題,提出基于TF-IDF和Word2vec改進的向量空間模... 

【文章來源】:西安科技大學陜西省

【文章頁數(shù)】:53 頁

【學位級別】:碩士

【部分圖文】:

基于機器學習的文本分類算法


不同相似度S對應(yīng)的平均正確率

對比圖,特征選擇,算法,對比圖


實驗結(jié)果對應(yīng)的折線圖如圖3.5 所示。圖 3.5 本文算法與其它特征選擇算法對比圖本文中測試數(shù)據(jù)五個類別:體育、藝術(shù)、軍事、政治和農(nóng)業(yè),從圖 3.5 中可以看出:相同的分類器下,本文改進的詞頻特征選擇算法的分類正確率幾乎都優(yōu)于其他算法所得到的結(jié)果。本文提出的改進算法在平均正確率方面比 IG(Information Gain)算法提高了大約 4%,比 CHI(Chi-Square Test)算法提高出近 8%,比 MI(Mutual Information)算法提高了大約 7%。綜上所述:基于詞語相似度和 TF 混合特征的文本分類算法,比 TF 特征選擇算法提取到的特征項更能代表文本類別的信息。實驗驗證了,本文提出的改進分類算法在文

對比圖,向量空間模型,選擇算法,對比圖


實驗三:對分詞后的文本集使用 Word2vec 模型空間向量化,原后使用分類器進行,實驗結(jié)果如下表 3.6 所示:表 3.6 Word2vec 模型分類實驗結(jié)果本類別 體育(%) 藝術(shù)(%) 軍事(%) 政治(%) 農(nóng)業(yè)(%) 平均正確率(%)ord2vec 模型 82.40 83.30 69.40 77.00 83.80 79.18實驗四:運用 TF 特征選擇算法和提出了基于詞語相似度和 TF 混合特征的文本分法進行特征提取,在通過基于 TF-IDF 算法和 Word2vec 改進的向量空間模型進行空量化,最后使用分類器進行分類。對實驗的結(jié)果進行分析統(tǒng)計可以得到表3.7所示:表 3.7 改進前后的 TF 特征選擇與改進的 Word2vec 模型分類實驗結(jié)果本類別 體育(%) 藝術(shù)(%) 軍事(%) 政治(%) 農(nóng)業(yè)(%) 平均正確率(%)+改進 Word2vec 85.20 84.60 75.30 79.40 88.60 82.62進 TF+改進 Word2vec 87.60 92.80 87.40 85.20 90.50 88.70為了更清晰地表現(xiàn)改進空間向量化模型的效果,將表 3.4、3.6 和表 3.7 的實驗數(shù)據(jù)線圖表示,結(jié)果如圖 3.6 所示。

【參考文獻】:
期刊論文
[1]融合詞向量及BTM模型的問題分類方法[J]. 黃賢英,謝晉,龍姝言.  計算機工程與設(shè)計. 2019(02)
[2]C4.5決策樹分類算法性能分析[J]. 劉瑞玲.  信息系統(tǒng)工程. 2019(01)
[3]基于隨機森林的文本分類并行化[J]. 彭徵,王靈矯,郭華.  計算機科學. 2018(12)
[4]基于softmax回歸的通信信號循環(huán)譜的多分類識別方法[J]. 劉亞沖,唐智靈.  現(xiàn)代電子技術(shù). 2018(03)
[5]基于VDCNN與LSTM混合模型的中文文本分類研究[J]. 彭玉青,宋初柏,閆倩,趙曉松,魏銘.  計算機工程. 2018(11)
[6]基于Softmax回歸的通信輻射源特征分類識別方法[J]. 劉亞沖,唐智靈.  計算機工程. 2018(02)
[7]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒.  工業(yè)控制計算機. 2016(02)
[8]基于信息增益的文本特征選擇方法[J]. 任永功,楊榮杰,尹明飛,馬名威.  計算機科學. 2012(11)
[9]基于同義詞詞林的詞語相似度計算方法[J]. 田久樂,趙蔚.  吉林大學學報(信息科學版). 2010(06)
[10]基于類別相關(guān)性和交叉熵的特征選擇方法[J]. 朱顥東,鐘勇.  鄭州大學學報(理學版). 2010(02)

碩士論文
[1]基于語義的中文文本特征提取方法研究[D]. 于群.哈爾濱工程大學 2017
[2]基于語義網(wǎng)的輿情監(jiān)控系統(tǒng)的設(shè)計與實現(xiàn)[D]. 錢斌.蘭州大學 2016
[3]基于布爾模型和擴展布爾模型的中文信息檢索系統(tǒng)[D]. 馬強.遼寧科技大學 2012
[4]基于理解的漢語分詞系統(tǒng)的設(shè)計與實現(xiàn)[D]. 蘇勇.電子科技大學 2011
[5]基于決策樹中文文本分類技術(shù)的研究與實現(xiàn)[D]. 苑擎飏.東北大學 2008



本文編號:3055027

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3055027.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶507e3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com