基于深度學(xué)習(xí)的新聞文本分類模型研究
【圖文】:
測試逡逑圖2-1文本分類流程圖逡逑文本分類過程主要由訓(xùn)練過程和測試過程兩部分組成,如圖2-1所示。訓(xùn)練過程和測逡逑試過程都需要進(jìn)行文本處理中包含的步驟,這些步驟是分類的基礎(chǔ)。隨后分類器通過訓(xùn)練逡逑樣本學(xué)習(xí),完成之后將測試樣本輸入分類器進(jìn)行分類預(yù)測。逡逑2.1.1文本預(yù)處理逡逑預(yù)處理是信息檢索和文本挖掘中的重要任務(wù)和關(guān)鍵步驟。主要分三步完成:文檔切分,,逡逑文本分詞和去除停用詞。文檔切分步驟是可選操作,根據(jù)獲得的文本數(shù)據(jù)形式來判斷。如逡逑果數(shù)據(jù)集中的每一篇文章都屬于獨(dú)立的文檔,則可以省略此步驟。相反,文檔集只有一個逡逑文件,文章集合都存儲在此文件中,則需要提取每一篇文章并將它們分別存儲在單獨(dú)的文逡逑件中以供將來操作。通常,如果多篇文章同屬一篇文檔中,則有一些標(biāo)簽會用于區(qū)分每一逡逑篇文章
支(從根結(jié)點(diǎn)到葉結(jié)點(diǎn))表示。決策樹算法主要是根據(jù)決策規(guī)則將原本復(fù)雜的分類問題細(xì)逡逑化成若干個小的分類問題,自上至下遞歸建樹,將它們轉(zhuǎn)化為預(yù)測未知實(shí)例的樹模型,原逡逑理如圖2-3所示。逡逑有自己的房子逡逑_邐_有工作逡逑是/\逡逑n邐n逡逑是邐否逡逑圖2-3決策樹算法原理逡逑由圖2-3可以看出,決策樹思想最主要的就是選取測試屬性和剪枝問題,前者實(shí)際上逡逑就是按照規(guī)則構(gòu)造特征空間的方法,不同的決策樹使用不同的決策規(guī)則,比如ID3算法用逡逑的是信息增益,C4.5算法用信息增益率;CART算法使用基尼系數(shù)。剪枝問題為了修復(fù)決逡逑13逡逑
【學(xué)位授予單位】:山東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.1;TP18
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 唐亞娟;張德賢;楊琳;;基于方差分析的χ~2統(tǒng)計(jì)特征選擇改進(jìn)算法研究[J];電腦知識與技術(shù);2015年11期
2 王錦波;王蓮芝;高萬林;喻健;;一種改進(jìn)的樸素貝葉斯關(guān)鍵詞提取算法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年02期
3 邸鵬;段利國;;一種新型樸素貝葉斯文本分類算法[J];數(shù)據(jù)采集與處理;2014年01期
4 孫光福;吳樂;劉淇;朱琛;陳恩紅;;基于時序行為的協(xié)同過濾推薦算法[J];軟件學(xué)報;2013年11期
5 歐陽純萍;陽小華;雷龍艷;徐強(qiáng);余穎;劉志明;;多策略中文微博細(xì)粒度情緒分析研究[J];北京大學(xué)學(xué)報(自然科學(xué)版);2014年01期
6 孫志軍;薛磊;許陽明;王正;;深度學(xué)習(xí)研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2012年08期
7 曾俊;;結(jié)合SVM和KNN的Web日志挖掘技術(shù)研究方法[J];計(jì)算機(jī)應(yīng)用研究;2012年05期
8 劉伍穎;王挺;;結(jié)構(gòu)化集成學(xué)習(xí)垃圾郵件過濾[J];計(jì)算機(jī)研究與發(fā)展;2012年03期
9 姜蓓蓓;吳斐;;圖式理論與新聞翻譯研究[J];科技信息;2011年31期
10 胡澤文;王效岳;白如江;;國內(nèi)外文本分類研究計(jì)量分析與綜述[J];圖書情報工作;2011年06期
相關(guān)碩士學(xué)位論文 前3條
1 楊晶;基于領(lǐng)域詞庫的新聞提取技術(shù)的研究及應(yīng)用[D];湖北大學(xué);2018年
2 趙柯;面向離散屬性的決策樹分類方法研究[D];大連海事大學(xué);2017年
3 張建明;基于數(shù)據(jù)挖掘的高校貧困生認(rèn)定系統(tǒng)設(shè)計(jì)和分析[D];東南大學(xué);2015年
本文編號:2703292
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2703292.html