天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于深度學(xué)習(xí)的新聞文本分類模型研究

發(fā)布時間:2020-06-08 15:39
【摘要】:在自然語言處理領(lǐng)域,文本分類作為一種信息處理的基礎(chǔ)技術(shù)一直是熱門的研究方向。文本分類中的每一個環(huán)節(jié)都會影響最終分類的效果,包括文本預(yù)處理、文本表示、特征選擇和分類算法,這些過程中所涉及到的諸多算法都是學(xué)者們研究的焦點(diǎn)。隨著深度學(xué)習(xí)的興起,許多網(wǎng)絡(luò)模型在文本分類領(lǐng)域表現(xiàn)優(yōu)異。新聞文本數(shù)據(jù)具有易獲取、數(shù)據(jù)量大等特點(diǎn),新聞文本分類技術(shù)研究成本相對較低且屬于一種支撐類的基礎(chǔ)技術(shù)。因此,對新聞文本做自動分類技術(shù)的研究對于新聞推薦、數(shù)據(jù)新聞、廣告推送等領(lǐng)域也都具有十分重要的影響。為了提高對新聞文本分類精度,本文主要工作以及創(chuàng)新點(diǎn)如下:1.深入研究并介紹了自然語言處理領(lǐng)域文本分類的基本過程,詳細(xì)解釋了過程中所涉及到的機(jī)器學(xué)習(xí)技術(shù)和深度學(xué)習(xí)技術(shù)。在文本表示和特征選擇過程中,針對新聞文本的特點(diǎn),選擇詞嵌入方法,借助Word2Vec工具表示文本數(shù)據(jù),該模型既可以保證詞向量的語義關(guān)系又能避免維度災(zāi)難問題,提高分類性能。2.基于已有工作,分別研究并改進(jìn)了 SRB文本簡化模型和嵌套LSTM模型,提出了一種基于文本簡化方法的混合模型。首先,該模型通過SRB網(wǎng)絡(luò)逐句簡化新聞文本,并生成具有高語義相關(guān)性的簡單句子,既簡化后面句子層面的模型訓(xùn)練難度,又不丟失語義信息。其次,將句子向量輸入到嵌套LSTM網(wǎng)絡(luò)以學(xué)習(xí)句子間的相關(guān)性及其特征表示。3.混合模型采用了注意機(jī)制來突出關(guān)鍵句子的特征表達(dá),既能適應(yīng)新聞文本的特點(diǎn)將句子簡化,又能在獲取上下文特征相關(guān)性的同時突出關(guān)鍵句的作用,運(yùn)用混合模型的思想將各個模型優(yōu)勢結(jié)合。4.將本文提出的模型與五種典型的深度學(xué)習(xí)模型進(jìn)行比較,在三個流行的不同中文新聞數(shù)據(jù)集上設(shè)計(jì)多組對比實(shí)驗(yàn),實(shí)驗(yàn)表明,本文所提出的模型實(shí)現(xiàn)了最先進(jìn)的分類精度。最后,通過參數(shù)調(diào)整,探究了參數(shù)對結(jié)果的影響。
【圖文】:

流程圖,文本分類,測試過程,流程圖


測試逡逑圖2-1文本分類流程圖逡逑文本分類過程主要由訓(xùn)練過程和測試過程兩部分組成,如圖2-1所示。訓(xùn)練過程和測逡逑試過程都需要進(jìn)行文本處理中包含的步驟,這些步驟是分類的基礎(chǔ)。隨后分類器通過訓(xùn)練逡逑樣本學(xué)習(xí),完成之后將測試樣本輸入分類器進(jìn)行分類預(yù)測。逡逑2.1.1文本預(yù)處理逡逑預(yù)處理是信息檢索和文本挖掘中的重要任務(wù)和關(guān)鍵步驟。主要分三步完成:文檔切分,,逡逑文本分詞和去除停用詞。文檔切分步驟是可選操作,根據(jù)獲得的文本數(shù)據(jù)形式來判斷。如逡逑果數(shù)據(jù)集中的每一篇文章都屬于獨(dú)立的文檔,則可以省略此步驟。相反,文檔集只有一個逡逑文件,文章集合都存儲在此文件中,則需要提取每一篇文章并將它們分別存儲在單獨(dú)的文逡逑件中以供將來操作。通常,如果多篇文章同屬一篇文檔中,則有一些標(biāo)簽會用于區(qū)分每一逡逑篇文章

原理圖,決策樹算法,原理


支(從根結(jié)點(diǎn)到葉結(jié)點(diǎn))表示。決策樹算法主要是根據(jù)決策規(guī)則將原本復(fù)雜的分類問題細(xì)逡逑化成若干個小的分類問題,自上至下遞歸建樹,將它們轉(zhuǎn)化為預(yù)測未知實(shí)例的樹模型,原逡逑理如圖2-3所示。逡逑有自己的房子逡逑_邐_有工作逡逑是/\逡逑n邐n逡逑是邐否逡逑圖2-3決策樹算法原理逡逑由圖2-3可以看出,決策樹思想最主要的就是選取測試屬性和剪枝問題,前者實(shí)際上逡逑就是按照規(guī)則構(gòu)造特征空間的方法,不同的決策樹使用不同的決策規(guī)則,比如ID3算法用逡逑的是信息增益,C4.5算法用信息增益率;CART算法使用基尼系數(shù)。剪枝問題為了修復(fù)決逡逑13逡逑
【學(xué)位授予單位】:山東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.1;TP18

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 唐亞娟;張德賢;楊琳;;基于方差分析的χ~2統(tǒng)計(jì)特征選擇改進(jìn)算法研究[J];電腦知識與技術(shù);2015年11期

2 王錦波;王蓮芝;高萬林;喻健;;一種改進(jìn)的樸素貝葉斯關(guān)鍵詞提取算法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年02期

3 邸鵬;段利國;;一種新型樸素貝葉斯文本分類算法[J];數(shù)據(jù)采集與處理;2014年01期

4 孫光福;吳樂;劉淇;朱琛;陳恩紅;;基于時序行為的協(xié)同過濾推薦算法[J];軟件學(xué)報;2013年11期

5 歐陽純萍;陽小華;雷龍艷;徐強(qiáng);余穎;劉志明;;多策略中文微博細(xì)粒度情緒分析研究[J];北京大學(xué)學(xué)報(自然科學(xué)版);2014年01期

6 孫志軍;薛磊;許陽明;王正;;深度學(xué)習(xí)研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2012年08期

7 曾俊;;結(jié)合SVM和KNN的Web日志挖掘技術(shù)研究方法[J];計(jì)算機(jī)應(yīng)用研究;2012年05期

8 劉伍穎;王挺;;結(jié)構(gòu)化集成學(xué)習(xí)垃圾郵件過濾[J];計(jì)算機(jī)研究與發(fā)展;2012年03期

9 姜蓓蓓;吳斐;;圖式理論與新聞翻譯研究[J];科技信息;2011年31期

10 胡澤文;王效岳;白如江;;國內(nèi)外文本分類研究計(jì)量分析與綜述[J];圖書情報工作;2011年06期

相關(guān)碩士學(xué)位論文 前3條

1 楊晶;基于領(lǐng)域詞庫的新聞提取技術(shù)的研究及應(yīng)用[D];湖北大學(xué);2018年

2 趙柯;面向離散屬性的決策樹分類方法研究[D];大連海事大學(xué);2017年

3 張建明;基于數(shù)據(jù)挖掘的高校貧困生認(rèn)定系統(tǒng)設(shè)計(jì)和分析[D];東南大學(xué);2015年



本文編號:2703292

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2703292.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2b833***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com