天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于深度學(xué)習(xí)的文本分類研究

發(fā)布時間:2020-05-31 22:51
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,產(chǎn)生了大量的非結(jié)構(gòu)化數(shù)據(jù),尤其是每天更新的新聞文本。本文從兩個方面對新聞文本進(jìn)行研究,分別是文本的主題分類和文本的情感分析。根據(jù)文本的主題內(nèi)容對文本進(jìn)行分類,可以使復(fù)雜多樣的文本變得容易管理,也可以方便學(xué)校、公司、醫(yī)院、以及各類需要處理文本數(shù)據(jù)的組織機(jī)構(gòu)依照特定的分類準(zhǔn)則對源源不斷產(chǎn)生的各種文本類數(shù)據(jù)進(jìn)行分類。通過對文本的情感傾向性進(jìn)行分析研究,在電商平臺中的商品用戶評論中可以反映出某商品受顧客的滿意程度;在博客中可以反映群眾對于某類事件的情感態(tài)度,以及社會輿論的走向;在影視評論中,可以反映出某些影視作品受觀眾的喜愛程度等。而對于新聞類文本的情感分析可以反映出某行業(yè)領(lǐng)域或某些企業(yè)的前景是利好還是隱患,或者某些社會熱點(diǎn)新聞事件是正能量還是負(fù)能量等等。在文本主題分類模型的研究中,利用長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM神經(jīng)網(wǎng)絡(luò))訓(xùn)練文本主題分類模型。首先爬取帶有文本主題類別標(biāo)簽的新聞?wù)Z料,根據(jù)語料的特征進(jìn)行相應(yīng)的數(shù)據(jù)清洗工作,之后經(jīng)過分詞、去停用詞、將類別標(biāo)簽映射為數(shù)字等數(shù)據(jù)預(yù)處理工作,再將文本轉(zhuǎn)化為詞向量作為LSTM神經(jīng)網(wǎng)絡(luò)的輸入,研究了訓(xùn)練神經(jīng)網(wǎng)絡(luò)過程中主要的超參數(shù),通過多組基于不同超參數(shù)值的對比實(shí)驗(yàn),確定了合適的超參數(shù)訓(xùn)練模型,最終還實(shí)現(xiàn)了文本主題分類的前端界面設(shè)計及應(yīng)用。在文本情感分析模型的研究中,使用的是fastText神經(jīng)網(wǎng)絡(luò)訓(xùn)練文本情感分析模型。首先根據(jù)文本特征進(jìn)行數(shù)據(jù)清洗,如去除廣告類噪音數(shù)據(jù)、過長過短以及不規(guī)范的新聞文本,再經(jīng)過分詞等數(shù)據(jù)預(yù)處理后作為fastText神經(jīng)網(wǎng)絡(luò)的輸入,訓(xùn)練文本情感分析模型;谖谋厩楦蟹治瞿P脱芯康幕A(chǔ)上又引進(jìn)了集成學(xué)習(xí)的思想,通過對訓(xùn)練樣本的重采樣,訓(xùn)練多個弱分類器,之后再通過基于結(jié)合策略為加權(quán)投票的bagging集成學(xué)習(xí)算法聯(lián)合成為一個強(qiáng)分類器,將弱分類器聯(lián)合后的強(qiáng)分類器有更高的準(zhǔn)確率,而且能適應(yīng)更多不同的數(shù)據(jù)集,有更強(qiáng)的泛化性,在文本情感分析的研究中有很大的理論意義和實(shí)用價值。
【圖文】:

袋模


圖 2.1 詞袋模型Fig. 2.1 Word bag model畫詞與詞之間的相似性(詞匯鴻溝)。因?yàn)槭褂靡稽c(diǎn)何語義聯(lián)系,,詞向量之間都是獨(dú)立的。詞向量作為神經(jīng)網(wǎng)絡(luò)的輸入,為了使計算過程不過于

原理圖,原理,神經(jīng)網(wǎng)絡(luò)訓(xùn)練,輸入向量


圖 2.2 詞向量的生成原理Fig. 2.2 Generation principle of word vector是神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程的中間產(chǎn)物[38]。輸入層是一個 V 維的一點(diǎn)式向個輸入向量[x1,x2,……,xv],該向量視為 V 個單元,其中一個單元的
【學(xué)位授予單位】:沈陽工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.1;TP181

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 汪明霓;BASIC文本系統(tǒng)[J];計算機(jī)應(yīng)用研究;1988年01期

2 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計算機(jī)科學(xué);2002年08期

3 婁道國;李若斌;劉冰;張冬冬;;云計算下各分散文本數(shù)據(jù)的全方位集成融合方法[J];科技通報;2019年02期

4 潘大勝;;不確定噪聲下海量文本數(shù)據(jù)的模糊挖掘算法研究[J];微電子學(xué)與計算機(jī);2017年09期

5 王珊珊;馮利鑫;;基于新詞識別的大數(shù)據(jù)聊天文本輿情熱點(diǎn)挖掘[J];電子商務(wù);2018年01期

6 陳曉峰;如何在flash中讀入外部文本數(shù)據(jù)[J];電腦知識與技術(shù);2004年13期

7 馬欣欣;林克;;大文本數(shù)據(jù)快速分析統(tǒng)計理論與算法[J];電子元器件與信息技術(shù);2019年01期

8 施瑞朗;;基于社交平臺數(shù)據(jù)的文本分類算法研究[J];電子科技;2018年10期

9 張玉紅;陳偉;胡學(xué)鋼;;一種面向不完全標(biāo)記的文本數(shù)據(jù)流自適應(yīng)分類方法[J];計算機(jī)科學(xué);2016年12期

10 袁鵬;江媛媛;;多元化文本數(shù)據(jù)的智能提取[J];測繪與空間地理信息;2015年09期

相關(guān)會議論文 前10條

1 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會論文集[C];1997年

2 陳光強(qiáng);楊樹強(qiáng);張曉輝;李潤恒;賈焰;;面向海量文本數(shù)據(jù)的多任務(wù)并行調(diào)度加載技術(shù)研究與實(shí)現(xiàn)[A];第15屆全國信息存儲技術(shù)學(xué)術(shù)會議論文集[C];2008年

3 周純潔;黎]

本文編號:2690581


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2690581.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8054e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
亚洲国产成人爱av在线播放下载| 国内女人精品一区二区三区| 日韩人妻精品免费一区二区三区| 亚洲精品欧美精品日韩精品| 日韩成人午夜福利免费视频| 九九热国产这里只有精品| 国产毛片av一区二区三区小说| 东京热男人的天堂久久综合| 欧洲一区二区三区自拍天堂| 欧美日韩国内一区二区| 国内尹人香蕉综合在线| 日韩三极片在线免费播放| 我要看日本黄色小视频| 欧美黄色黑人一区二区| 免费性欧美重口味黄色| 亚洲av日韩av高潮无打码| 国产麻豆精品福利在线| 欧美自拍偷自拍亚洲精品| 国产精品视频一区麻豆专区| 国产熟女一区二区三区四区| 亚洲国产色婷婷久久精品| 高清不卡一卡二卡区在线| 91精品视频免费播放| 男女一进一出午夜视频| 在线欧美精品二区三区| 日韩精品视频一二三区| 99久久无色码中文字幕免费| 老熟女露脸一二三四区| 国产精品夜色一区二区三区不卡 | 青青久久亚洲婷婷中文网| 日韩一区二区免费在线观看| 在线免费观看黄色美女| 后入美臀少妇一区二区| 污污黄黄的成年亚洲毛片| 在线观看免费午夜福利| 97人妻精品一区二区三区免| 91精品日本在线视频| av中文字幕一区二区三区在线| 中文字幕乱子论一区二区三区| 日韩精品视频高清在线观看| 日本不卡一本二本三区|