天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于卷積神經(jīng)網(wǎng)絡(luò)的中美新聞文本分類及差異性研究

發(fā)布時間:2021-07-09 02:05
  隨著大數(shù)據(jù)時代的來臨,信息的獲取變得簡單,而在海量數(shù)據(jù)中挖掘有價值的信息成為了新的挑戰(zhàn)。新聞媒體是我們獲取信息的重要渠道,研究新聞文本的分類問題在大數(shù)據(jù)時代具有重要意義。隨著深度學(xué)習研究的深入,其已經(jīng)在圖像識別和語音識別等領(lǐng)域取得了突出進展,將深度學(xué)習應(yīng)用于文本分類領(lǐng)域,具有重要的研究和應(yīng)用價值。本文介紹了文本分類的發(fā)展歷史與研究意義,簡述了深度學(xué)習算法在文本分類領(lǐng)域的應(yīng)用,并詳細介紹了卷積神經(jīng)網(wǎng)絡(luò)算法,針對當前文本分析領(lǐng)域面臨的問題,提出基于卷積神經(jīng)網(wǎng)絡(luò)的新聞文本分類算法,并對中美新聞媒體報道新聞的差異性進行了比較。本文的主要研究內(nèi)容如下:1.利用爬蟲技術(shù)持續(xù)爬取中美各大新聞門戶網(wǎng)站發(fā)布的新聞內(nèi)容,依據(jù)社會學(xué)的定義將新聞按照內(nèi)容劃分為32個類別,人工標注其中的一部分新聞當作訓(xùn)練集。經(jīng)過預(yù)處理和特征提取后將文本輸入搭建好的卷積神經(jīng)網(wǎng)絡(luò)模型中進行訓(xùn)練。相比于直接從互聯(lián)網(wǎng)上獲取的新聞?wù)Z料庫,本文使用的新聞數(shù)據(jù)集類別多樣,且具有時效性,能夠說明卷積神經(jīng)網(wǎng)絡(luò)在多類別文本分類任務(wù)中的性能。本文訓(xùn)練的網(wǎng)絡(luò)模型在中文新聞文本上的準確率達到了83%,在英文新聞文本上達到了90%。2.利用訓(xùn)練好的卷積神... 

【文章來源】:廣西大學(xué)廣西壯族自治區(qū) 211工程院校

【文章頁數(shù)】:60 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于卷積神經(jīng)網(wǎng)絡(luò)的中美新聞文本分類及差異性研究


圖2-3卷枳神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)??Fig.?2-3?Structure?of?convolutional?neural?network??

后文本


帶詞典庫中出現(xiàn)的詞,引入了HMM模型,生成新的詞語。分詞前后的效果對比如下圖??所示:??圖3-2分詞前文本??Fig.?3-2?Pre-word?segmentation?text??圖3-3分詞后文本??Fig.?3-3?Text?after?word?segmentation??分詞之后要去掉停用詞,停用詞就是一些沒有什么具體含義,對于文本分類沒饤幫??助,而且增加了文本冗余度的詞語。本文使用的停用詞庫是由網(wǎng)絡(luò)上常見的停)丨況和針??對爬取的新聞文本增加的停用詞結(jié)合而成,具體步驟如卜、??(1)

新聞文本,后文本,文本分類,詞語


圖3-2分詞前文本??Fig.?3-2?Pre-word?segmentation?text??圖3-3分詞后文本??Fig.?3-3?Text?after?word?segmentation??分詞之后要去掉停用詞,停用詞就是一些沒有什么具體含義,對于文本分類沒饤幫??助,而且增加了文本冗余度的詞語。本文使用的停用詞庫是由網(wǎng)絡(luò)上常見的停)丨況和針??對爬取的新聞文本增加的停用詞結(jié)合而成,具體步驟如卜、??(1)

【參考文獻】:
期刊論文
[1]改進的卷積神經(jīng)網(wǎng)絡(luò)行人檢測方法[J]. 徐超,閆勝業(yè).  計算機應(yīng)用. 2017(06)
[2]基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像目標檢測[J]. 尹勰,閆磊.  工業(yè)控制計算機. 2017(04)
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的自適應(yīng)權(quán)重multi-gram語句建模系統(tǒng)[J]. 張春云,秦鵬達,尹義龍.  計算機科學(xué). 2017(01)
[4]基于卷積神經(jīng)網(wǎng)絡(luò)的連續(xù)語音識別[J]. 張晴晴,劉勇,潘接林,顏永紅.  工程科學(xué)學(xué)報. 2015(09)
[5]基于深度信念網(wǎng)絡(luò)的文本分類算法[J]. 陳翠平.  計算機系統(tǒng)應(yīng)用. 2015(02)
[6]基于LDA模型的文本聚類研究[J]. 王鵬,高鋮,陳曉美.  情報科學(xué). 2015(01)
[7]基于SVM和CRF多特征組合的微博情感分析[J]. 李婷婷,姬東鴻.  計算機應(yīng)用研究. 2015(04)
[8]基于深度學(xué)習的微博情感分析[J]. 梁軍,柴玉梅,原慧斌,昝紅英,劉銘.  中文信息學(xué)報. 2014(05)
[9]面向微博系統(tǒng)的實時個性化推薦[J]. 高明,金澈清,錢衛(wèi)寧,王曉玲,周傲英.  計算機學(xué)報. 2014(04)
[10]一種新型樸素貝葉斯文本分類算法[J]. 邸鵬,段利國.  數(shù)據(jù)采集與處理. 2014(01)



本文編號:3272791

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3272791.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f7b10***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com