基于卷積神經(jīng)網(wǎng)絡(luò)的中美新聞文本分類及差異性研究
發(fā)布時(shí)間:2021-07-09 02:05
隨著大數(shù)據(jù)時(shí)代的來(lái)臨,信息的獲取變得簡(jiǎn)單,而在海量數(shù)據(jù)中挖掘有價(jià)值的信息成為了新的挑戰(zhàn)。新聞媒體是我們獲取信息的重要渠道,研究新聞文本的分類問(wèn)題在大數(shù)據(jù)時(shí)代具有重要意義。隨著深度學(xué)習(xí)研究的深入,其已經(jīng)在圖像識(shí)別和語(yǔ)音識(shí)別等領(lǐng)域取得了突出進(jìn)展,將深度學(xué)習(xí)應(yīng)用于文本分類領(lǐng)域,具有重要的研究和應(yīng)用價(jià)值。本文介紹了文本分類的發(fā)展歷史與研究意義,簡(jiǎn)述了深度學(xué)習(xí)算法在文本分類領(lǐng)域的應(yīng)用,并詳細(xì)介紹了卷積神經(jīng)網(wǎng)絡(luò)算法,針對(duì)當(dāng)前文本分析領(lǐng)域面臨的問(wèn)題,提出基于卷積神經(jīng)網(wǎng)絡(luò)的新聞文本分類算法,并對(duì)中美新聞媒體報(bào)道新聞的差異性進(jìn)行了比較。本文的主要研究?jī)?nèi)容如下:1.利用爬蟲(chóng)技術(shù)持續(xù)爬取中美各大新聞門(mén)戶網(wǎng)站發(fā)布的新聞內(nèi)容,依據(jù)社會(huì)學(xué)的定義將新聞按照內(nèi)容劃分為32個(gè)類別,人工標(biāo)注其中的一部分新聞當(dāng)作訓(xùn)練集。經(jīng)過(guò)預(yù)處理和特征提取后將文本輸入搭建好的卷積神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練。相比于直接從互聯(lián)網(wǎng)上獲取的新聞?wù)Z料庫(kù),本文使用的新聞數(shù)據(jù)集類別多樣,且具有時(shí)效性,能夠說(shuō)明卷積神經(jīng)網(wǎng)絡(luò)在多類別文本分類任務(wù)中的性能。本文訓(xùn)練的網(wǎng)絡(luò)模型在中文新聞文本上的準(zhǔn)確率達(dá)到了83%,在英文新聞文本上達(dá)到了90%。2.利用訓(xùn)練好的卷積神...
【文章來(lái)源】:廣西大學(xué)廣西壯族自治區(qū) 211工程院校
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-3卷枳神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)??Fig.?2-3?Structure?of?convolutional?neural?network??
帶詞典庫(kù)中出現(xiàn)的詞,引入了HMM模型,生成新的詞語(yǔ)。分詞前后的效果對(duì)比如下圖??所示:??圖3-2分詞前文本??Fig.?3-2?Pre-word?segmentation?text??圖3-3分詞后文本??Fig.?3-3?Text?after?word?segmentation??分詞之后要去掉停用詞,停用詞就是一些沒(méi)有什么具體含義,對(duì)于文本分類沒(méi)饤幫??助,而且增加了文本冗余度的詞語(yǔ)。本文使用的停用詞庫(kù)是由網(wǎng)絡(luò)上常見(jiàn)的停)丨況和針??對(duì)爬取的新聞文本增加的停用詞結(jié)合而成,具體步驟如卜、??(1)
圖3-2分詞前文本??Fig.?3-2?Pre-word?segmentation?text??圖3-3分詞后文本??Fig.?3-3?Text?after?word?segmentation??分詞之后要去掉停用詞,停用詞就是一些沒(méi)有什么具體含義,對(duì)于文本分類沒(méi)饤幫??助,而且增加了文本冗余度的詞語(yǔ)。本文使用的停用詞庫(kù)是由網(wǎng)絡(luò)上常見(jiàn)的停)丨況和針??對(duì)爬取的新聞文本增加的停用詞結(jié)合而成,具體步驟如卜、??(1)
【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)行人檢測(cè)方法[J]. 徐超,閆勝業(yè). 計(jì)算機(jī)應(yīng)用. 2017(06)
[2]基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像目標(biāo)檢測(cè)[J]. 尹勰,閆磊. 工業(yè)控制計(jì)算機(jī). 2017(04)
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的自適應(yīng)權(quán)重multi-gram語(yǔ)句建模系統(tǒng)[J]. 張春云,秦鵬達(dá),尹義龍. 計(jì)算機(jī)科學(xué). 2017(01)
[4]基于卷積神經(jīng)網(wǎng)絡(luò)的連續(xù)語(yǔ)音識(shí)別[J]. 張晴晴,劉勇,潘接林,顏永紅. 工程科學(xué)學(xué)報(bào). 2015(09)
[5]基于深度信念網(wǎng)絡(luò)的文本分類算法[J]. 陳翠平. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2015(02)
[6]基于LDA模型的文本聚類研究[J]. 王鵬,高鋮,陳曉美. 情報(bào)科學(xué). 2015(01)
[7]基于SVM和CRF多特征組合的微博情感分析[J]. 李婷婷,姬東鴻. 計(jì)算機(jī)應(yīng)用研究. 2015(04)
[8]基于深度學(xué)習(xí)的微博情感分析[J]. 梁軍,柴玉梅,原慧斌,昝紅英,劉銘. 中文信息學(xué)報(bào). 2014(05)
[9]面向微博系統(tǒng)的實(shí)時(shí)個(gè)性化推薦[J]. 高明,金澈清,錢(qián)衛(wèi)寧,王曉玲,周傲英. 計(jì)算機(jī)學(xué)報(bào). 2014(04)
[10]一種新型樸素貝葉斯文本分類算法[J]. 邸鵬,段利國(guó). 數(shù)據(jù)采集與處理. 2014(01)
本文編號(hào):3272791
【文章來(lái)源】:廣西大學(xué)廣西壯族自治區(qū) 211工程院校
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-3卷枳神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)??Fig.?2-3?Structure?of?convolutional?neural?network??
帶詞典庫(kù)中出現(xiàn)的詞,引入了HMM模型,生成新的詞語(yǔ)。分詞前后的效果對(duì)比如下圖??所示:??圖3-2分詞前文本??Fig.?3-2?Pre-word?segmentation?text??圖3-3分詞后文本??Fig.?3-3?Text?after?word?segmentation??分詞之后要去掉停用詞,停用詞就是一些沒(méi)有什么具體含義,對(duì)于文本分類沒(méi)饤幫??助,而且增加了文本冗余度的詞語(yǔ)。本文使用的停用詞庫(kù)是由網(wǎng)絡(luò)上常見(jiàn)的停)丨況和針??對(duì)爬取的新聞文本增加的停用詞結(jié)合而成,具體步驟如卜、??(1)
圖3-2分詞前文本??Fig.?3-2?Pre-word?segmentation?text??圖3-3分詞后文本??Fig.?3-3?Text?after?word?segmentation??分詞之后要去掉停用詞,停用詞就是一些沒(méi)有什么具體含義,對(duì)于文本分類沒(méi)饤幫??助,而且增加了文本冗余度的詞語(yǔ)。本文使用的停用詞庫(kù)是由網(wǎng)絡(luò)上常見(jiàn)的停)丨況和針??對(duì)爬取的新聞文本增加的停用詞結(jié)合而成,具體步驟如卜、??(1)
【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)行人檢測(cè)方法[J]. 徐超,閆勝業(yè). 計(jì)算機(jī)應(yīng)用. 2017(06)
[2]基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像目標(biāo)檢測(cè)[J]. 尹勰,閆磊. 工業(yè)控制計(jì)算機(jī). 2017(04)
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的自適應(yīng)權(quán)重multi-gram語(yǔ)句建模系統(tǒng)[J]. 張春云,秦鵬達(dá),尹義龍. 計(jì)算機(jī)科學(xué). 2017(01)
[4]基于卷積神經(jīng)網(wǎng)絡(luò)的連續(xù)語(yǔ)音識(shí)別[J]. 張晴晴,劉勇,潘接林,顏永紅. 工程科學(xué)學(xué)報(bào). 2015(09)
[5]基于深度信念網(wǎng)絡(luò)的文本分類算法[J]. 陳翠平. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2015(02)
[6]基于LDA模型的文本聚類研究[J]. 王鵬,高鋮,陳曉美. 情報(bào)科學(xué). 2015(01)
[7]基于SVM和CRF多特征組合的微博情感分析[J]. 李婷婷,姬東鴻. 計(jì)算機(jī)應(yīng)用研究. 2015(04)
[8]基于深度學(xué)習(xí)的微博情感分析[J]. 梁軍,柴玉梅,原慧斌,昝紅英,劉銘. 中文信息學(xué)報(bào). 2014(05)
[9]面向微博系統(tǒng)的實(shí)時(shí)個(gè)性化推薦[J]. 高明,金澈清,錢(qián)衛(wèi)寧,王曉玲,周傲英. 計(jì)算機(jī)學(xué)報(bào). 2014(04)
[10]一種新型樸素貝葉斯文本分類算法[J]. 邸鵬,段利國(guó). 數(shù)據(jù)采集與處理. 2014(01)
本文編號(hào):3272791
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3272791.html
最近更新
教材專著