基于深度學(xué)習(xí)的網(wǎng)絡(luò)熱點新聞預(yù)測方法研究
發(fā)布時間:2020-06-02 01:52
【摘要】:現(xiàn)如今,互聯(lián)網(wǎng)的發(fā)展如火如荼,催生了多種網(wǎng)絡(luò)應(yīng)用。特別是Web2.0與大數(shù)據(jù)時代的到來,通過大量的網(wǎng)絡(luò)新聞數(shù)據(jù)來分析股市,個人理財,關(guān)注國家財政大事。網(wǎng)絡(luò)新聞這一簡單快捷的方式,逐漸受到了越來越多用戶的青睞。然而各大新聞網(wǎng)站每天報道的新聞數(shù)目繁多,質(zhì)量良莠不齊,用戶不可能耗費(fèi)精力全部查看進(jìn)而獲得有用信息,用戶往往只關(guān)注網(wǎng)絡(luò)熱點新聞,因此本文針對網(wǎng)絡(luò)熱點新聞的預(yù)測問題展開研究,結(jié)合新聞文本的特點,論文主要工作如下:1)網(wǎng)絡(luò)新聞數(shù)據(jù)的抓取與預(yù)處理:使用python設(shè)計并實現(xiàn)了網(wǎng)絡(luò)新聞數(shù)據(jù)抓取系統(tǒng),使用爬蟲從搜狐新聞網(wǎng)站上的財經(jīng)新聞專欄抓取以下兩類新聞:熱點新聞和非熱點新聞,并通過時間的積累長期抓取,以獲得大量的財經(jīng)新聞數(shù)據(jù),之后將新聞進(jìn)行整合。為了避免不必要的誤差,在形成中文語料庫之前,其中中文文本的分詞、去停用詞處理必不可少,經(jīng)過一系列的處理最終得到標(biāo)注著熱點和非熱點的新聞?wù)Z料庫。2)提出網(wǎng)絡(luò)熱點新聞的深度學(xué)習(xí)模型:使用雙層雙向長短期記憶神經(jīng)網(wǎng)絡(luò)LSTM的變體GRU和注意力機(jī)制Attention來搭建網(wǎng)絡(luò)新聞流行度預(yù)測的深度學(xué)習(xí)網(wǎng)絡(luò)模型,在中文維基百科和搜狗實驗室網(wǎng)絡(luò)新聞?wù)Z料庫上使用Word2Vec訓(xùn)練詞向量,使用詞嵌入層(Word Embedding)將新聞文本用詞向量表示,使用預(yù)訓(xùn)練的詞向量進(jìn)行初始化,并在模型的訓(xùn)練過程中不斷調(diào)整,從使用詞向量表示的新聞文本中提取抽象化的特征;最后使用全連接層(Dense)進(jìn)行網(wǎng)絡(luò)熱點新聞的預(yù)測。實驗結(jié)果表明,僅僅通過簡單的調(diào)參,基于BIGRU-ATTENTION的模型預(yù)測結(jié)果優(yōu)于其他基礎(chǔ)深度學(xué)習(xí)模型以及傳統(tǒng)機(jī)器學(xué)習(xí)模型,并且使用GRU代替LSTM,提高了效率,節(jié)約程序運(yùn)行時間,為深度學(xué)習(xí)進(jìn)行文本分類奠定了良好的基礎(chǔ)。
【學(xué)位授予單位】:西安科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP18;TP391.1
本文編號:2692421
【學(xué)位授予單位】:西安科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP18;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 孔慶超;毛文吉;;基于動態(tài)演化的討論帖流行度預(yù)測[J];軟件學(xué)報;2014年12期
2 姚旭;王曉丹;張玉璽;權(quán)文;;特征選擇方法綜述[J];控制與決策;2012年02期
3 李良榮;童希;;互聯(lián)網(wǎng)時代新聞報道新思維[J];現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報);2010年10期
4 楊偉杰;戴汝為;崔霞;;一種基于信息檢索技術(shù)的網(wǎng)絡(luò)新聞影響力分析方法[J];軟件學(xué)報;2009年09期
5 黃鸝;論網(wǎng)絡(luò)媒體傳播功能的特點[J];華中理工大學(xué)學(xué)報(社會科學(xué)版);2000年02期
,本文編號:2692421
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2692421.html
最近更新
教材專著