基于深度學(xué)習的安全新聞流行度預(yù)測研究
發(fā)布時間:2021-04-03 23:32
新聞流行度預(yù)測是對新聞在未來時刻的點擊量、評論數(shù)或者轉(zhuǎn)發(fā)量的預(yù)測,通過對流行度的預(yù)測能夠進行新聞質(zhì)量評估,新聞排名,新聞推薦以及新聞檢索等。新聞流行度的預(yù)測還能夠緩解當今網(wǎng)絡(luò)及社交媒體飛速發(fā)展帶來的信息爆炸和信息過載問題。但是由于新聞存在時效性且生命周期較短為發(fā)布后的預(yù)測帶來局限性,而發(fā)布前預(yù)測由于影響因素的多樣性和難定義性也面臨巨大的挑戰(zhàn)。已有工作中對新聞進行發(fā)布前的流行度預(yù)測存在無法處理多源粗糙數(shù)據(jù)集且預(yù)測誤差較大的問題。本文提出了一種基于Doc2vec的改進圖排序關(guān)鍵句提取算法抽取新聞關(guān)鍵句;基于新聞表面信息和關(guān)鍵句以多特征融合的方式進行特征提取;結(jié)合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)門限循環(huán)單元訓(xùn)練回歸預(yù)測模型并提出了一種能夠處理多源粗糙數(shù)據(jù)集且極大降低預(yù)測誤差的新聞流行度預(yù)測框架。本文的工作內(nèi)容主要包括以下四點:(1)本文設(shè)計網(wǎng)絡(luò)爬蟲得到了來自國內(nèi)10個信息安全門戶網(wǎng)站的不同類型、不同結(jié)構(gòu)的新聞數(shù)據(jù),經(jīng)過對數(shù)據(jù)的去重以及過濾等預(yù)處理操作后構(gòu)造了可用于新聞分類、流行度預(yù)測以及自然語言處理等領(lǐng)域的中文數(shù)據(jù)集共25939條。(2)對新聞發(fā)布前進行流行度預(yù)測主要依賴新聞自身信息,不同來源、不同類型的新聞具...
【文章來源】: 孔君莉 西安電子科技大學(xué)
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【部分圖文】:
k=3關(guān)鍵句提取結(jié)果例圖一
圖4.3 k=3 關(guān)鍵句提取結(jié)果例圖二在進行關(guān)鍵句提取時可以根據(jù)需要設(shè)置 k 的取值決定關(guān)鍵句的提取數(shù)量。為觀察該算法在本文數(shù)據(jù)集上的關(guān)鍵句提取效果,本文隨機選擇數(shù)據(jù)集中的新 k 的取值分別設(shè)為 3 和 5 進行關(guān)鍵句提取。因關(guān)鍵句的提取受主觀影響因素較大導(dǎo)致新聞關(guān)鍵句自動提取領(lǐng)域結(jié)果的是該領(lǐng)域面臨的挑戰(zhàn),目前在該領(lǐng)域?qū)φY(jié)果的評價方法主要分為人工評指標評價兩種方法。人工評價通過人為對提取結(jié)果的概括性、可讀性進行判用指標評價時其主要參考依據(jù)為提取結(jié)果與參照摘要的重合比例。由于本文具備參照摘要,因此將在線系統(tǒng)提取結(jié)果作為參照摘要并與之對比。對本文數(shù)據(jù)集中任意新聞,將 k 設(shè)置為 3 時,本文方法與在線系統(tǒng)的對比結(jié)4.5 所示,提取的 3 句關(guān)鍵句中,二者存在 2 句相同分句。上文提到,k 值的了提取關(guān)鍵句的數(shù)量,將 k 設(shè)置為 5,仍然以在線系統(tǒng)的提取結(jié)果作為參照果如圖 4.4 所示。在線系統(tǒng)與本文提取結(jié)果的相同分句數(shù)量為 3 句,而其中鍵句中也存在代表核心內(nèi)容的重疊詞匯。
39圖4.4 k=5 關(guān)鍵句提取結(jié)果對比例圖當 k=3 和 k=5 時本文算法的提取結(jié)果與在線系統(tǒng)提取結(jié)果的覆蓋比例如表 4.4 所示,以數(shù)據(jù)集中任意一篇新聞為例,當關(guān)鍵句數(shù)量分別設(shè)為 3 和 5 時,通過本文算法提取結(jié)果與在線系統(tǒng)相比分別有 2/3 和 3/5 的覆蓋比例。本文提取結(jié)果與參照摘要存在較高的覆蓋率,而本文的提取結(jié)果與在線系統(tǒng)相比考慮了句子自身的所處位置這一特征因此能夠保證句子在原文中的前后關(guān)系。
【參考文獻】:
期刊論文
[1]基于改進TextRank算法的中文文本摘要提取[J]. 徐馨韜,柴小麗,謝彬,沈晨,王敬平. 計算機工程. 2019(03)
[2]循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 楊麗,吳雨茜,王俊麗,劉義理. 計算機應(yīng)用. 2018(S2)
[3]基于詞向量Doc2vec的雙向LSTM情感分析[J]. 張俊飛,畢志升,吳小玲. 計算機與數(shù)字工程. 2018(12)
[4]面向查詢的自動文本摘要技術(shù)研究綜述[J]. 王凱祥. 計算機科學(xué). 2018(S2)
[5]基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J]. 李洋,董紅斌. 計算機應(yīng)用. 2018(11)
[6]基于TextRank的文本情感摘要提取方法[J]. 荀靜,楊玉珍. 計算機應(yīng)用與軟件. 2018(10)
[7]結(jié)合Doc2Vec與改進聚類算法的中文單文檔自動摘要方法研究[J]. 賈曉婷,王名揚,曹宇. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(02)
[8]基于多特征的微博情感分析研究[J]. 劉續(xù)樂,何炎祥. 計算機工程. 2017(12)
[9]基于詞向量技術(shù)和混合神經(jīng)網(wǎng)絡(luò)的情感分析[J]. 胡朝舉,趙曉偉. 計算機應(yīng)用研究. 2018(12)
[10]基于Word2vec的句子語義相似度計算研究[J]. 李曉,解輝,李立杰. 計算機科學(xué). 2017(09)
碩士論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實體識別研究[D]. 顧孫炎.南京郵電大學(xué) 2018
[2]基于TextRank算法的單文檔自動文摘研究[D]. 曹洋.南京大學(xué) 2016
本文編號:3117290
【文章來源】: 孔君莉 西安電子科技大學(xué)
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【部分圖文】:
k=3關(guān)鍵句提取結(jié)果例圖一
圖4.3 k=3 關(guān)鍵句提取結(jié)果例圖二在進行關(guān)鍵句提取時可以根據(jù)需要設(shè)置 k 的取值決定關(guān)鍵句的提取數(shù)量。為觀察該算法在本文數(shù)據(jù)集上的關(guān)鍵句提取效果,本文隨機選擇數(shù)據(jù)集中的新 k 的取值分別設(shè)為 3 和 5 進行關(guān)鍵句提取。因關(guān)鍵句的提取受主觀影響因素較大導(dǎo)致新聞關(guān)鍵句自動提取領(lǐng)域結(jié)果的是該領(lǐng)域面臨的挑戰(zhàn),目前在該領(lǐng)域?qū)φY(jié)果的評價方法主要分為人工評指標評價兩種方法。人工評價通過人為對提取結(jié)果的概括性、可讀性進行判用指標評價時其主要參考依據(jù)為提取結(jié)果與參照摘要的重合比例。由于本文具備參照摘要,因此將在線系統(tǒng)提取結(jié)果作為參照摘要并與之對比。對本文數(shù)據(jù)集中任意新聞,將 k 設(shè)置為 3 時,本文方法與在線系統(tǒng)的對比結(jié)4.5 所示,提取的 3 句關(guān)鍵句中,二者存在 2 句相同分句。上文提到,k 值的了提取關(guān)鍵句的數(shù)量,將 k 設(shè)置為 5,仍然以在線系統(tǒng)的提取結(jié)果作為參照果如圖 4.4 所示。在線系統(tǒng)與本文提取結(jié)果的相同分句數(shù)量為 3 句,而其中鍵句中也存在代表核心內(nèi)容的重疊詞匯。
39圖4.4 k=5 關(guān)鍵句提取結(jié)果對比例圖當 k=3 和 k=5 時本文算法的提取結(jié)果與在線系統(tǒng)提取結(jié)果的覆蓋比例如表 4.4 所示,以數(shù)據(jù)集中任意一篇新聞為例,當關(guān)鍵句數(shù)量分別設(shè)為 3 和 5 時,通過本文算法提取結(jié)果與在線系統(tǒng)相比分別有 2/3 和 3/5 的覆蓋比例。本文提取結(jié)果與參照摘要存在較高的覆蓋率,而本文的提取結(jié)果與在線系統(tǒng)相比考慮了句子自身的所處位置這一特征因此能夠保證句子在原文中的前后關(guān)系。
【參考文獻】:
期刊論文
[1]基于改進TextRank算法的中文文本摘要提取[J]. 徐馨韜,柴小麗,謝彬,沈晨,王敬平. 計算機工程. 2019(03)
[2]循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 楊麗,吳雨茜,王俊麗,劉義理. 計算機應(yīng)用. 2018(S2)
[3]基于詞向量Doc2vec的雙向LSTM情感分析[J]. 張俊飛,畢志升,吳小玲. 計算機與數(shù)字工程. 2018(12)
[4]面向查詢的自動文本摘要技術(shù)研究綜述[J]. 王凱祥. 計算機科學(xué). 2018(S2)
[5]基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J]. 李洋,董紅斌. 計算機應(yīng)用. 2018(11)
[6]基于TextRank的文本情感摘要提取方法[J]. 荀靜,楊玉珍. 計算機應(yīng)用與軟件. 2018(10)
[7]結(jié)合Doc2Vec與改進聚類算法的中文單文檔自動摘要方法研究[J]. 賈曉婷,王名揚,曹宇. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(02)
[8]基于多特征的微博情感分析研究[J]. 劉續(xù)樂,何炎祥. 計算機工程. 2017(12)
[9]基于詞向量技術(shù)和混合神經(jīng)網(wǎng)絡(luò)的情感分析[J]. 胡朝舉,趙曉偉. 計算機應(yīng)用研究. 2018(12)
[10]基于Word2vec的句子語義相似度計算研究[J]. 李曉,解輝,李立杰. 計算機科學(xué). 2017(09)
碩士論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實體識別研究[D]. 顧孫炎.南京郵電大學(xué) 2018
[2]基于TextRank算法的單文檔自動文摘研究[D]. 曹洋.南京大學(xué) 2016
本文編號:3117290
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3117290.html
最近更新
教材專著