天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機應(yīng)用論文 >

網(wǎng)絡(luò)輿情信息識別與分析的關(guān)鍵技術(shù)研究

發(fā)布時間:2021-01-26 20:35
  隨著我國互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,人們逐漸使用電子設(shè)備通過網(wǎng)絡(luò)通道來進(jìn)行日常的工作和交流,廣大網(wǎng)民成為了網(wǎng)絡(luò)輿情信息傳播的主要介質(zhì),網(wǎng)絡(luò)中的輿情信息爆發(fā)式增多。冗長的輿情數(shù)據(jù)不僅嚴(yán)重浪費輿情信息分析人員的時間和精力,而且其內(nèi)容中的不良言論也會給社會穩(wěn)定帶來影響。此外,在海量魚龍混雜的網(wǎng)絡(luò)數(shù)據(jù)中存在大量對相關(guān)部門有價值的輿情信息,如何獲取并高效地分析這些數(shù)據(jù)從而幫助有關(guān)部門更好的了解社情民意是一個亟待解決的問題。基于以上問題,本文對網(wǎng)絡(luò)輿情信息識別與分析中所涉及到的文本摘要技術(shù)和文本分類技術(shù)進(jìn)行了相關(guān)研究與探索。本文的主要工作包括:1、針對輿情信息文本過長以及信息中存在主觀情感內(nèi)容的問題,基于帶注意力機制的Seq2Seq模型實現(xiàn)了文本摘要模型,為每條輿情信息生成一個簡短的摘要信息,將輿情信息簡潔化,并使用Coverage機制解決模型生成過多重復(fù)詞語的問題。2、針對目前生成式文本摘要模型對于文本主題信息利用較少的問題,使用一種有監(jiān)督算法提取出文本的關(guān)鍵詞信息,并利用此關(guān)鍵詞信息對注意力機制進(jìn)行改進(jìn),使模型對文本主題信息更加敏感,從而使得模型的效果得到提升。3、針對目前大多數(shù)生成式文本摘要模型都... 

【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:87 頁

【學(xué)位級別】:碩士

【部分圖文】:

網(wǎng)絡(luò)輿情信息識別與分析的關(guān)鍵技術(shù)研究


數(shù)據(jù)集原文本長度分布

文本,橫坐標(biāo),長度


第三章文本摘要技術(shù)研究35序列,過長的序列一方面會導(dǎo)致文本信息在編碼的過程中逐步丟失,另一方面會導(dǎo)致梯度在反向傳播的過程中逐漸消失,則此時模型的效果會受到影響。當(dāng)按詞語數(shù)進(jìn)行統(tǒng)計時,本文所使用數(shù)據(jù)集的原文本長度從18到13918不等,長度分布如圖3-8所示。圖3-8數(shù)據(jù)集原文本長度分布圖3-9中橫坐標(biāo)為200對應(yīng)的一項代表文本長度大于100且小于200的文本數(shù)占數(shù)據(jù)集中總文本數(shù)的比例,其余類似,最后一項是指長度大于1500的文本數(shù)占數(shù)據(jù)集中總文本數(shù)的比例。由圖可以看出,長度大于400的文本占到了文本總數(shù)的50%。另外,雖然從建模的角度來看,端到端模型具有吸引力,然而,有證據(jù)表明,當(dāng)人們進(jìn)行概括時,遵循兩步法:首先從原文中選擇出重要的短語或子句,然后再對它們進(jìn)行進(jìn)一步的釋義[68]。在圖像字幕中也有類似的證據(jù),Anderson等人[69]提出了一種雙階段模型,這個模型首先對待切割的目標(biāo)物體預(yù)先計算得到一個邊界框,然后再在這些區(qū)域內(nèi)運用注意力機制來進(jìn)行進(jìn)一步的計算。基于以上分析,本文提出了一種雙階段文本摘要模型,先從原文本中將與文本主題最為相關(guān)的子句抽取出,且盡可能的保證這些子句中包含更多文本關(guān)鍵詞以及標(biāo)準(zhǔn)摘要中的詞語,然后將抽取出的內(nèi)容作為生成式文本摘要模型的輸入,進(jìn)行第二階段的學(xué)習(xí)和訓(xùn)練。第二階段使用的是帶注意力機制、Coverage機制和指針網(wǎng)絡(luò)的生成式模型。由于本文所使用的數(shù)據(jù)集是生成式文本摘要的公開數(shù)據(jù)集,所以對于此數(shù)據(jù)集而言,雙階段文本摘要模型第一階段所需要抽取出的文本內(nèi)容并沒有一個實際的參考,于是本文采用一種啟發(fā)式方法,選取出原文中的重要內(nèi)容作為第二階段模型的輸入。此部分過程的示意圖如圖3-9所示。

過程圖,子句,文本,階段


電子科技大學(xué)碩士學(xué)位論文36圖3-9第一階段抽取文本子句過程由圖3-10可以看出,此方法一方面從子句的語義方面評估其重要性,一方面從子句的關(guān)鍵詞方面評估其重要性。在子句的語義得分方面,首先使用BERT獲得原文本中每個子句的語義向量及標(biāo)準(zhǔn)摘要的向量,以此計算得到每個子句與標(biāo)準(zhǔn)摘要的語義相似性,然后基于此相似性對原文打標(biāo)簽得到數(shù)據(jù)集T_S,之后使用T_S按照序列標(biāo)注的思想訓(xùn)練得到一個語義得分預(yù)測模型,模型訓(xùn)練好之后即可用它獲得文本摘要數(shù)據(jù)集中每條原文本的各子句語義得分。此外,考慮到挑選出的子句的多樣性,又使用MMR算法對上述語義得分進(jìn)行調(diào)整,獲得文本中子句最終的語義得分score_sim={s_s1,s_s2,…,s_sTs},其中s_sk表示使用MMR算法調(diào)整之后第k個子句的語義得分,Ts是原文本的子句數(shù);在子句的關(guān)鍵詞得分方面,首先使用3.3節(jié)中的方法獲得原文中每個詞語屬于關(guān)鍵詞的概率,然后基于此概率通過計算獲得文本中所有子句的關(guān)鍵詞得分score_key={s_k1,s_k2,…,s_kTs},其中s_kk表示第k條子句的關(guān)鍵詞得分;最終同時考慮子句的語義得分score_sim和關(guān)鍵詞得分score_key獲得原文本中每個子句最終的得分score={s_c1,s_c2,…,s_cTs},然后根據(jù)此得分選取出得分最高的K個子句。具體每步的做法如下:a)獲得子句語義得分首先是文本子句語義向量和文本主題向量的獲齲對于子句語義向量的獲取,此處的做法與3.4節(jié)中的方法一致。即使用BERT模型輸出層中“CLS”所在位置的輸出作為各子句的語義向量,文本子句向量序列表示為s_v={s_v1,s_v2,…,s_vTs}。對于文本主題向量的獲取,一般都是對文本中的詞向量或者子句向量進(jìn)行相關(guān)操作得到,但是,一方面,簡單使用文本中的詞向量或子句向量進(jìn)行拼接或者

【參考文獻(xiàn)】:
期刊論文
[1]不平衡訓(xùn)練數(shù)據(jù)下的基于深度學(xué)習(xí)的文本分類[J]. 陳志,郭武.  小型微型計算機系統(tǒng). 2020(01)
[2]基于Word2vec和改進(jìn)型TF-IDF的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 王根生,黃學(xué)堅.  小型微型計算機系統(tǒng). 2019(05)
[3]基于改進(jìn)TextRank算法的中文文本摘要提取[J]. 徐馨韜,柴小麗,謝彬,沈晨,王敬平.  計算機工程. 2019(03)
[4]主題關(guān)鍵詞信息融合的中文生成式自動摘要研究[J]. 侯麗微,胡珀,曹雯琳.  自動化學(xué)報. 2019(03)
[5]結(jié)合注意力與卷積神經(jīng)網(wǎng)絡(luò)的中文摘要研究[J]. 周才東,曾碧卿,王盛玉,商齊.  計算機工程與應(yīng)用. 2019(08)
[6]基于多通道卷積神經(jīng)網(wǎng)絡(luò)的中文微博情感分析[J]. 陳珂,梁斌,柯文德,許波,曾國超.  計算機研究與發(fā)展. 2018(05)
[7]基于主題增強卷積神經(jīng)網(wǎng)絡(luò)的用戶興趣識別[J]. 杜雨萌,張偉男,劉挺.  計算機研究與發(fā)展. 2018(01)
[8]基于循環(huán)和卷積神經(jīng)網(wǎng)絡(luò)的文本分類研究[J]. 劉騰飛,于雙元,張洪濤,尹鴻峰.  軟件. 2018(01)
[9]結(jié)合注意力機制的長文本分類方法[J]. 盧玲,楊武,王遠(yuǎn)倫,雷子鑒,李瑩.  計算機應(yīng)用. 2018(05)
[10]基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分析[J]. 梁斌,劉全,徐進(jìn),周倩,章鵬.  計算機研究與發(fā)展. 2017(08)

博士論文
[1]高維數(shù)據(jù)的特征選擇與特征提取研究[D]. 蔣勝利.西安電子科技大學(xué) 2011

碩士論文
[1]網(wǎng)絡(luò)警情的信息提取與分析的關(guān)鍵技術(shù)研究與實現(xiàn)[D]. 方丹.電子科技大學(xué) 2019
[2]基于文本分類的微博情感傾向研究[D]. 楊歡.重慶師范大學(xué) 2016
[3]我國突發(fā)公共事件的網(wǎng)絡(luò)輿情研究[D]. 唐喜亮.電子科技大學(xué) 2008



本文編號:3001775

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3001775.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cdd4f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com