天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向?qū)W術(shù)領(lǐng)域的輿情分析關(guān)鍵技術(shù)研究

發(fā)布時間:2017-04-12 13:22

  本文關(guān)鍵詞:面向?qū)W術(shù)領(lǐng)域的輿情分析關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。


【摘要】:目前,我國的輿情研究大多都是圍繞一般網(wǎng)絡(luò)輿情展開,主要包括網(wǎng)絡(luò)輿情的特點、管理、控制與引導、信息收集與分析、監(jiān)測、預警等方面。近幾年也出現(xiàn)了關(guān)于主題方面的輿情分析研究,但是大多還是針對于互聯(lián)網(wǎng)上BBS、電商評論、微博、新聞報道等大眾業(yè)余網(wǎng)絡(luò)空間的輿情分析,對于學術(shù)領(lǐng)域方面的輿情分析還很少。研究人員在從事科研之前需要閱讀大量的學術(shù)文獻,以便了解目前這一學術(shù)領(lǐng)域的最新研究熱點。然而面對海量的學術(shù)文獻,搜索引擎只能幫助用戶篩選出符合檢索條件的文章列表,科研人員仍然需要通過大量閱讀來獲得需要的研究熱點信息,這需要付出很多時間和精力。本文針對學術(shù)專業(yè)領(lǐng)域輿情分析缺失和中文專業(yè)主題內(nèi)容挖掘不深的問題,研究面向?qū)W術(shù)領(lǐng)域的輿情分析關(guān)鍵技術(shù),提出一個新型的面向?qū)W術(shù)領(lǐng)域的輿情分析算法。首先,根據(jù)用戶需求,對海量文獻進行基于學術(shù)特征的檢索,獲取相關(guān)文檔集合。然后,本文提出一種基于主題模型的多文檔自動摘要算法,通過LDA主題模型獲取文檔集合中每一篇文檔的主題概率分布和每個主題對應的詞語概率分布。同時根據(jù)主題分布的概率值,選取與文檔相關(guān)的前幾個主題來挖掘文本的淺層語義。然后將主題信息應用到選取摘要候選句的工作中,提出一種基于句子生成概率和文章結(jié)構(gòu)的方法來計算句子的權(quán)重。進一步根據(jù)LDA得到的詞語生成概率,對句子進行概率計算,并針對學術(shù)文獻不同部分重要度不同,提出改進文檔句子權(quán)重的方法,從而得到摘要候選句。由于學術(shù)文獻相似且重要的句子很多,僅僅考慮句子權(quán)重得到摘要是不夠的,還需要考慮摘要冗余的問題。本文又提出了一種基于最大邊緣相關(guān)法MMR并結(jié)合學術(shù)領(lǐng)域特征的冗余控制算法,通過對大量的學術(shù)文獻進行語料訓練,使用學術(shù)領(lǐng)域特征的相似度計算對摘要候選句進行多方面的計算評分來選取摘要,最終得到包含各個主題、內(nèi)容簡潔、冗余度低的輿情簡報展現(xiàn)給用戶。最后,本文開展了驗證實驗,并與已有的摘要算法進行比較。實驗結(jié)果表明,該算法可以較好提取學術(shù)特征信息,發(fā)現(xiàn)主題,去除冗余,提高輿情摘要的準確性和全面性。
【關(guān)鍵詞】:輿情分析 主題模型 自動摘要 摘要冗余
【學位授予單位】:東南大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
  • 摘要5-6
  • Abstract6-9
  • 第1章 引言9-14
  • 1.1 研究背景9-10
  • 1.2 研究現(xiàn)狀10-12
  • 1.2.1 國外輿情分析研究現(xiàn)狀10-11
  • 1.2.2 國內(nèi)輿情分析研究現(xiàn)狀11-12
  • 1.3 本文研究內(nèi)容12-13
  • 1.4 本文的組織結(jié)構(gòu)13-14
  • 第2章 輿情分析相關(guān)技術(shù)研究14-26
  • 2.1 網(wǎng)絡(luò)信息采集14-17
  • 2.1.1 網(wǎng)絡(luò)信息采集概述14
  • 2.1.2 基于鏈接分析的網(wǎng)絡(luò)信息采集算法14-16
  • 2.1.3 基于網(wǎng)頁內(nèi)容相關(guān)性分析的網(wǎng)絡(luò)信息采集算法16-17
  • 2.2 自動摘要算法17-22
  • 2.2.1 生成自動摘要算法17-18
  • 2.2.2 冗余度控制18-22
  • 2.3 文本相似度算法22-25
  • 2.3.1 長文本相似度算法22-23
  • 2.3.2 短文本相似度算法23-25
  • 2.4 本章小結(jié)25-26
  • 第3章 學術(shù)領(lǐng)域輿情生成算法設(shè)計實現(xiàn)26-46
  • 3.1 設(shè)計目標與算法流程26-27
  • 3.2 網(wǎng)絡(luò)輿情信息采集27-28
  • 3.2.1 網(wǎng)絡(luò)信息采集27
  • 3.2.2 學術(shù)領(lǐng)域網(wǎng)絡(luò)輿情信息采集27-28
  • 3.3 網(wǎng)絡(luò)輿情數(shù)據(jù)預處理28
  • 3.3.1 文本預處理28
  • 3.3.2 文本分詞28
  • 3.4 多文檔自動摘要28-39
  • 3.4.1 主題模型28-36
  • 3.4.2 句子權(quán)重計算方法36-38
  • 3.4.3 句子權(quán)重計算算法38-39
  • 3.5 摘要生成39-45
  • 3.5.1 摘要候選句的選取39
  • 3.5.2 摘要句生成算法39-40
  • 3.5.3 相似度計算40-45
  • 3.6 本章小結(jié)45-46
  • 第4章 實驗結(jié)果與分析46-51
  • 4.1 訓練詞料庫46
  • 4.2 實驗數(shù)據(jù)46
  • 4.3 LDA訓練結(jié)果46-47
  • 4.4 實驗結(jié)果與分析47-51
  • 第5章 總結(jié)和展望51-53
  • 5.1 總結(jié)51
  • 5.2 展望51-53
  • 參考文獻53-57
  • 致謝57

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 朱慶生;徐寧;周瑜;;一種基于鏈接和內(nèi)容分析的自適應主題爬蟲算法[J];計算機與現(xiàn)代化;2015年09期

2 王榮波;諶志群;周建政;李治;高飛;;基于Wikipedia的短文本語義相關(guān)度計算方法[J];計算機應用與軟件;2015年01期

3 王漢熙;萬成娜;劉凱;;網(wǎng)絡(luò)輿情研究現(xiàn)狀與發(fā)展方向[J];哈爾濱工業(yè)大學學報(社會科學版);2015年01期

4 李然;張華平;趙燕平;商建云;;基于主題模型與信息熵的中文文檔自動摘要技術(shù)研究[J];計算機科學;2014年S2期

5 唐亞娟;張德賢;楊琳;;一種新型的自動摘要冗余處理技術(shù)研究[J];中國新通信;2014年14期

6 姚明海;王娜;齊妙;李妍;;改進的最大相關(guān)最小冗余特征選擇方法研究[J];計算機工程與應用;2014年09期

7 何清;;大數(shù)據(jù)與云計算[J];科技促進發(fā)展;2014年01期

8 尹培培;;大數(shù)據(jù)時代的網(wǎng)絡(luò)輿情分析系統(tǒng)[J];廣播與電視技術(shù);2013年07期

9 路永和;李焰鋒;;改進TF-IDF算法的文本特征項權(quán)值計算方法[J];圖書情報工作;2013年03期

10 馬瑞新;鄧貴仕;王曉;;基于擴散理論的HITS算法在Web挖掘中的研究與優(yōu)化[J];計算機應用研究;2012年01期


  本文關(guān)鍵詞:面向?qū)W術(shù)領(lǐng)域的輿情分析關(guān)鍵技術(shù)研究,,由筆耕文化傳播整理發(fā)布。



本文編號:301378

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/301378.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶48805***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com