面向?qū)W術(shù)領(lǐng)域的輿情分析關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:面向?qū)W術(shù)領(lǐng)域的輿情分析關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:目前,我國的輿情研究大多都是圍繞一般網(wǎng)絡(luò)輿情展開,主要包括網(wǎng)絡(luò)輿情的特點(diǎn)、管理、控制與引導(dǎo)、信息收集與分析、監(jiān)測、預(yù)警等方面。近幾年也出現(xiàn)了關(guān)于主題方面的輿情分析研究,但是大多還是針對(duì)于互聯(lián)網(wǎng)上BBS、電商評(píng)論、微博、新聞報(bào)道等大眾業(yè)余網(wǎng)絡(luò)空間的輿情分析,對(duì)于學(xué)術(shù)領(lǐng)域方面的輿情分析還很少。研究人員在從事科研之前需要閱讀大量的學(xué)術(shù)文獻(xiàn),以便了解目前這一學(xué)術(shù)領(lǐng)域的最新研究熱點(diǎn)。然而面對(duì)海量的學(xué)術(shù)文獻(xiàn),搜索引擎只能幫助用戶篩選出符合檢索條件的文章列表,科研人員仍然需要通過大量閱讀來獲得需要的研究熱點(diǎn)信息,這需要付出很多時(shí)間和精力。本文針對(duì)學(xué)術(shù)專業(yè)領(lǐng)域輿情分析缺失和中文專業(yè)主題內(nèi)容挖掘不深的問題,研究面向?qū)W術(shù)領(lǐng)域的輿情分析關(guān)鍵技術(shù),提出一個(gè)新型的面向?qū)W術(shù)領(lǐng)域的輿情分析算法。首先,根據(jù)用戶需求,對(duì)海量文獻(xiàn)進(jìn)行基于學(xué)術(shù)特征的檢索,獲取相關(guān)文檔集合。然后,本文提出一種基于主題模型的多文檔自動(dòng)摘要算法,通過LDA主題模型獲取文檔集合中每一篇文檔的主題概率分布和每個(gè)主題對(duì)應(yīng)的詞語概率分布。同時(shí)根據(jù)主題分布的概率值,選取與文檔相關(guān)的前幾個(gè)主題來挖掘文本的淺層語義。然后將主題信息應(yīng)用到選取摘要候選句的工作中,提出一種基于句子生成概率和文章結(jié)構(gòu)的方法來計(jì)算句子的權(quán)重。進(jìn)一步根據(jù)LDA得到的詞語生成概率,對(duì)句子進(jìn)行概率計(jì)算,并針對(duì)學(xué)術(shù)文獻(xiàn)不同部分重要度不同,提出改進(jìn)文檔句子權(quán)重的方法,從而得到摘要候選句。由于學(xué)術(shù)文獻(xiàn)相似且重要的句子很多,僅僅考慮句子權(quán)重得到摘要是不夠的,還需要考慮摘要冗余的問題。本文又提出了一種基于最大邊緣相關(guān)法MMR并結(jié)合學(xué)術(shù)領(lǐng)域特征的冗余控制算法,通過對(duì)大量的學(xué)術(shù)文獻(xiàn)進(jìn)行語料訓(xùn)練,使用學(xué)術(shù)領(lǐng)域特征的相似度計(jì)算對(duì)摘要候選句進(jìn)行多方面的計(jì)算評(píng)分來選取摘要,最終得到包含各個(gè)主題、內(nèi)容簡潔、冗余度低的輿情簡報(bào)展現(xiàn)給用戶。最后,本文開展了驗(yàn)證實(shí)驗(yàn),并與已有的摘要算法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,該算法可以較好提取學(xué)術(shù)特征信息,發(fā)現(xiàn)主題,去除冗余,提高輿情摘要的準(zhǔn)確性和全面性。
【關(guān)鍵詞】:輿情分析 主題模型 自動(dòng)摘要 摘要冗余
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-9
- 第1章 引言9-14
- 1.1 研究背景9-10
- 1.2 研究現(xiàn)狀10-12
- 1.2.1 國外輿情分析研究現(xiàn)狀10-11
- 1.2.2 國內(nèi)輿情分析研究現(xiàn)狀11-12
- 1.3 本文研究內(nèi)容12-13
- 1.4 本文的組織結(jié)構(gòu)13-14
- 第2章 輿情分析相關(guān)技術(shù)研究14-26
- 2.1 網(wǎng)絡(luò)信息采集14-17
- 2.1.1 網(wǎng)絡(luò)信息采集概述14
- 2.1.2 基于鏈接分析的網(wǎng)絡(luò)信息采集算法14-16
- 2.1.3 基于網(wǎng)頁內(nèi)容相關(guān)性分析的網(wǎng)絡(luò)信息采集算法16-17
- 2.2 自動(dòng)摘要算法17-22
- 2.2.1 生成自動(dòng)摘要算法17-18
- 2.2.2 冗余度控制18-22
- 2.3 文本相似度算法22-25
- 2.3.1 長文本相似度算法22-23
- 2.3.2 短文本相似度算法23-25
- 2.4 本章小結(jié)25-26
- 第3章 學(xué)術(shù)領(lǐng)域輿情生成算法設(shè)計(jì)實(shí)現(xiàn)26-46
- 3.1 設(shè)計(jì)目標(biāo)與算法流程26-27
- 3.2 網(wǎng)絡(luò)輿情信息采集27-28
- 3.2.1 網(wǎng)絡(luò)信息采集27
- 3.2.2 學(xué)術(shù)領(lǐng)域網(wǎng)絡(luò)輿情信息采集27-28
- 3.3 網(wǎng)絡(luò)輿情數(shù)據(jù)預(yù)處理28
- 3.3.1 文本預(yù)處理28
- 3.3.2 文本分詞28
- 3.4 多文檔自動(dòng)摘要28-39
- 3.4.1 主題模型28-36
- 3.4.2 句子權(quán)重計(jì)算方法36-38
- 3.4.3 句子權(quán)重計(jì)算算法38-39
- 3.5 摘要生成39-45
- 3.5.1 摘要候選句的選取39
- 3.5.2 摘要句生成算法39-40
- 3.5.3 相似度計(jì)算40-45
- 3.6 本章小結(jié)45-46
- 第4章 實(shí)驗(yàn)結(jié)果與分析46-51
- 4.1 訓(xùn)練詞料庫46
- 4.2 實(shí)驗(yàn)數(shù)據(jù)46
- 4.3 LDA訓(xùn)練結(jié)果46-47
- 4.4 實(shí)驗(yàn)結(jié)果與分析47-51
- 第5章 總結(jié)和展望51-53
- 5.1 總結(jié)51
- 5.2 展望51-53
- 參考文獻(xiàn)53-57
- 致謝57
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 朱慶生;徐寧;周瑜;;一種基于鏈接和內(nèi)容分析的自適應(yīng)主題爬蟲算法[J];計(jì)算機(jī)與現(xiàn)代化;2015年09期
2 王榮波;諶志群;周建政;李治;高飛;;基于Wikipedia的短文本語義相關(guān)度計(jì)算方法[J];計(jì)算機(jī)應(yīng)用與軟件;2015年01期
3 王漢熙;萬成娜;劉凱;;網(wǎng)絡(luò)輿情研究現(xiàn)狀與發(fā)展方向[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2015年01期
4 李然;張華平;趙燕平;商建云;;基于主題模型與信息熵的中文文檔自動(dòng)摘要技術(shù)研究[J];計(jì)算機(jī)科學(xué);2014年S2期
5 唐亞娟;張德賢;楊琳;;一種新型的自動(dòng)摘要冗余處理技術(shù)研究[J];中國新通信;2014年14期
6 姚明海;王娜;齊妙;李妍;;改進(jìn)的最大相關(guān)最小冗余特征選擇方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2014年09期
7 何清;;大數(shù)據(jù)與云計(jì)算[J];科技促進(jìn)發(fā)展;2014年01期
8 尹培培;;大數(shù)據(jù)時(shí)代的網(wǎng)絡(luò)輿情分析系統(tǒng)[J];廣播與電視技術(shù);2013年07期
9 路永和;李焰鋒;;改進(jìn)TF-IDF算法的文本特征項(xiàng)權(quán)值計(jì)算方法[J];圖書情報(bào)工作;2013年03期
10 馬瑞新;鄧貴仕;王曉;;基于擴(kuò)散理論的HITS算法在Web挖掘中的研究與優(yōu)化[J];計(jì)算機(jī)應(yīng)用研究;2012年01期
本文關(guān)鍵詞:面向?qū)W術(shù)領(lǐng)域的輿情分析關(guān)鍵技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):301378
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/301378.html