基于Web信息抽取的網(wǎng)絡(luò)輿情統(tǒng)計(jì)與分析
本文關(guān)鍵詞:基于Web信息抽取的網(wǎng)絡(luò)輿情統(tǒng)計(jì)與分析
更多相關(guān)文章: 信息抽取 聚類分析 詞項(xiàng)關(guān)聯(lián)關(guān)系 輿情分析
【摘要】:自1994年中國(guó)正式接入Internet起,中國(guó)網(wǎng)民規(guī)模呈逐年持續(xù)快速增長(zhǎng)的趨勢(shì)。據(jù)2015年12月統(tǒng)計(jì)數(shù)據(jù)顯示,中國(guó)網(wǎng)民已達(dá)6.88億,超過(guò)半數(shù)的中國(guó)人已經(jīng)開(kāi)始使用互聯(lián)網(wǎng);ヂ(lián)網(wǎng)代替?zhèn)鹘y(tǒng)信息以紙質(zhì)文字材料傳播的形式,成為群眾思想、文化、信息獲取和交流的主要方式,又因?yàn)槠鋫鞑ニ俣瓤?波及范圍廣,參與人員多的特點(diǎn),它也成為社會(huì)輿論的主要聚集地。大到震驚世界的朝鮮核問(wèn)題、轟動(dòng)全國(guó)的天津大爆炸事件,小到某明星參加奧斯卡頒獎(jiǎng)典禮摔倒、某高校推出玉米炒提子菜系等,網(wǎng)絡(luò)輿情的傳播越來(lái)越牽動(dòng)全社會(huì)人們的心。如何從數(shù)量龐大的網(wǎng)絡(luò)信息中獲取輿情信息,從而第一時(shí)間掌握輿情現(xiàn)狀,預(yù)測(cè)輿情走勢(shì),及時(shí)正確引導(dǎo)輿情走向,對(duì)社會(huì)健康穩(wěn)定的發(fā)展具有非常重要的意義。本文的研究思路就是在這個(gè)背景下產(chǎn)生的,具體的研究?jī)?nèi)容如下:(1)首先對(duì)在本文研究過(guò)程中使用到的理論知識(shí)進(jìn)行介紹,如Web信息抽取方法、文本表示方法,數(shù)據(jù)降維方法、聚類方法等。(2)針對(duì)網(wǎng)絡(luò)信息(以新浪微博為例),主要是通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù),大量爬取所需信息。本文采用的是企業(yè)開(kāi)發(fā)并已投入使用的新聞爬取系統(tǒng),該系統(tǒng)可以針對(duì)不同網(wǎng)頁(yè)結(jié)構(gòu)進(jìn)行合適的DOM解析模板配置,從而方便快捷的進(jìn)行數(shù)據(jù)爬取。(3)針對(duì)短文本的特征,采用具有針對(duì)性的處理方式,對(duì)表情符號(hào)、轉(zhuǎn)發(fā)鏈接、標(biāo)點(diǎn)符號(hào)、圖片的預(yù)處理,主要借助網(wǎng)絡(luò)語(yǔ)料庫(kù)并輔助以人工標(biāo)注的方式。對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行切詞處理,本文采用的中文分詞工具是R語(yǔ)言中的Rwordseg程序包。(4)為了使實(shí)驗(yàn)數(shù)據(jù)達(dá)到理想聚類效果,本文提出一種基于詞項(xiàng)關(guān)聯(lián)關(guān)系的FCM聚類算法,并對(duì)該算法的實(shí)際可操作性進(jìn)行的驗(yàn)證;在輿情分析方面,本論文使用基于支持向量機(jī)的情感傾向性方法進(jìn)行研究,并給出實(shí)例分析。
【關(guān)鍵詞】:信息抽取 聚類分析 詞項(xiàng)關(guān)聯(lián)關(guān)系 輿情分析
【學(xué)位授予單位】:安慶師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1;F49
【目錄】:
- 摘要6-8
- ABSTRACT8-15
- 第一章 緒論15-20
- 1.1 研究背景15-18
- 1.1.1 研究目的及意義15-16
- 1.1.2 國(guó)內(nèi)外研究現(xiàn)狀16-18
- 1.2 本文的主要研究?jī)?nèi)容18-20
- 第二章 相關(guān)概念與技術(shù)描述20-30
- 2.1 網(wǎng)絡(luò)輿情概念及組成要素20-22
- 2.1.1 網(wǎng)絡(luò)輿情的概念20
- 2.1.2 網(wǎng)絡(luò)輿情的組成要素20-22
- 2.2 文本聚類算法描述22-25
- 2.2.1 支持向量機(jī)算法22-23
- 2.2.2 K近鄰算法23-24
- 2.2.3 層次聚類算法24-25
- 2.3 文本表示模型25-28
- 2.3.1 文本表示方法25-27
- 2.3.2 數(shù)據(jù)降維方法27-28
- 2.4 小結(jié)28-30
- 第三章 網(wǎng)絡(luò)數(shù)據(jù)采集及輿情語(yǔ)料庫(kù)構(gòu)建30-44
- 3.1 微博數(shù)據(jù)采集30-38
- 3.1.1 微博用戶情況30-31
- 3.1.2 微博數(shù)據(jù)采集31
- 3.1.3 網(wǎng)絡(luò)爬蟲(chóng)-企業(yè)版新聞抓取系統(tǒng)31-38
- 3.2 網(wǎng)絡(luò)輿情語(yǔ)料庫(kù)構(gòu)建38-43
- 3.2.1 輿情語(yǔ)料的人工分類38-41
- 3.2.2 數(shù)據(jù)預(yù)處理41-42
- 3.2.3 網(wǎng)絡(luò)輿情語(yǔ)料的文本表示42-43
- 3.3 小結(jié)43-44
- 第四章 基于詞項(xiàng)關(guān)聯(lián)關(guān)系的FCM微博聚類算法44-54
- 4.1 引言44-46
- 4.2 詞項(xiàng)關(guān)聯(lián)關(guān)系46-48
- 4.2.1 互信息向量46-47
- 4.2.2 同一文檔內(nèi)關(guān)聯(lián)關(guān)系47
- 4.2.3 不同文檔間關(guān)聯(lián)關(guān)系47-48
- 4.3 FCM聚類算法48-49
- 4.4 基于詞項(xiàng)關(guān)聯(lián)關(guān)系的FCM聚類算法49-51
- 4.5 實(shí)驗(yàn)結(jié)果與分析51-53
- 4.5.1 數(shù)據(jù)來(lái)源51
- 4.5.2 實(shí)驗(yàn)結(jié)果與分析51-53
- 4.6 小結(jié)53-54
- 第五章 網(wǎng)絡(luò)輿情情感傾向性分析實(shí)例研究54-62
- 5.1 我國(guó)房地產(chǎn)網(wǎng)絡(luò)輿情現(xiàn)狀54-56
- 5.2 情感傾向分析-以合肥市房地產(chǎn)為例56-60
- 5.2.1 網(wǎng)絡(luò)輿情數(shù)據(jù)準(zhǔn)備56-57
- 5.2.2 基于SVM的網(wǎng)絡(luò)輿情的情感分析方法57-58
- 5.2.3 房地產(chǎn)輿情文本情感傾向性分類58-60
- 5.3 合肥房地產(chǎn)網(wǎng)絡(luò)輿情情感傾向分析60-61
- 5.3.1 合肥房地產(chǎn)網(wǎng)絡(luò)輿情分析60-61
- 5.3.2 網(wǎng)絡(luò)輿情預(yù)警建議61
- 5.4 小結(jié)61-62
- 第六章 結(jié)論與展望62-64
- 致謝64-65
- 參考文獻(xiàn)65-71
- 作者讀研期間所取得的讀研成果71
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 陶建杰;;網(wǎng)絡(luò)輿情聯(lián)動(dòng)應(yīng)急機(jī)制初探[J];青年記者;2007年15期
2 胡圣方;楊文德;;網(wǎng)絡(luò)輿情管理的問(wèn)題及對(duì)策[J];甘肅政法成人教育學(xué)院學(xué)報(bào);2007年04期
3 吳明友;;校園網(wǎng)絡(luò)輿情的應(yīng)對(duì)策略分析[J];中國(guó)教育信息化;2008年24期
4 張麗紅;;試論網(wǎng)絡(luò)輿情傳播對(duì)文化的影響[J];前沿;2008年04期
5 姜?jiǎng)俸?;網(wǎng)絡(luò)輿情熱點(diǎn)的形成與發(fā)展、現(xiàn)狀及輿論引導(dǎo)[J];理論月刊;2008年04期
6 李子德;;論和諧社會(huì)視野中不良網(wǎng)絡(luò)輿情的預(yù)警[J];中國(guó)石油大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2008年04期
7 劉軍;;互聯(lián)網(wǎng)時(shí)代網(wǎng)絡(luò)輿情的應(yīng)急處理[J];理論學(xué)習(xí);2009年01期
8 周志強(qiáng);;網(wǎng)絡(luò)輿情與“口香糖思想”[J];人民論壇;2009年04期
9 許鑫;章成志;李雯靜;;國(guó)內(nèi)網(wǎng)絡(luò)輿情研究的回顧與展望[J];情報(bào)理論與實(shí)踐;2009年03期
10 陳嬰虹;;論網(wǎng)絡(luò)輿情對(duì)司法的影響[J];中共浙江省委黨校學(xué)報(bào);2009年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 任銘;陳俊鑫;;我國(guó)網(wǎng)絡(luò)輿情及管理策略研究[A];2011年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2011年
2 潘崇霞;;網(wǎng)絡(luò)輿情演化的階段分析[A];信息化、工業(yè)化融合與服務(wù)創(chuàng)新——第十三屆計(jì)算機(jī)模擬與信息技術(shù)學(xué)術(shù)會(huì)議論文集[C];2011年
3 潘慶芳;周萍;;涉路網(wǎng)絡(luò)輿情的現(xiàn)狀及應(yīng)對(duì)建議[A];中國(guó)公路學(xué)會(huì)高速公路運(yùn)營(yíng)管理分會(huì)2011年度年會(huì)暨第十八次全國(guó)高速公路運(yùn)營(yíng)管理工作研討會(huì)論文集[C];2011年
4 李大鵬;;加強(qiáng)新形勢(shì)下檢察機(jī)關(guān)網(wǎng)絡(luò)輿情體系建設(shè)[A];第27次全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集[C];2012年
5 曹俊喜;劉云;徐希源;;電力行業(yè)網(wǎng)絡(luò)輿情監(jiān)測(cè)分析技術(shù)研究與系統(tǒng)設(shè)計(jì)[A];2012年電力通信管理暨智能電網(wǎng)通信技術(shù)論壇論文集[C];2013年
6 冉治平;;提高網(wǎng)絡(luò)輿情應(yīng)對(duì)能力的幾點(diǎn)思考[A];浙江煙草(2012年第3期總第122期)[C];2012年
7 疏學(xué)明;鄭魁;張輝;袁宏永;;突發(fā)事件中網(wǎng)絡(luò)輿情信息管理方式探討[A];中國(guó)突發(fā)事件防范與快速處置優(yōu)秀成果選編[C];2009年
8 耿騫;劉穎;;網(wǎng)絡(luò)輿情的形成、傳播及監(jiān)測(cè)方法[A];科學(xué)發(fā)展:文化軟實(shí)力與民族復(fù)興——紀(jì)念中華人民共和國(guó)成立60周年論文集(下卷)[C];2009年
9 韓偉;張洪濤;;網(wǎng)絡(luò)輿情與青少年媒介認(rèn)知能力構(gòu)建[A];網(wǎng)絡(luò)時(shí)代的青少年和青少年工作研究報(bào)告——第六屆中國(guó)青少年發(fā)展論壇暨中國(guó)青少年研究會(huì)優(yōu)秀論文集(2010)[C];2010年
10 曾華藝;;網(wǎng)絡(luò)輿情危機(jī)事件指標(biāo)體系探討[A];信息化、工業(yè)化融合與服務(wù)創(chuàng)新——第十三屆計(jì)算機(jī)模擬與信息技術(shù)學(xué)術(shù)會(huì)議論文集[C];2011年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 記者 劉自賢 通訊員 吳濤;網(wǎng)絡(luò)輿情助推漢江中院司法為民[N];湖北日?qǐng)?bào);2010年
2 通訊員 王宏杰;注重網(wǎng)絡(luò)輿情監(jiān)督 網(wǎng)上網(wǎng)下良性互動(dòng)[N];檢察日?qǐng)?bào);2010年
3 四川省地稅局直屬分局 韋一新 胡曉馳;正確應(yīng)對(duì)征納糾紛引發(fā)的網(wǎng)絡(luò)輿情危機(jī)[N];中國(guó)稅務(wù)報(bào);2010年
4 唐莉 記者 郭樹(shù)仁;梅河口檢察院加強(qiáng)涉檢網(wǎng)絡(luò)輿情研判與應(yīng)對(duì)工作[N];北方法制報(bào);2010年
5 記者 盧志堅(jiān) 通訊員 胡連芳;江蘇大豐:征聘百名“網(wǎng)絡(luò)輿情監(jiān)督員”[N];檢察日?qǐng)?bào);2009年
6 見(jiàn)習(xí)記者 施燕燕;應(yīng)對(duì)網(wǎng)絡(luò)輿情與三項(xiàng)重點(diǎn)工作息息相關(guān)[N];檢察日?qǐng)?bào);2010年
7 記者 吳漢松;提升引導(dǎo)網(wǎng)絡(luò)輿情能力[N];石獅日?qǐng)?bào);2010年
8 四川省內(nèi)江市工商局 吳明顯 楊曉彬;建議加強(qiáng)網(wǎng)絡(luò)輿情收集分析及引導(dǎo)工作(下)[N];中國(guó)工商報(bào);2010年
9 吳明顯;內(nèi)江積極加強(qiáng)網(wǎng)絡(luò)輿情監(jiān)測(cè)[N];中國(guó)工商報(bào);2010年
10 本報(bào)記者 白真智;探秘網(wǎng)絡(luò)輿情市場(chǎng)[N];人民日?qǐng)?bào);2010年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 張玉強(qiáng);網(wǎng)絡(luò)輿情危機(jī)的政府適度反應(yīng)研究[D];中央民族大學(xué);2011年
2 何健;高校大學(xué)生網(wǎng)絡(luò)輿情特征與管理對(duì)策研究[D];西南大學(xué);2015年
3 石新宇;當(dāng)代大學(xué)生網(wǎng)絡(luò)輿情分析及對(duì)策研究[D];遼寧大學(xué);2015年
4 曹學(xué)艷;突發(fā)事件動(dòng)態(tài)網(wǎng)絡(luò)輿情挖掘與應(yīng)對(duì)研究[D];電子科技大學(xué);2013年
5 方付建;突發(fā)事件網(wǎng)絡(luò)輿情演變研究[D];華中科技大學(xué);2011年
6 張偉;基于復(fù)雜社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情演化模型研究[D];哈爾濱工業(yè)大學(xué);2014年
7 陳t熀,
本文編號(hào):682641
本文鏈接:http://sikaile.net/guanlilunwen/sjfx/682641.html