互聯(lián)網(wǎng)輿情分析中信息采集技術(shù)的研究與設(shè)計(jì)
本文關(guān)鍵詞:互聯(lián)網(wǎng)輿情分析中信息采集技術(shù)的研究與設(shè)計(jì),,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著科學(xué)技術(shù)的逐漸成熟與發(fā)展,社會(huì)輿情的傳播途徑已經(jīng)逐漸從傳統(tǒng)媒體平臺(tái)轉(zhuǎn)向了互聯(lián)網(wǎng)平臺(tái),互聯(lián)網(wǎng)已經(jīng)逐漸成為人民大眾生活的一部分,人民大眾對(duì)互聯(lián)網(wǎng)平臺(tái)的依賴程度越來(lái)越高,并且互聯(lián)網(wǎng)的用戶群體遍至各個(gè)年齡;ヂ(lián)網(wǎng)的廣泛應(yīng)用讓我們可以隨時(shí)及時(shí)地了解世界范圍內(nèi)發(fā)生的事件,并立即發(fā)表評(píng)論。因此,目前我們需要對(duì)互聯(lián)網(wǎng)平臺(tái)上的輿情情況進(jìn)行有效監(jiān)管,對(duì)惡意傳播的信息及言論,及時(shí)清除,防止對(duì)社會(huì)產(chǎn)生不良的影響。 互聯(lián)網(wǎng)輿情分析的關(guān)鍵技術(shù)點(diǎn)就是對(duì)網(wǎng)頁(yè)中的信息爬取,如何高效準(zhǔn)確的爬取到頁(yè)面中的信息、,為互聯(lián)網(wǎng)輿情的分析提供更加有效的信息源,是本文研究的重點(diǎn)。傳統(tǒng)的網(wǎng)絡(luò)爬蟲程序是將頁(yè)面的URL地址收集并形成一個(gè)URL地址隊(duì)列,爬蟲程序依據(jù)一定得爬取策略依次對(duì)URL隊(duì)列中的地址進(jìn)行爬取,并對(duì)爬取下來(lái)的頁(yè)面信息進(jìn)行分析,從而完成網(wǎng)絡(luò)輿情分析的工作任務(wù)。然而,在Web2.0的時(shí)代,站點(diǎn)頁(yè)面中出現(xiàn)了越來(lái)越多的動(dòng)態(tài)頁(yè)面,這些動(dòng)態(tài)頁(yè)面中的代碼執(zhí)行會(huì)改變頁(yè)面的信息以及結(jié)構(gòu),但并不改變頁(yè)面的URL地址,一些重要的信息要通過(guò)用戶交互之后才會(huì)出現(xiàn)在頁(yè)面中,因此,需要對(duì)傳統(tǒng)的網(wǎng)絡(luò)爬取程序作出一些優(yōu)化和改進(jìn),用以適用爬取動(dòng)態(tài)頁(yè)面信息。 通過(guò)對(duì)動(dòng)態(tài)頁(yè)面信息特點(diǎn)的分析以及爬取策略的研究,本論文主要工作有: 1)對(duì)輿情系統(tǒng)信息采集技術(shù)相關(guān)知識(shí)進(jìn)行了分析研究。網(wǎng)絡(luò)爬蟲程序是輿情系統(tǒng)信息采集中的關(guān)鍵技術(shù),而Ajax技術(shù)在動(dòng)態(tài)頁(yè)面展示中有著廣泛的應(yīng)用,因此,為研究動(dòng)態(tài)頁(yè)面信息采集技術(shù),本文對(duì)這兩個(gè)技術(shù)原理進(jìn)行了詳細(xì)分析研究。 2)對(duì)信息采集模塊所要滿足的功能進(jìn)行了需求分析,并完成模塊總體設(shè)計(jì)。通過(guò)對(duì)本次課題所要滿足的功能點(diǎn)進(jìn)行分析,本文對(duì)信息采集模塊的整體流程進(jìn)行設(shè)計(jì),并對(duì)模塊關(guān)鍵接口進(jìn)行了設(shè)計(jì)。 3)對(duì)信息采集模塊進(jìn)行了詳細(xì)單元設(shè)計(jì)。將模塊細(xì)分為4個(gè)主要的功能單元分別是頁(yè)面獲取單元、Ajax代碼檢測(cè)單元、Ajax代碼解析單元以及DOM合并干擾過(guò)濾單元。并對(duì)每個(gè)單元進(jìn)行了詳細(xì)流程設(shè)計(jì)。 4)對(duì)信息采集模塊進(jìn)行了實(shí)驗(yàn)測(cè)試以及功能實(shí)現(xiàn)。通過(guò)抓取動(dòng)態(tài)頁(yè)面信息反饋實(shí)驗(yàn),對(duì)模塊抓取功能進(jìn)行測(cè)試,并對(duì)信息采集模塊功能進(jìn)行實(shí)現(xiàn)并做模塊功能展示。 本文通過(guò)上述工作,滿足了動(dòng)態(tài)頁(yè)面信息采集的功能需求,并對(duì)動(dòng)態(tài)頁(yè)面信息采集的相關(guān)性進(jìn)行了提升。
【關(guān)鍵詞】:網(wǎng)絡(luò)輿情 信息采集 動(dòng)態(tài)頁(yè)面 文檔結(jié)構(gòu)模型
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.09
【目錄】:
- 摘要4-6
- ABSTRACT6-10
- 第一章 緒論10-15
- 1.1 課題背景及意義10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-13
- 1.3 本文研究?jī)?nèi)容及論文結(jié)構(gòu)13-15
- 第二章 網(wǎng)絡(luò)爬蟲及相關(guān)技術(shù)研究15-27
- 2.1 網(wǎng)絡(luò)爬蟲15-22
- 2.1.1 通用網(wǎng)絡(luò)爬蟲16-19
- 2.1.2 聚焦網(wǎng)絡(luò)爬蟲19-22
- 2.2 Ajax技術(shù)原理22-26
- 2.2.1 Ajax工作流程22-23
- 2.2.2 Ajax實(shí)現(xiàn)方法23-25
- 2.2.3 常用Ajax輪詢方式25-26
- 2.3 本章小結(jié)26-27
- 第三章 輿情系統(tǒng)信息采集模塊總體設(shè)計(jì)27-43
- 3.1 設(shè)計(jì)目標(biāo)27-29
- 3.2 信息采集方案策略設(shè)計(jì)29-36
- 3.2.1 動(dòng)態(tài)頁(yè)面DOM爬取階段研究29-33
- 3.2.2 動(dòng)態(tài)頁(yè)面DOM優(yōu)化階段研究33-36
- 3.3 信息采集方案流程設(shè)計(jì)36-37
- 3.4 信息采集模塊架構(gòu)設(shè)計(jì)37-40
- 3.4.1 模塊結(jié)構(gòu)設(shè)計(jì)37-39
- 3.4.2 模塊工作流程39-40
- 3.5 模塊關(guān)鍵接口設(shè)計(jì)40-42
- 3.5.1 接口設(shè)計(jì)約束40
- 3.5.2 數(shù)據(jù)源設(shè)置接口設(shè)計(jì)40-41
- 3.5.3 微博動(dòng)態(tài)預(yù)警接口設(shè)計(jì)41
- 3.5.4 微博主題接口設(shè)計(jì)41-42
- 3.6 本章小結(jié)42-43
- 第四章 輿情系統(tǒng)信息采集模塊詳細(xì)設(shè)計(jì)43-58
- 4.1 頁(yè)面獲取單元43-48
- 4.1.1 頁(yè)面解析機(jī)制分析43-47
- 4.1.2 頁(yè)面獲取工作流程47-48
- 4.2 Ajax代碼檢測(cè)單元48-50
- 4.2.1 正則檢測(cè)匹配48-49
- 4.2.2 Ajax代碼檢測(cè)流程49-50
- 4.3 Ajax代碼解析單元50-53
- 4.3.1 事件自動(dòng)觸發(fā)50-52
- 4.3.2 DOM結(jié)構(gòu)樹(shù)保存52-53
- 4.4 DOM合并干擾過(guò)濾單元53-57
- 4.4.1 DOM結(jié)構(gòu)分析53-56
- 4.4.2 DOM結(jié)構(gòu)合并優(yōu)化56-57
- 4.5 本章小結(jié)57-58
- 第五章 信息采集模塊實(shí)驗(yàn)測(cè)試與實(shí)現(xiàn)58-67
- 5.1 信息采集模塊實(shí)驗(yàn)測(cè)試58-64
- 5.1.1 抓取動(dòng)態(tài)頁(yè)面信息反饋58-62
- 5.1.2 DOM節(jié)點(diǎn)相關(guān)性計(jì)算62-64
- 5.2 信息采集模塊功能實(shí)現(xiàn)64-66
- 5.2.1 添加數(shù)據(jù)源功能64
- 5.2.2 微博動(dòng)態(tài)信息展示功能64
- 5.2.3 微博主題統(tǒng)計(jì)展示功能64-66
- 5.3 本章小結(jié)66-67
- 第六章 總結(jié)與展望67-69
- 6.1 工作總結(jié)67
- 6.2 工作展望67-69
- 參考文獻(xiàn)69-72
- 致謝72
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 陳健瑜;;網(wǎng)頁(yè)動(dòng)態(tài)頁(yè)面采集關(guān)鍵技術(shù)研究[J];硅谷;2009年12期
2 方明科;王煜霞;;一種動(dòng)態(tài)Web信息提取方法的設(shè)計(jì)與實(shí)現(xiàn)[J];管理工程師;2011年03期
3 李華波;吳禮發(fā);賴海光;鄭成輝;黃康宇;;有效的爬行Ajax頁(yè)面的網(wǎng)絡(luò)爬行算法[J];電子科技大學(xué)學(xué)報(bào);2013年01期
4 李慶林;張超;吳芳菲;;網(wǎng)絡(luò)輿情的發(fā)展階段及其特點(diǎn)研究[J];編輯之友;2014年11期
5 賈自艷 ,何清 ,張? ,李嘉佑 ,史忠植;一種基于動(dòng)態(tài)進(jìn)化模型的事件探測(cè)和追蹤算法[J];計(jì)算機(jī)研究與發(fā)展;2004年07期
6 王映,于滿泉,李盛韜,王斌,余智華;JavaScript引擎在動(dòng)態(tài)網(wǎng)頁(yè)采集技術(shù)中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用;2004年02期
7 錢程;陽(yáng)小蘭;;一種支持Ajax框架的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)與數(shù)字工程;2012年04期
8 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期
9 劉政怡;基于DOM和元數(shù)據(jù)的Web信息提取[J];計(jì)算機(jī)與現(xiàn)代化;2003年10期
10 王平根;;基于DOM的動(dòng)態(tài)網(wǎng)頁(yè)信息抽取方法[J];科技信息;2010年31期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 潘新;基于復(fù)雜網(wǎng)絡(luò)的輿情傳播模型研究[D];大連理工大學(xué);2010年
本文關(guān)鍵詞:互聯(lián)網(wǎng)輿情分析中信息采集技術(shù)的研究與設(shè)計(jì),由筆耕文化傳播整理發(fā)布。
本文編號(hào):298431
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/298431.html