互聯(lián)網(wǎng)輿情分析中信息采集技術的研究與設計

發(fā)布時間：2017-04-11 06:00

本文關鍵詞：互聯(lián)網(wǎng)輿情分析中信息采集技術的研究與設計，，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著科學技術的逐漸成熟與發(fā)展,社會輿情的傳播途徑已經(jīng)逐漸從傳統(tǒng)媒體平臺轉向了互聯(lián)網(wǎng)平臺,互聯(lián)網(wǎng)已經(jīng)逐漸成為人民大眾生活的一部分,人民大眾對互聯(lián)網(wǎng)平臺的依賴程度越來越高,并且互聯(lián)網(wǎng)的用戶群體遍至各個年齡�；ヂ�(lián)網(wǎng)的廣泛應用讓我們可以隨時及時地了解世界范圍內發(fā)生的事件,并立即發(fā)表評論。因此,目前我們需要對互聯(lián)網(wǎng)平臺上的輿情情況進行有效監(jiān)管,對惡意傳播的信息及言論,及時清除,防止對社會產(chǎn)生不良的影響。互聯(lián)網(wǎng)輿情分析的關鍵技術點就是對網(wǎng)頁中的信息爬取,如何高效準確的爬取到頁面中的信息、,為互聯(lián)網(wǎng)輿情的分析提供更加有效的信息源,是本文研究的重點。傳統(tǒng)的網(wǎng)絡爬蟲程序是將頁面的URL地址收集并形成一個URL地址隊列,爬蟲程序依據(jù)一定得爬取策略依次對URL隊列中的地址進行爬取,并對爬取下來的頁面信息進行分析,從而完成網(wǎng)絡輿情分析的工作任務。然而,在Web2.0的時代,站點頁面中出現(xiàn)了越來越多的動態(tài)頁面,這些動態(tài)頁面中的代碼執(zhí)行會改變頁面的信息以及結構,但并不改變頁面的URL地址,一些重要的信息要通過用戶交互之后才會出現(xiàn)在頁面中,因此,需要對傳統(tǒng)的網(wǎng)絡爬取程序作出一些優(yōu)化和改進,用以適用爬取動態(tài)頁面信息。通過對動態(tài)頁面信息特點的分析以及爬取策略的研究,本論文主要工作有： 1)對輿情系統(tǒng)信息采集技術相關知識進行了分析研究。網(wǎng)絡爬蟲程序是輿情系統(tǒng)信息采集中的關鍵技術,而Ajax技術在動態(tài)頁面展示中有著廣泛的應用,因此,為研究動態(tài)頁面信息采集技術,本文對這兩個技術原理進行了詳細分析研究。 2)對信息采集模塊所要滿足的功能進行了需求分析,并完成模塊總體設計。通過對本次課題所要滿足的功能點進行分析,本文對信息采集模塊的整體流程進行設計,并對模塊關鍵接口進行了設計。 3)對信息采集模塊進行了詳細單元設計。將模塊細分為4個主要的功能單元分別是頁面獲取單元、Ajax代碼檢測單元、Ajax代碼解析單元以及DOM合并干擾過濾單元。并對每個單元進行了詳細流程設計。 4)對信息采集模塊進行了實驗測試以及功能實現(xiàn)。通過抓取動態(tài)頁面信息反饋實驗,對模塊抓取功能進行測試,并對信息采集模塊功能進行實現(xiàn)并做模塊功能展示。本文通過上述工作,滿足了動態(tài)頁面信息采集的功能需求,并對動態(tài)頁面信息采集的相關性進行了提升。
【關鍵詞】：網(wǎng)絡輿情 信息采集 動態(tài)頁面 文檔結構模型
【學位授予單位】：北京郵電大學
【學位級別】：碩士
【學位授予年份】：2015
【分類號】：TP393.09
【目錄】：

摘要4-6
ABSTRACT6-10
第一章緒論10-15
1.1 課題背景及意義10
1.2 國內外研究現(xiàn)狀10-13
1.3 本文研究內容及論文結構13-15
第二章網(wǎng)絡爬蟲及相關技術研究15-27
2.1 網(wǎng)絡爬蟲15-22
2.1.1 通用網(wǎng)絡爬蟲16-19
2.1.2 聚焦網(wǎng)絡爬蟲19-22
2.2 Ajax技術原理22-26
2.2.1 Ajax工作流程22-23
2.2.2 Ajax實現(xiàn)方法23-25
2.2.3 常用Ajax輪詢方式25-26
2.3 本章小結26-27
第三章輿情系統(tǒng)信息采集模塊總體設計27-43
3.1 設計目標27-29
3.2 信息采集方案策略設計29-36
3.2.1 動態(tài)頁面DOM爬取階段研究29-33
3.2.2 動態(tài)頁面DOM優(yōu)化階段研究33-36
3.3 信息采集方案流程設計36-37
3.4 信息采集模塊架構設計37-40
3.4.1 模塊結構設計37-39
3.4.2 模塊工作流程39-40
3.5 模塊關鍵接口設計40-42
3.5.1 接口設計約束40
3.5.2 數(shù)據(jù)源設置接口設計40-41
3.5.3 微博動態(tài)預警接口設計41
3.5.4 微博主題接口設計41-42
3.6 本章小結42-43
第四章輿情系統(tǒng)信息采集模塊詳細設計43-58
4.1 頁面獲取單元43-48
4.1.1 頁面解析機制分析43-47
4.1.2 頁面獲取工作流程47-48
4.2 Ajax代碼檢測單元48-50
4.2.1 正則檢測匹配48-49
4.2.2 Ajax代碼檢測流程49-50
4.3 Ajax代碼解析單元50-53
4.3.1 事件自動觸發(fā)50-52
4.3.2 DOM結構樹保存52-53
4.4 DOM合并干擾過濾單元53-57
4.4.1 DOM結構分析53-56
4.4.2 DOM結構合并優(yōu)化56-57
4.5 本章小結57-58
第五章信息采集模塊實驗測試與實現(xiàn)58-67
5.1 信息采集模塊實驗測試58-64
5.1.1 抓取動態(tài)頁面信息反饋58-62
5.1.2 DOM節(jié)點相關性計算62-64
5.2 信息采集模塊功能實現(xiàn)64-66
5.2.1 添加數(shù)據(jù)源功能64
5.2.2 微博動態(tài)信息展示功能64
5.2.3 微博主題統(tǒng)計展示功能64-66
5.3 本章小結66-67
第六章總結與展望67-69
6.1 工作總結67
6.2 工作展望67-69
參考文獻69-72
致謝72

【參考文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 陳健瑜;;網(wǎng)頁動態(tài)頁面采集關鍵技術研究[J];硅谷;2009年12期

2 方明科;王煜霞;;一種動態(tài)Web信息提取方法的設計與實現(xiàn)[J];管理工程師;2011年03期

3 李華波;吳禮發(fā);賴海光;鄭成輝;黃康宇;;有效的爬行Ajax頁面的網(wǎng)絡爬行算法[J];電子科技大學學報;2013年01期

4 李慶林;張超;吳芳菲;;網(wǎng)絡輿情的發(fā)展階段及其特點研究[J];編輯之友;2014年11期

5 賈自艷 ,何清 ,張�？� ,李嘉佑 ,史忠植;一種基于動態(tài)進化模型的事件探測和追蹤算法[J];計算機研究與發(fā)展;2004年07期

6 王映,于滿泉,李盛韜,王斌,余智華;JavaScript引擎在動態(tài)網(wǎng)頁采集技術中的應用[J];計算機應用;2004年02期

7 錢程;陽小蘭;;一種支持Ajax框架的網(wǎng)絡爬蟲的設計與實現(xiàn)[J];計算機與數(shù)字工程;2012年04期

8 劉金紅;陸余良;;主題網(wǎng)絡爬蟲研究綜述[J];計算機應用研究;2007年10期

9 劉政怡;基于DOM和元數(shù)據(jù)的Web信息提取[J];計算機與現(xiàn)代化;2003年10期

10 王平根;;基于DOM的動態(tài)網(wǎng)頁信息抽取方法[J];科技信息;2010年31期

中國博士學位論文全文數(shù)據(jù)庫前1條

1 潘新;基于復雜網(wǎng)絡的輿情傳播模型研究[D];大連理工大學;2010年

本文關鍵詞：互聯(lián)網(wǎng)輿情分析中信息采集技術的研究與設計，由筆耕文化傳播整理發(fā)布。

本文編號：298431

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/298431.html

上一篇：移動信息服務的內涵與模式
下一篇：基于改進QPSO優(yōu)化的RBF網(wǎng)絡入侵檢測研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

互聯(lián)網(wǎng)輿情分析中信息采集技術的研究與設計