天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

互聯(lián)網(wǎng)輿情分析中信息采集技術的研究與設計

發(fā)布時間:2017-04-11 06:00

  本文關鍵詞:互聯(lián)網(wǎng)輿情分析中信息采集技術的研究與設計,,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著科學技術的逐漸成熟與發(fā)展,社會輿情的傳播途徑已經(jīng)逐漸從傳統(tǒng)媒體平臺轉向了互聯(lián)網(wǎng)平臺,互聯(lián)網(wǎng)已經(jīng)逐漸成為人民大眾生活的一部分,人民大眾對互聯(lián)網(wǎng)平臺的依賴程度越來越高,并且互聯(lián)網(wǎng)的用戶群體遍至各個年齡;ヂ(lián)網(wǎng)的廣泛應用讓我們可以隨時及時地了解世界范圍內發(fā)生的事件,并立即發(fā)表評論。因此,目前我們需要對互聯(lián)網(wǎng)平臺上的輿情情況進行有效監(jiān)管,對惡意傳播的信息及言論,及時清除,防止對社會產(chǎn)生不良的影響。 互聯(lián)網(wǎng)輿情分析的關鍵技術點就是對網(wǎng)頁中的信息爬取,如何高效準確的爬取到頁面中的信息、,為互聯(lián)網(wǎng)輿情的分析提供更加有效的信息源,是本文研究的重點。傳統(tǒng)的網(wǎng)絡爬蟲程序是將頁面的URL地址收集并形成一個URL地址隊列,爬蟲程序依據(jù)一定得爬取策略依次對URL隊列中的地址進行爬取,并對爬取下來的頁面信息進行分析,從而完成網(wǎng)絡輿情分析的工作任務。然而,在Web2.0的時代,站點頁面中出現(xiàn)了越來越多的動態(tài)頁面,這些動態(tài)頁面中的代碼執(zhí)行會改變頁面的信息以及結構,但并不改變頁面的URL地址,一些重要的信息要通過用戶交互之后才會出現(xiàn)在頁面中,因此,需要對傳統(tǒng)的網(wǎng)絡爬取程序作出一些優(yōu)化和改進,用以適用爬取動態(tài)頁面信息。 通過對動態(tài)頁面信息特點的分析以及爬取策略的研究,本論文主要工作有: 1)對輿情系統(tǒng)信息采集技術相關知識進行了分析研究。網(wǎng)絡爬蟲程序是輿情系統(tǒng)信息采集中的關鍵技術,而Ajax技術在動態(tài)頁面展示中有著廣泛的應用,因此,為研究動態(tài)頁面信息采集技術,本文對這兩個技術原理進行了詳細分析研究。 2)對信息采集模塊所要滿足的功能進行了需求分析,并完成模塊總體設計。通過對本次課題所要滿足的功能點進行分析,本文對信息采集模塊的整體流程進行設計,并對模塊關鍵接口進行了設計。 3)對信息采集模塊進行了詳細單元設計。將模塊細分為4個主要的功能單元分別是頁面獲取單元、Ajax代碼檢測單元、Ajax代碼解析單元以及DOM合并干擾過濾單元。并對每個單元進行了詳細流程設計。 4)對信息采集模塊進行了實驗測試以及功能實現(xiàn)。通過抓取動態(tài)頁面信息反饋實驗,對模塊抓取功能進行測試,并對信息采集模塊功能進行實現(xiàn)并做模塊功能展示。 本文通過上述工作,滿足了動態(tài)頁面信息采集的功能需求,并對動態(tài)頁面信息采集的相關性進行了提升。
【關鍵詞】:網(wǎng)絡輿情 信息采集 動態(tài)頁面 文檔結構模型
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.09
【目錄】:
  • 摘要4-6
  • ABSTRACT6-10
  • 第一章 緒論10-15
  • 1.1 課題背景及意義10
  • 1.2 國內外研究現(xiàn)狀10-13
  • 1.3 本文研究內容及論文結構13-15
  • 第二章 網(wǎng)絡爬蟲及相關技術研究15-27
  • 2.1 網(wǎng)絡爬蟲15-22
  • 2.1.1 通用網(wǎng)絡爬蟲16-19
  • 2.1.2 聚焦網(wǎng)絡爬蟲19-22
  • 2.2 Ajax技術原理22-26
  • 2.2.1 Ajax工作流程22-23
  • 2.2.2 Ajax實現(xiàn)方法23-25
  • 2.2.3 常用Ajax輪詢方式25-26
  • 2.3 本章小結26-27
  • 第三章 輿情系統(tǒng)信息采集模塊總體設計27-43
  • 3.1 設計目標27-29
  • 3.2 信息采集方案策略設計29-36
  • 3.2.1 動態(tài)頁面DOM爬取階段研究29-33
  • 3.2.2 動態(tài)頁面DOM優(yōu)化階段研究33-36
  • 3.3 信息采集方案流程設計36-37
  • 3.4 信息采集模塊架構設計37-40
  • 3.4.1 模塊結構設計37-39
  • 3.4.2 模塊工作流程39-40
  • 3.5 模塊關鍵接口設計40-42
  • 3.5.1 接口設計約束40
  • 3.5.2 數(shù)據(jù)源設置接口設計40-41
  • 3.5.3 微博動態(tài)預警接口設計41
  • 3.5.4 微博主題接口設計41-42
  • 3.6 本章小結42-43
  • 第四章 輿情系統(tǒng)信息采集模塊詳細設計43-58
  • 4.1 頁面獲取單元43-48
  • 4.1.1 頁面解析機制分析43-47
  • 4.1.2 頁面獲取工作流程47-48
  • 4.2 Ajax代碼檢測單元48-50
  • 4.2.1 正則檢測匹配48-49
  • 4.2.2 Ajax代碼檢測流程49-50
  • 4.3 Ajax代碼解析單元50-53
  • 4.3.1 事件自動觸發(fā)50-52
  • 4.3.2 DOM結構樹保存52-53
  • 4.4 DOM合并干擾過濾單元53-57
  • 4.4.1 DOM結構分析53-56
  • 4.4.2 DOM結構合并優(yōu)化56-57
  • 4.5 本章小結57-58
  • 第五章 信息采集模塊實驗測試與實現(xiàn)58-67
  • 5.1 信息采集模塊實驗測試58-64
  • 5.1.1 抓取動態(tài)頁面信息反饋58-62
  • 5.1.2 DOM節(jié)點相關性計算62-64
  • 5.2 信息采集模塊功能實現(xiàn)64-66
  • 5.2.1 添加數(shù)據(jù)源功能64
  • 5.2.2 微博動態(tài)信息展示功能64
  • 5.2.3 微博主題統(tǒng)計展示功能64-66
  • 5.3 本章小結66-67
  • 第六章 總結與展望67-69
  • 6.1 工作總結67
  • 6.2 工作展望67-69
  • 參考文獻69-72
  • 致謝72

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 陳健瑜;;網(wǎng)頁動態(tài)頁面采集關鍵技術研究[J];硅谷;2009年12期

2 方明科;王煜霞;;一種動態(tài)Web信息提取方法的設計與實現(xiàn)[J];管理工程師;2011年03期

3 李華波;吳禮發(fā);賴海光;鄭成輝;黃康宇;;有效的爬行Ajax頁面的網(wǎng)絡爬行算法[J];電子科技大學學報;2013年01期

4 李慶林;張超;吳芳菲;;網(wǎng)絡輿情的發(fā)展階段及其特點研究[J];編輯之友;2014年11期

5 賈自艷 ,何清 ,張? ,李嘉佑 ,史忠植;一種基于動態(tài)進化模型的事件探測和追蹤算法[J];計算機研究與發(fā)展;2004年07期

6 王映,于滿泉,李盛韜,王斌,余智華;JavaScript引擎在動態(tài)網(wǎng)頁采集技術中的應用[J];計算機應用;2004年02期

7 錢程;陽小蘭;;一種支持Ajax框架的網(wǎng)絡爬蟲的設計與實現(xiàn)[J];計算機與數(shù)字工程;2012年04期

8 劉金紅;陸余良;;主題網(wǎng)絡爬蟲研究綜述[J];計算機應用研究;2007年10期

9 劉政怡;基于DOM和元數(shù)據(jù)的Web信息提取[J];計算機與現(xiàn)代化;2003年10期

10 王平根;;基于DOM的動態(tài)網(wǎng)頁信息抽取方法[J];科技信息;2010年31期

中國博士學位論文全文數(shù)據(jù)庫 前1條

1 潘新;基于復雜網(wǎng)絡的輿情傳播模型研究[D];大連理工大學;2010年


  本文關鍵詞:互聯(lián)網(wǎng)輿情分析中信息采集技術的研究與設計,由筆耕文化傳播整理發(fā)布。



本文編號:298431

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/298431.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶4f4d9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com