天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

爬蟲算法在互聯(lián)網輿情系統(tǒng)的研究與應用

發(fā)布時間:2017-06-15 16:00

  本文關鍵詞:爬蟲算法在互聯(lián)網輿情系統(tǒng)的研究與應用,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著科技的不斷進步,人類已經進入了一個全新的“信息時代”;ヂ(lián)網已經成為了當前主流的信息載體之一。面對互聯(lián)網上的大量輿情信息,如何實現(xiàn)對其進行有效的監(jiān)控和篩選也成為了研究重點。由于通用搜索引擎無法滿足特定用戶群體的搜索需要,針對特定主題的主題爬蟲應運而生,主題爬蟲也為互聯(lián)網輿情系統(tǒng)中的垂直搜索部分提供了數(shù)據(jù)來源。本文以國內外的現(xiàn)有研究成果為依據(jù),通過分析當前互聯(lián)網輿情環(huán)境,設計了互聯(lián)網輿情系統(tǒng),并針對其中的主題爬蟲進行了研究設計。對影響主題爬蟲性能的關鍵性算法進行了研究改進,并在系統(tǒng)中完成了主題爬蟲的實現(xiàn)。本文完成的主要研究內容如下:1)分析了主題爬蟲性能對比通用爬蟲的優(yōu)勢,對其搜索策略和網頁評價算法進行研究,根據(jù)比較選擇了最佳優(yōu)先策略作為其搜索策略,并通過建立向量空間模型來對網頁進行評價。同時研究了主題孤島和拒絕協(xié)議兩大關鍵問題,在此基礎上對本文中使用的主題爬蟲進行了結構設計;2)分析了當前網絡輿情環(huán)境特點,針對這些特點進行需求分析,根據(jù)得到的需求進行互聯(lián)網輿情系統(tǒng)的結構設計;3)給出了主題爬蟲在互聯(lián)網輿情系統(tǒng)中的具體實現(xiàn),包括抓取策略、分析策略、爬行策略、去重策略和任務調度策略,對抓取時的主題庫更新問題提出了動態(tài)擴充的解決辦法,并針對網頁去重I-Match算法和任務調度Hash算法中的不足進行了設計改進,改用了一致性Hash算法進行任務調度,最后對系統(tǒng)進行了測試。本文設計的主題爬蟲綜合了主題庫改進策略和算法改進,從整體方面提升爬蟲性能。經過測試,本文設計的主題爬蟲性能優(yōu)于一般主題爬蟲。
【關鍵詞】:互聯(lián)網輿情 主題爬蟲 動態(tài)擴充 一致性Hash
【學位授予單位】:江蘇科技大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要6-7
  • Abstract7-12
  • 第一章 緒論12-17
  • 1.1 研究目的及意義12-14
  • 1.2 國內外研究現(xiàn)狀14-15
  • 1.2.1 互聯(lián)網輿情系統(tǒng)國內外研究現(xiàn)狀14
  • 1.2.2 網絡爬蟲國內外研究現(xiàn)狀14-15
  • 1.3 主要研究內容及難點15-16
  • 1.4 論文結構16-17
  • 第二章 爬蟲算法技術17-31
  • 2.1 網絡爬蟲算法概述17-21
  • 2.1.1 通用爬蟲算法概述17-19
  • 2.1.2 主題爬蟲算法概述19-21
  • 2.2 常用爬蟲算法21-22
  • 2.3 爬蟲相關技術22-29
  • 2.3.1 一般爬蟲搜索策略22-23
  • 2.3.2 最佳優(yōu)先搜索策略23-25
  • 2.3.3 網頁評價技術25-27
  • 2.3.4 其他相關技術27-29
  • 2.4 開發(fā)相關技術29-30
  • 2.4.1 JAVA技術概述29
  • 2.4.2 XML技術概述29-30
  • 2.5 本章小結30-31
  • 第三章 主題爬蟲算法設計31-38
  • 3.1 主題爬蟲算法需求分析31
  • 3.2 主題爬蟲體系結構設計31-36
  • 3.2.1 主題爬蟲模塊化設計32-33
  • 3.2.2 爬蟲控制模塊33-35
  • 3.2.3 工作流程中各模塊交互過程35-36
  • 3.3 主題爬蟲拒絕協(xié)議研究36-37
  • 3.4 本章小結37-38
  • 第四章 互聯(lián)網輿情系統(tǒng)設計38-48
  • 4.1 網絡輿情的概述與特點38-39
  • 4.2 需求分析39-41
  • 4.3 系統(tǒng)框架功能設計41-43
  • 4.4 互聯(lián)網輿情系統(tǒng)關鍵技術43-46
  • 4.4.1 網頁分析技術43-44
  • 4.4.2 中文分詞技術44-45
  • 4.4.3 文本分類技術45-46
  • 4.5 系統(tǒng)主要難點46-47
  • 4.6 本章小結47-48
  • 第五章 爬蟲算法在互聯(lián)網輿情系統(tǒng)中的實現(xiàn)48-63
  • 5.1 主題爬蟲對網頁的抓取策略48-49
  • 5.2 主題爬蟲對網頁的分析策略49-50
  • 5.2.1 對URL的分析49
  • 5.2.2 對網頁內容的分析49-50
  • 5.3 主題爬蟲的爬行策略50-54
  • 5.3.1 基本主題詞庫構建50
  • 5.3.2 特征向量TD-IDF加權算法50-51
  • 5.3.3 網頁內容與主題相關度51-52
  • 5.3.4 主題詞庫的動態(tài)擴充52-53
  • 5.3.5 爬行策略53-54
  • 5.4 主題爬蟲的去重策略54-56
  • 5.4.1 Web頁面重復特點54-55
  • 5.4.2 網頁內容特征提取55
  • 5.4.3 I-Match去重算法55-56
  • 5.5 主題爬蟲的任務調度策略56-62
  • 5.5.1 主題爬蟲的多任務調度57-58
  • 5.5.2 運用改進Hash算法進行任務調度58-62
  • 5.6 本章小結62-63
  • 第六章 互聯(lián)網輿情系統(tǒng)功能測試63-67
  • 6.1 輿情系統(tǒng)測試環(huán)境63
  • 6.2 輿情系統(tǒng)測試及結果63-66
  • 6.3 本章小結66-67
  • 第七章 結論67-68
  • 參考文獻68-70
  • 攻讀學位期間發(fā)表的學術論文目錄70-71
  • 致謝71

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前2條

1 嚴曉光;王小剛;陳卓寧;張金;;軟件質量保障平臺中基于RBAC的統(tǒng)一身份認證應用研究[J];計算機工程與科學;2009年03期

2 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機制——雙字哈希機制[J];中文信息學報;2003年04期

中國碩士學位論文全文數(shù)據(jù)庫 前1條

1 劉春輝;基于優(yōu)化最大匹配的中文分詞方法研究[D];燕山大學;2009年


  本文關鍵詞:爬蟲算法在互聯(lián)網輿情系統(tǒng)的研究與應用,,由筆耕文化傳播整理發(fā)布。



本文編號:452811

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/452811.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶d4f12***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com