爬蟲算法在互聯(lián)網輿情系統(tǒng)的研究與應用
發(fā)布時間:2017-06-15 16:00
本文關鍵詞:爬蟲算法在互聯(lián)網輿情系統(tǒng)的研究與應用,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著科技的不斷進步,人類已經進入了一個全新的“信息時代”;ヂ(lián)網已經成為了當前主流的信息載體之一。面對互聯(lián)網上的大量輿情信息,如何實現(xiàn)對其進行有效的監(jiān)控和篩選也成為了研究重點。由于通用搜索引擎無法滿足特定用戶群體的搜索需要,針對特定主題的主題爬蟲應運而生,主題爬蟲也為互聯(lián)網輿情系統(tǒng)中的垂直搜索部分提供了數(shù)據(jù)來源。本文以國內外的現(xiàn)有研究成果為依據(jù),通過分析當前互聯(lián)網輿情環(huán)境,設計了互聯(lián)網輿情系統(tǒng),并針對其中的主題爬蟲進行了研究設計。對影響主題爬蟲性能的關鍵性算法進行了研究改進,并在系統(tǒng)中完成了主題爬蟲的實現(xiàn)。本文完成的主要研究內容如下:1)分析了主題爬蟲性能對比通用爬蟲的優(yōu)勢,對其搜索策略和網頁評價算法進行研究,根據(jù)比較選擇了最佳優(yōu)先策略作為其搜索策略,并通過建立向量空間模型來對網頁進行評價。同時研究了主題孤島和拒絕協(xié)議兩大關鍵問題,在此基礎上對本文中使用的主題爬蟲進行了結構設計;2)分析了當前網絡輿情環(huán)境特點,針對這些特點進行需求分析,根據(jù)得到的需求進行互聯(lián)網輿情系統(tǒng)的結構設計;3)給出了主題爬蟲在互聯(lián)網輿情系統(tǒng)中的具體實現(xiàn),包括抓取策略、分析策略、爬行策略、去重策略和任務調度策略,對抓取時的主題庫更新問題提出了動態(tài)擴充的解決辦法,并針對網頁去重I-Match算法和任務調度Hash算法中的不足進行了設計改進,改用了一致性Hash算法進行任務調度,最后對系統(tǒng)進行了測試。本文設計的主題爬蟲綜合了主題庫改進策略和算法改進,從整體方面提升爬蟲性能。經過測試,本文設計的主題爬蟲性能優(yōu)于一般主題爬蟲。
【關鍵詞】:互聯(lián)網輿情 主題爬蟲 動態(tài)擴充 一致性Hash
【學位授予單位】:江蘇科技大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要6-7
- Abstract7-12
- 第一章 緒論12-17
- 1.1 研究目的及意義12-14
- 1.2 國內外研究現(xiàn)狀14-15
- 1.2.1 互聯(lián)網輿情系統(tǒng)國內外研究現(xiàn)狀14
- 1.2.2 網絡爬蟲國內外研究現(xiàn)狀14-15
- 1.3 主要研究內容及難點15-16
- 1.4 論文結構16-17
- 第二章 爬蟲算法技術17-31
- 2.1 網絡爬蟲算法概述17-21
- 2.1.1 通用爬蟲算法概述17-19
- 2.1.2 主題爬蟲算法概述19-21
- 2.2 常用爬蟲算法21-22
- 2.3 爬蟲相關技術22-29
- 2.3.1 一般爬蟲搜索策略22-23
- 2.3.2 最佳優(yōu)先搜索策略23-25
- 2.3.3 網頁評價技術25-27
- 2.3.4 其他相關技術27-29
- 2.4 開發(fā)相關技術29-30
- 2.4.1 JAVA技術概述29
- 2.4.2 XML技術概述29-30
- 2.5 本章小結30-31
- 第三章 主題爬蟲算法設計31-38
- 3.1 主題爬蟲算法需求分析31
- 3.2 主題爬蟲體系結構設計31-36
- 3.2.1 主題爬蟲模塊化設計32-33
- 3.2.2 爬蟲控制模塊33-35
- 3.2.3 工作流程中各模塊交互過程35-36
- 3.3 主題爬蟲拒絕協(xié)議研究36-37
- 3.4 本章小結37-38
- 第四章 互聯(lián)網輿情系統(tǒng)設計38-48
- 4.1 網絡輿情的概述與特點38-39
- 4.2 需求分析39-41
- 4.3 系統(tǒng)框架功能設計41-43
- 4.4 互聯(lián)網輿情系統(tǒng)關鍵技術43-46
- 4.4.1 網頁分析技術43-44
- 4.4.2 中文分詞技術44-45
- 4.4.3 文本分類技術45-46
- 4.5 系統(tǒng)主要難點46-47
- 4.6 本章小結47-48
- 第五章 爬蟲算法在互聯(lián)網輿情系統(tǒng)中的實現(xiàn)48-63
- 5.1 主題爬蟲對網頁的抓取策略48-49
- 5.2 主題爬蟲對網頁的分析策略49-50
- 5.2.1 對URL的分析49
- 5.2.2 對網頁內容的分析49-50
- 5.3 主題爬蟲的爬行策略50-54
- 5.3.1 基本主題詞庫構建50
- 5.3.2 特征向量TD-IDF加權算法50-51
- 5.3.3 網頁內容與主題相關度51-52
- 5.3.4 主題詞庫的動態(tài)擴充52-53
- 5.3.5 爬行策略53-54
- 5.4 主題爬蟲的去重策略54-56
- 5.4.1 Web頁面重復特點54-55
- 5.4.2 網頁內容特征提取55
- 5.4.3 I-Match去重算法55-56
- 5.5 主題爬蟲的任務調度策略56-62
- 5.5.1 主題爬蟲的多任務調度57-58
- 5.5.2 運用改進Hash算法進行任務調度58-62
- 5.6 本章小結62-63
- 第六章 互聯(lián)網輿情系統(tǒng)功能測試63-67
- 6.1 輿情系統(tǒng)測試環(huán)境63
- 6.2 輿情系統(tǒng)測試及結果63-66
- 6.3 本章小結66-67
- 第七章 結論67-68
- 參考文獻68-70
- 攻讀學位期間發(fā)表的學術論文目錄70-71
- 致謝71
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 嚴曉光;王小剛;陳卓寧;張金;;軟件質量保障平臺中基于RBAC的統(tǒng)一身份認證應用研究[J];計算機工程與科學;2009年03期
2 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機制——雙字哈希機制[J];中文信息學報;2003年04期
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 劉春輝;基于優(yōu)化最大匹配的中文分詞方法研究[D];燕山大學;2009年
本文關鍵詞:爬蟲算法在互聯(lián)網輿情系統(tǒng)的研究與應用,,由筆耕文化傳播整理發(fā)布。
本文編號:452811
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/452811.html
教材專著