爬蟲(chóng)算法在互聯(lián)網(wǎng)輿情系統(tǒng)的研究與應(yīng)用
發(fā)布時(shí)間:2017-06-15 16:00
本文關(guān)鍵詞:爬蟲(chóng)算法在互聯(lián)網(wǎng)輿情系統(tǒng)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著科技的不斷進(jìn)步,人類已經(jīng)進(jìn)入了一個(gè)全新的“信息時(shí)代”;ヂ(lián)網(wǎng)已經(jīng)成為了當(dāng)前主流的信息載體之一。面對(duì)互聯(lián)網(wǎng)上的大量輿情信息,如何實(shí)現(xiàn)對(duì)其進(jìn)行有效的監(jiān)控和篩選也成為了研究重點(diǎn)。由于通用搜索引擎無(wú)法滿足特定用戶群體的搜索需要,針對(duì)特定主題的主題爬蟲(chóng)應(yīng)運(yùn)而生,主題爬蟲(chóng)也為互聯(lián)網(wǎng)輿情系統(tǒng)中的垂直搜索部分提供了數(shù)據(jù)來(lái)源。本文以國(guó)內(nèi)外的現(xiàn)有研究成果為依據(jù),通過(guò)分析當(dāng)前互聯(lián)網(wǎng)輿情環(huán)境,設(shè)計(jì)了互聯(lián)網(wǎng)輿情系統(tǒng),并針對(duì)其中的主題爬蟲(chóng)進(jìn)行了研究設(shè)計(jì)。對(duì)影響主題爬蟲(chóng)性能的關(guān)鍵性算法進(jìn)行了研究改進(jìn),并在系統(tǒng)中完成了主題爬蟲(chóng)的實(shí)現(xiàn)。本文完成的主要研究?jī)?nèi)容如下:1)分析了主題爬蟲(chóng)性能對(duì)比通用爬蟲(chóng)的優(yōu)勢(shì),對(duì)其搜索策略和網(wǎng)頁(yè)評(píng)價(jià)算法進(jìn)行研究,根據(jù)比較選擇了最佳優(yōu)先策略作為其搜索策略,并通過(guò)建立向量空間模型來(lái)對(duì)網(wǎng)頁(yè)進(jìn)行評(píng)價(jià)。同時(shí)研究了主題孤島和拒絕協(xié)議兩大關(guān)鍵問(wèn)題,在此基礎(chǔ)上對(duì)本文中使用的主題爬蟲(chóng)進(jìn)行了結(jié)構(gòu)設(shè)計(jì);2)分析了當(dāng)前網(wǎng)絡(luò)輿情環(huán)境特點(diǎn),針對(duì)這些特點(diǎn)進(jìn)行需求分析,根據(jù)得到的需求進(jìn)行互聯(lián)網(wǎng)輿情系統(tǒng)的結(jié)構(gòu)設(shè)計(jì);3)給出了主題爬蟲(chóng)在互聯(lián)網(wǎng)輿情系統(tǒng)中的具體實(shí)現(xiàn),包括抓取策略、分析策略、爬行策略、去重策略和任務(wù)調(diào)度策略,對(duì)抓取時(shí)的主題庫(kù)更新問(wèn)題提出了動(dòng)態(tài)擴(kuò)充的解決辦法,并針對(duì)網(wǎng)頁(yè)去重I-Match算法和任務(wù)調(diào)度Hash算法中的不足進(jìn)行了設(shè)計(jì)改進(jìn),改用了一致性Hash算法進(jìn)行任務(wù)調(diào)度,最后對(duì)系統(tǒng)進(jìn)行了測(cè)試。本文設(shè)計(jì)的主題爬蟲(chóng)綜合了主題庫(kù)改進(jìn)策略和算法改進(jìn),從整體方面提升爬蟲(chóng)性能。經(jīng)過(guò)測(cè)試,本文設(shè)計(jì)的主題爬蟲(chóng)性能優(yōu)于一般主題爬蟲(chóng)。
【關(guān)鍵詞】:互聯(lián)網(wǎng)輿情 主題爬蟲(chóng) 動(dòng)態(tài)擴(kuò)充 一致性Hash
【學(xué)位授予單位】:江蘇科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
- 摘要6-7
- Abstract7-12
- 第一章 緒論12-17
- 1.1 研究目的及意義12-14
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀14-15
- 1.2.1 互聯(lián)網(wǎng)輿情系統(tǒng)國(guó)內(nèi)外研究現(xiàn)狀14
- 1.2.2 網(wǎng)絡(luò)爬蟲(chóng)國(guó)內(nèi)外研究現(xiàn)狀14-15
- 1.3 主要研究?jī)?nèi)容及難點(diǎn)15-16
- 1.4 論文結(jié)構(gòu)16-17
- 第二章 爬蟲(chóng)算法技術(shù)17-31
- 2.1 網(wǎng)絡(luò)爬蟲(chóng)算法概述17-21
- 2.1.1 通用爬蟲(chóng)算法概述17-19
- 2.1.2 主題爬蟲(chóng)算法概述19-21
- 2.2 常用爬蟲(chóng)算法21-22
- 2.3 爬蟲(chóng)相關(guān)技術(shù)22-29
- 2.3.1 一般爬蟲(chóng)搜索策略22-23
- 2.3.2 最佳優(yōu)先搜索策略23-25
- 2.3.3 網(wǎng)頁(yè)評(píng)價(jià)技術(shù)25-27
- 2.3.4 其他相關(guān)技術(shù)27-29
- 2.4 開(kāi)發(fā)相關(guān)技術(shù)29-30
- 2.4.1 JAVA技術(shù)概述29
- 2.4.2 XML技術(shù)概述29-30
- 2.5 本章小結(jié)30-31
- 第三章 主題爬蟲(chóng)算法設(shè)計(jì)31-38
- 3.1 主題爬蟲(chóng)算法需求分析31
- 3.2 主題爬蟲(chóng)體系結(jié)構(gòu)設(shè)計(jì)31-36
- 3.2.1 主題爬蟲(chóng)模塊化設(shè)計(jì)32-33
- 3.2.2 爬蟲(chóng)控制模塊33-35
- 3.2.3 工作流程中各模塊交互過(guò)程35-36
- 3.3 主題爬蟲(chóng)拒絕協(xié)議研究36-37
- 3.4 本章小結(jié)37-38
- 第四章 互聯(lián)網(wǎng)輿情系統(tǒng)設(shè)計(jì)38-48
- 4.1 網(wǎng)絡(luò)輿情的概述與特點(diǎn)38-39
- 4.2 需求分析39-41
- 4.3 系統(tǒng)框架功能設(shè)計(jì)41-43
- 4.4 互聯(lián)網(wǎng)輿情系統(tǒng)關(guān)鍵技術(shù)43-46
- 4.4.1 網(wǎng)頁(yè)分析技術(shù)43-44
- 4.4.2 中文分詞技術(shù)44-45
- 4.4.3 文本分類技術(shù)45-46
- 4.5 系統(tǒng)主要難點(diǎn)46-47
- 4.6 本章小結(jié)47-48
- 第五章 爬蟲(chóng)算法在互聯(lián)網(wǎng)輿情系統(tǒng)中的實(shí)現(xiàn)48-63
- 5.1 主題爬蟲(chóng)對(duì)網(wǎng)頁(yè)的抓取策略48-49
- 5.2 主題爬蟲(chóng)對(duì)網(wǎng)頁(yè)的分析策略49-50
- 5.2.1 對(duì)URL的分析49
- 5.2.2 對(duì)網(wǎng)頁(yè)內(nèi)容的分析49-50
- 5.3 主題爬蟲(chóng)的爬行策略50-54
- 5.3.1 基本主題詞庫(kù)構(gòu)建50
- 5.3.2 特征向量TD-IDF加權(quán)算法50-51
- 5.3.3 網(wǎng)頁(yè)內(nèi)容與主題相關(guān)度51-52
- 5.3.4 主題詞庫(kù)的動(dòng)態(tài)擴(kuò)充52-53
- 5.3.5 爬行策略53-54
- 5.4 主題爬蟲(chóng)的去重策略54-56
- 5.4.1 Web頁(yè)面重復(fù)特點(diǎn)54-55
- 5.4.2 網(wǎng)頁(yè)內(nèi)容特征提取55
- 5.4.3 I-Match去重算法55-56
- 5.5 主題爬蟲(chóng)的任務(wù)調(diào)度策略56-62
- 5.5.1 主題爬蟲(chóng)的多任務(wù)調(diào)度57-58
- 5.5.2 運(yùn)用改進(jìn)Hash算法進(jìn)行任務(wù)調(diào)度58-62
- 5.6 本章小結(jié)62-63
- 第六章 互聯(lián)網(wǎng)輿情系統(tǒng)功能測(cè)試63-67
- 6.1 輿情系統(tǒng)測(cè)試環(huán)境63
- 6.2 輿情系統(tǒng)測(cè)試及結(jié)果63-66
- 6.3 本章小結(jié)66-67
- 第七章 結(jié)論67-68
- 參考文獻(xiàn)68-70
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄70-71
- 致謝71
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 嚴(yán)曉光;王小剛;陳卓寧;張金;;軟件質(zhì)量保障平臺(tái)中基于RBAC的統(tǒng)一身份認(rèn)證應(yīng)用研究[J];計(jì)算機(jī)工程與科學(xué);2009年03期
2 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機(jī)制——雙字哈希機(jī)制[J];中文信息學(xué)報(bào);2003年04期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 劉春輝;基于優(yōu)化最大匹配的中文分詞方法研究[D];燕山大學(xué);2009年
本文關(guān)鍵詞:爬蟲(chóng)算法在互聯(lián)網(wǎng)輿情系統(tǒng)的研究與應(yīng)用,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):452811
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/452811.html
最近更新
教材專著