天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

爬蟲(chóng)算法在互聯(lián)網(wǎng)輿情系統(tǒng)的研究與應(yīng)用

發(fā)布時(shí)間:2017-06-15 16:00

  本文關(guān)鍵詞:爬蟲(chóng)算法在互聯(lián)網(wǎng)輿情系統(tǒng)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著科技的不斷進(jìn)步,人類已經(jīng)進(jìn)入了一個(gè)全新的“信息時(shí)代”;ヂ(lián)網(wǎng)已經(jīng)成為了當(dāng)前主流的信息載體之一。面對(duì)互聯(lián)網(wǎng)上的大量輿情信息,如何實(shí)現(xiàn)對(duì)其進(jìn)行有效的監(jiān)控和篩選也成為了研究重點(diǎn)。由于通用搜索引擎無(wú)法滿足特定用戶群體的搜索需要,針對(duì)特定主題的主題爬蟲(chóng)應(yīng)運(yùn)而生,主題爬蟲(chóng)也為互聯(lián)網(wǎng)輿情系統(tǒng)中的垂直搜索部分提供了數(shù)據(jù)來(lái)源。本文以國(guó)內(nèi)外的現(xiàn)有研究成果為依據(jù),通過(guò)分析當(dāng)前互聯(lián)網(wǎng)輿情環(huán)境,設(shè)計(jì)了互聯(lián)網(wǎng)輿情系統(tǒng),并針對(duì)其中的主題爬蟲(chóng)進(jìn)行了研究設(shè)計(jì)。對(duì)影響主題爬蟲(chóng)性能的關(guān)鍵性算法進(jìn)行了研究改進(jìn),并在系統(tǒng)中完成了主題爬蟲(chóng)的實(shí)現(xiàn)。本文完成的主要研究?jī)?nèi)容如下:1)分析了主題爬蟲(chóng)性能對(duì)比通用爬蟲(chóng)的優(yōu)勢(shì),對(duì)其搜索策略和網(wǎng)頁(yè)評(píng)價(jià)算法進(jìn)行研究,根據(jù)比較選擇了最佳優(yōu)先策略作為其搜索策略,并通過(guò)建立向量空間模型來(lái)對(duì)網(wǎng)頁(yè)進(jìn)行評(píng)價(jià)。同時(shí)研究了主題孤島和拒絕協(xié)議兩大關(guān)鍵問(wèn)題,在此基礎(chǔ)上對(duì)本文中使用的主題爬蟲(chóng)進(jìn)行了結(jié)構(gòu)設(shè)計(jì);2)分析了當(dāng)前網(wǎng)絡(luò)輿情環(huán)境特點(diǎn),針對(duì)這些特點(diǎn)進(jìn)行需求分析,根據(jù)得到的需求進(jìn)行互聯(lián)網(wǎng)輿情系統(tǒng)的結(jié)構(gòu)設(shè)計(jì);3)給出了主題爬蟲(chóng)在互聯(lián)網(wǎng)輿情系統(tǒng)中的具體實(shí)現(xiàn),包括抓取策略、分析策略、爬行策略、去重策略和任務(wù)調(diào)度策略,對(duì)抓取時(shí)的主題庫(kù)更新問(wèn)題提出了動(dòng)態(tài)擴(kuò)充的解決辦法,并針對(duì)網(wǎng)頁(yè)去重I-Match算法和任務(wù)調(diào)度Hash算法中的不足進(jìn)行了設(shè)計(jì)改進(jìn),改用了一致性Hash算法進(jìn)行任務(wù)調(diào)度,最后對(duì)系統(tǒng)進(jìn)行了測(cè)試。本文設(shè)計(jì)的主題爬蟲(chóng)綜合了主題庫(kù)改進(jìn)策略和算法改進(jìn),從整體方面提升爬蟲(chóng)性能。經(jīng)過(guò)測(cè)試,本文設(shè)計(jì)的主題爬蟲(chóng)性能優(yōu)于一般主題爬蟲(chóng)。
【關(guān)鍵詞】:互聯(lián)網(wǎng)輿情 主題爬蟲(chóng) 動(dòng)態(tài)擴(kuò)充 一致性Hash
【學(xué)位授予單位】:江蘇科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要6-7
  • Abstract7-12
  • 第一章 緒論12-17
  • 1.1 研究目的及意義12-14
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀14-15
  • 1.2.1 互聯(lián)網(wǎng)輿情系統(tǒng)國(guó)內(nèi)外研究現(xiàn)狀14
  • 1.2.2 網(wǎng)絡(luò)爬蟲(chóng)國(guó)內(nèi)外研究現(xiàn)狀14-15
  • 1.3 主要研究?jī)?nèi)容及難點(diǎn)15-16
  • 1.4 論文結(jié)構(gòu)16-17
  • 第二章 爬蟲(chóng)算法技術(shù)17-31
  • 2.1 網(wǎng)絡(luò)爬蟲(chóng)算法概述17-21
  • 2.1.1 通用爬蟲(chóng)算法概述17-19
  • 2.1.2 主題爬蟲(chóng)算法概述19-21
  • 2.2 常用爬蟲(chóng)算法21-22
  • 2.3 爬蟲(chóng)相關(guān)技術(shù)22-29
  • 2.3.1 一般爬蟲(chóng)搜索策略22-23
  • 2.3.2 最佳優(yōu)先搜索策略23-25
  • 2.3.3 網(wǎng)頁(yè)評(píng)價(jià)技術(shù)25-27
  • 2.3.4 其他相關(guān)技術(shù)27-29
  • 2.4 開(kāi)發(fā)相關(guān)技術(shù)29-30
  • 2.4.1 JAVA技術(shù)概述29
  • 2.4.2 XML技術(shù)概述29-30
  • 2.5 本章小結(jié)30-31
  • 第三章 主題爬蟲(chóng)算法設(shè)計(jì)31-38
  • 3.1 主題爬蟲(chóng)算法需求分析31
  • 3.2 主題爬蟲(chóng)體系結(jié)構(gòu)設(shè)計(jì)31-36
  • 3.2.1 主題爬蟲(chóng)模塊化設(shè)計(jì)32-33
  • 3.2.2 爬蟲(chóng)控制模塊33-35
  • 3.2.3 工作流程中各模塊交互過(guò)程35-36
  • 3.3 主題爬蟲(chóng)拒絕協(xié)議研究36-37
  • 3.4 本章小結(jié)37-38
  • 第四章 互聯(lián)網(wǎng)輿情系統(tǒng)設(shè)計(jì)38-48
  • 4.1 網(wǎng)絡(luò)輿情的概述與特點(diǎn)38-39
  • 4.2 需求分析39-41
  • 4.3 系統(tǒng)框架功能設(shè)計(jì)41-43
  • 4.4 互聯(lián)網(wǎng)輿情系統(tǒng)關(guān)鍵技術(shù)43-46
  • 4.4.1 網(wǎng)頁(yè)分析技術(shù)43-44
  • 4.4.2 中文分詞技術(shù)44-45
  • 4.4.3 文本分類技術(shù)45-46
  • 4.5 系統(tǒng)主要難點(diǎn)46-47
  • 4.6 本章小結(jié)47-48
  • 第五章 爬蟲(chóng)算法在互聯(lián)網(wǎng)輿情系統(tǒng)中的實(shí)現(xiàn)48-63
  • 5.1 主題爬蟲(chóng)對(duì)網(wǎng)頁(yè)的抓取策略48-49
  • 5.2 主題爬蟲(chóng)對(duì)網(wǎng)頁(yè)的分析策略49-50
  • 5.2.1 對(duì)URL的分析49
  • 5.2.2 對(duì)網(wǎng)頁(yè)內(nèi)容的分析49-50
  • 5.3 主題爬蟲(chóng)的爬行策略50-54
  • 5.3.1 基本主題詞庫(kù)構(gòu)建50
  • 5.3.2 特征向量TD-IDF加權(quán)算法50-51
  • 5.3.3 網(wǎng)頁(yè)內(nèi)容與主題相關(guān)度51-52
  • 5.3.4 主題詞庫(kù)的動(dòng)態(tài)擴(kuò)充52-53
  • 5.3.5 爬行策略53-54
  • 5.4 主題爬蟲(chóng)的去重策略54-56
  • 5.4.1 Web頁(yè)面重復(fù)特點(diǎn)54-55
  • 5.4.2 網(wǎng)頁(yè)內(nèi)容特征提取55
  • 5.4.3 I-Match去重算法55-56
  • 5.5 主題爬蟲(chóng)的任務(wù)調(diào)度策略56-62
  • 5.5.1 主題爬蟲(chóng)的多任務(wù)調(diào)度57-58
  • 5.5.2 運(yùn)用改進(jìn)Hash算法進(jìn)行任務(wù)調(diào)度58-62
  • 5.6 本章小結(jié)62-63
  • 第六章 互聯(lián)網(wǎng)輿情系統(tǒng)功能測(cè)試63-67
  • 6.1 輿情系統(tǒng)測(cè)試環(huán)境63
  • 6.2 輿情系統(tǒng)測(cè)試及結(jié)果63-66
  • 6.3 本章小結(jié)66-67
  • 第七章 結(jié)論67-68
  • 參考文獻(xiàn)68-70
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄70-71
  • 致謝71

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 嚴(yán)曉光;王小剛;陳卓寧;張金;;軟件質(zhì)量保障平臺(tái)中基于RBAC的統(tǒng)一身份認(rèn)證應(yīng)用研究[J];計(jì)算機(jī)工程與科學(xué);2009年03期

2 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機(jī)制——雙字哈希機(jī)制[J];中文信息學(xué)報(bào);2003年04期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 劉春輝;基于優(yōu)化最大匹配的中文分詞方法研究[D];燕山大學(xué);2009年


  本文關(guān)鍵詞:爬蟲(chóng)算法在互聯(lián)網(wǎng)輿情系統(tǒng)的研究與應(yīng)用,,由筆耕文化傳播整理發(fā)布。



本文編號(hào):452811

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/452811.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d4f12***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com