基于主題爬蟲(chóng)的食品安全網(wǎng)絡(luò)輿情分析方法研究與監(jiān)測(cè)系統(tǒng)開(kāi)發(fā)
發(fā)布時(shí)間:2017-09-09 03:34
本文關(guān)鍵詞:基于主題爬蟲(chóng)的食品安全網(wǎng)絡(luò)輿情分析方法研究與監(jiān)測(cè)系統(tǒng)開(kāi)發(fā)
更多相關(guān)文章: 主題爬蟲(chóng) 正文提取 相似度計(jì)算 熱點(diǎn)話題提取 single-pass聚類(lèi) 輿情分析
【摘要】:近年來(lái)“食品安全”問(wèn)題屢見(jiàn)不鮮,嚴(yán)重影響到人們的日常生活,為了能夠及時(shí)的從網(wǎng)絡(luò)新聞中發(fā)現(xiàn)可能會(huì)爆發(fā)的熱點(diǎn)話題,尤其是具有負(fù)面影響的食品安全事件,幫助政府相關(guān)部門(mén)及時(shí)了解事件的發(fā)展動(dòng)向和社會(huì)輿論,本文對(duì)其進(jìn)行了方法研究和實(shí)現(xiàn)。本文的主要研究?jī)?nèi)容可以分為三個(gè)部分:主題爬蟲(chóng)的改進(jìn)和實(shí)現(xiàn)、輿情分析及話題提取、食品安全輿情分析系統(tǒng)的開(kāi)發(fā)。對(duì)于主題爬蟲(chóng)部分,在主題爬蟲(chóng)技術(shù)的基本原理和關(guān)鍵技術(shù)的基礎(chǔ)上,提出了一種改進(jìn)的主題爬蟲(chóng)方法:將傳統(tǒng)的網(wǎng)頁(yè)正文獲取技術(shù)進(jìn)行了改進(jìn),得到一種基于HTML代碼解析和文字密度相結(jié)合的正文抽取方法,可以一定程度提高正文抽取的準(zhǔn)確率;將文本相似度計(jì)算中的向量空間模型方法進(jìn)行了改進(jìn),得到一種降維VSM的多參考因素的相似度計(jì)算方法,并結(jié)合網(wǎng)頁(yè)內(nèi)容與主題內(nèi)容進(jìn)行相似度的計(jì)算;與此同時(shí),優(yōu)化了爬蟲(chóng)的初始種子模塊和動(dòng)態(tài)閾值調(diào)整模塊;對(duì)大規(guī)模URL的排序、去重和多線程也進(jìn)行了相應(yīng)的改進(jìn)。經(jīng)過(guò)對(duì)各個(gè)模塊的優(yōu)化,實(shí)現(xiàn)了-個(gè)面向特定主題的爬蟲(chóng)系統(tǒng),通過(guò)實(shí)驗(yàn)對(duì)比,證明改進(jìn)后的主題爬蟲(chóng)在效率和精確度方面都得到了較大的提高。在輿情分析及話題提取部分,通過(guò)比較幾種常用聚類(lèi)算法的優(yōu)缺點(diǎn),最終選擇使用single-pass聚類(lèi)算法;并對(duì)single-pass聚類(lèi)算法進(jìn)行了改進(jìn),將聚類(lèi)過(guò)程中的簇中心向量確定方法進(jìn)行了修正,得到一種基于時(shí)間參考因素的多層single-pass聚類(lèi)算法;對(duì)傳統(tǒng)的話題提取過(guò)程進(jìn)行了改進(jìn),得到一種基于向量空間模型的改進(jìn)single-pass聚類(lèi)方法的話題提取技術(shù)。最后通過(guò)實(shí)驗(yàn)對(duì)比驗(yàn)證改進(jìn)后的聚類(lèi)算法以及話題提取方法的效率以及準(zhǔn)確度都得到了一定的提高。本文最后實(shí)現(xiàn)了一個(gè)食品安全輿情分析系統(tǒng),通過(guò)主題爬蟲(chóng)將互聯(lián)網(wǎng)上的相關(guān)數(shù)據(jù)下載下來(lái),經(jīng)過(guò)相應(yīng)的數(shù)據(jù)整理,使用single-pas s聚類(lèi)算法進(jìn)行熱點(diǎn)話題提取,可以及時(shí)發(fā)現(xiàn)近期發(fā)生的食品安全熱點(diǎn)事件。
【關(guān)鍵詞】:主題爬蟲(chóng) 正文提取 相似度計(jì)算 熱點(diǎn)話題提取 single-pass聚類(lèi) 輿情分析
【學(xué)位授予單位】:北京化工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TS201.6;TP391.1
【目錄】:
- 學(xué)位論文數(shù)據(jù)集3-4
- 摘要4-6
- ABSTRACT6-14
- 第一章 緒論14-20
- 1.1 研究背景14-15
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀15-18
- 1.2.1 主題爬蟲(chóng)的研究現(xiàn)狀15-16
- 1.2.2 聚類(lèi)方法的研究現(xiàn)狀16-17
- 1.2.3 網(wǎng)絡(luò)輿情及話題提取的研究現(xiàn)狀17-18
- 1.3 本文的主要研究?jī)?nèi)容18-19
- 1.4 論文組織結(jié)構(gòu)19-20
- 第二章 爬蟲(chóng)相關(guān)技術(shù)20-32
- 2.1 搜索引擎簡(jiǎn)介20-22
- 2.2 通用爬蟲(chóng)技術(shù)22-24
- 2.2.1 通用爬蟲(chóng)簡(jiǎn)介22-23
- 2.2.2 通用爬蟲(chóng)的常用搜索策略23-24
- 2.3 主題爬蟲(chóng)技術(shù)24-28
- 2.3.1 主題爬蟲(chóng)簡(jiǎn)介24-25
- 2.3.2 主題爬蟲(chóng)的常用搜索策略25-28
- 2.4 主題爬蟲(chóng)與通用爬蟲(chóng)的比較28
- 2.5 文本聚類(lèi)算法28-31
- 2.5.1 劃分聚類(lèi)算法28-29
- 2.5.2 層次聚類(lèi)算法29-30
- 2.5.3 密度聚類(lèi)算法30
- 2.5.4 single-pass聚類(lèi)算法30
- 2.5.5 幾種聚類(lèi)算法的比較30-31
- 2.6 本章小結(jié)31-32
- 第三章 主題爬蟲(chóng)的改進(jìn)與實(shí)現(xiàn)32-58
- 3.1 主題爬蟲(chóng)系統(tǒng)結(jié)構(gòu)32-33
- 3.2 爬蟲(chóng)主題的確定33-34
- 3.3 初始種子的優(yōu)化改進(jìn)34-36
- 3.4 基于文字密度的網(wǎng)頁(yè)正文提取36-41
- 3.4.1 機(jī)器人協(xié)議36
- 3.4.2 http協(xié)議和socket通信36-37
- 3.4.3 基于文字密度的網(wǎng)頁(yè)正文提取37-41
- 3.5 基于向量空間模型的文本相似度計(jì)算41-46
- 3.5.1 中文分詞及預(yù)處理技術(shù)41-42
- 3.5.2 向量空間模型42-46
- 3.6 降維度VSM的多參考因素相似度改進(jìn)算法46-47
- 3.6.1 VSM的優(yōu)缺點(diǎn)46
- 3.6.2 降維的改進(jìn)向量空間模型46-47
- 3.6.3 改進(jìn)VSM的多參考因素相似度計(jì)算47
- 3.7 動(dòng)態(tài)閾值的調(diào)整47-49
- 3.8 URL的優(yōu)先級(jí)排序49-50
- 3.9 爬蟲(chóng)過(guò)程中存在的其他問(wèn)題50-53
- 3.9.1 多線程50-52
- 3.9.2 大規(guī)模URL的去重52
- 3.9.3 大規(guī)模URL的存儲(chǔ)52-53
- 3.10 改進(jìn)后主題爬蟲(chóng)的流程圖53-54
- 3.11 對(duì)比實(shí)驗(yàn)設(shè)計(jì)54-57
- 3.11.1 改進(jìn)后的主題爬蟲(chóng)與Heritrix爬蟲(chóng)的比較55
- 3.11.2 準(zhǔn)確率和召回率的比較55-57
- 3.12 本章小結(jié)57-58
- 第四章 基于主題爬蟲(chóng)的輿情監(jiān)測(cè)和話題提取58-68
- 4.1 網(wǎng)絡(luò)輿情監(jiān)測(cè)概述58-59
- 4.2 single-pass聚類(lèi)算法59-60
- 4.3 聚類(lèi)算法實(shí)驗(yàn)對(duì)比60-61
- 4.4 話題檢測(cè)和提取61-64
- 4.4.1 話題提取的過(guò)程61-62
- 4.4.2 single-pass聚類(lèi)算法改進(jìn)62-63
- 4.4.3 single-pass聚類(lèi)算法實(shí)驗(yàn)對(duì)比63-64
- 4.5 熱點(diǎn)話題提取過(guò)程64-66
- 4.5.1 改進(jìn)single-pass聚類(lèi)算法的話題提取過(guò)程64
- 4.5.2 話題提取實(shí)驗(yàn)比較64-66
- 4.6 本章小結(jié)66-68
- 第五章 輿情分析原型系統(tǒng)開(kāi)發(fā)68-76
- 5.1 輿情分析系統(tǒng)的總體設(shè)計(jì)68-69
- 5.1.1 輿情分析系統(tǒng)的系統(tǒng)架構(gòu)68-69
- 5.1.2 輿情分析系統(tǒng)的開(kāi)發(fā)環(huán)境69
- 5.2 食品安全輿情分析系統(tǒng)主要功能69-70
- 5.3 食品安全輿情分析系統(tǒng)展示70-74
- 5.3.1 主題爬蟲(chóng)界面70-72
- 5.3.2 輿情分析系統(tǒng)界面72-74
- 5.4 本章小結(jié)74-76
- 第六章 總結(jié)與展望76-78
- 6.1 總結(jié)76
- 6.2 展望76-78
- 參考文獻(xiàn)78-82
- 致謝82-84
- 作者和導(dǎo)師簡(jiǎn)介84-85
- 附件85-86
本文編號(hào):818047
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/818047.html
最近更新
教材專(zhuān)著