面向教育輿情的主題網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:面向教育輿情的主題網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:伴隨互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)逐漸成為大眾獲取各類型信息的主要渠道。同時(shí)當(dāng)今互聯(lián)網(wǎng)信息分類也在不斷進(jìn)行細(xì)化,網(wǎng)絡(luò)信息的主題化也日益明顯。針對(duì)目前通用搜索引擎搜所搜索到的結(jié)果過(guò)多,與主題相關(guān)性不強(qiáng)等情況,本文提出設(shè)計(jì)一個(gè)面向教育輿情的的主題網(wǎng)絡(luò)爬蟲,也是主題輿情監(jiān)測(cè)系統(tǒng)的重要組成部分。當(dāng)前主題網(wǎng)絡(luò)爬蟲的研究已成為熱點(diǎn),但針對(duì)教育輿情的主題網(wǎng)絡(luò)爬蟲研究還較少,因此針對(duì)教育輿情數(shù)據(jù)采集的主題網(wǎng)絡(luò)爬蟲研究是具有一定意義的。本文從當(dāng)前我國(guó)互聯(lián)網(wǎng)教育輿情監(jiān)測(cè)為背景出發(fā),通過(guò)分析當(dāng)前搜索引擎相關(guān)知識(shí)、主題網(wǎng)絡(luò)爬蟲系統(tǒng)的主要工作模式、搜索算法、主題信息識(shí)別等相關(guān)技術(shù)。設(shè)計(jì)了一個(gè)面向教育輿情主題網(wǎng)絡(luò)爬蟲,通過(guò)該主題網(wǎng)絡(luò)爬蟲可以對(duì)互聯(lián)網(wǎng)教育輿情信息進(jìn)行高效的采集與識(shí)別。搜索算法是主題網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)之一,因此本文主要對(duì)主題網(wǎng)絡(luò)爬蟲的搜索算法進(jìn)行分析與改進(jìn),通過(guò)對(duì)傳統(tǒng)主題網(wǎng)絡(luò)爬蟲搜索算法的分析,提出了一種基于云計(jì)算平臺(tái)下的主題價(jià)值判斷搜索算法,該算法主要包括了基于云平臺(tái)的搜索任務(wù)調(diào)度算法、基于云節(jié)點(diǎn)下網(wǎng)站搜索算法、基于向量空間模型的主題識(shí)別算法和基于布隆過(guò)濾器的去重算法等。并利用了云平臺(tái)的高效性和穩(wěn)定性等特點(diǎn),將主題網(wǎng)絡(luò)爬蟲的搜索算法與云平臺(tái)相結(jié)合,解決了傳統(tǒng)主題網(wǎng)絡(luò)爬蟲在單機(jī)模式下采集數(shù)據(jù)效率低下的問(wèn)題。通過(guò)對(duì)該主題網(wǎng)絡(luò)爬蟲測(cè)試和相關(guān)實(shí)驗(yàn)數(shù)據(jù)分析表明,改進(jìn)后的搜索算法與傳統(tǒng)的主題網(wǎng)絡(luò)爬蟲搜索算法在采集網(wǎng)頁(yè)效率上和搜索、發(fā)現(xiàn)網(wǎng)頁(yè)比例上有著明顯的提高。基于以上的研究,在今后的工作中,主要的研究方向是如何將該主題網(wǎng)絡(luò)爬蟲全面部署到云計(jì)算平臺(tái)當(dāng)中,解決主題網(wǎng)絡(luò)爬蟲在云平臺(tái)中運(yùn)行的其他關(guān)鍵性技術(shù)與算法,從而實(shí)現(xiàn)一個(gè)真正意義上的基于云平臺(tái)的教育輿情主題網(wǎng)絡(luò)爬蟲。
【關(guān)鍵詞】:主題網(wǎng)絡(luò)爬蟲 教育輿情 信息采集 C/S 蟻群算法
【學(xué)位授予單位】:南華大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3
【目錄】:
- 摘要7-9
- Abstract9-14
- 第1章 緒論14-20
- 1.1 研究背景14-16
- 1.1.1 網(wǎng)絡(luò)輿情14-15
- 1.1.2 教育輿情15-16
- 1.2 研究現(xiàn)狀16-18
- 1.3 研究?jī)?nèi)容18-20
- 第2章 主題網(wǎng)絡(luò)爬蟲相關(guān)知識(shí)20-34
- 2.1 搜索引擎20-23
- 2.1.1 搜索引擎的概念20-21
- 2.1.2 搜索引擎的分類21-22
- 2.1.3 搜索引擎的工作原理22-23
- 2.2 相關(guān)技術(shù)23-29
- 2.2.1 云計(jì)算平臺(tái)23-25
- 2.2.2 并行計(jì)算25-27
- 2.2.3 虛擬化技術(shù)27-28
- 2.2.4 Robots協(xié)議28-29
- 2.3 主題網(wǎng)絡(luò)爬蟲29-34
- 2.3.1 主題網(wǎng)絡(luò)爬蟲概述29-32
- 2.3.2 主題網(wǎng)絡(luò)爬蟲組成結(jié)構(gòu)32-33
- 2.3.3 主題網(wǎng)絡(luò)爬蟲分類33-34
- 2.4 本章小結(jié)34
- 第3章 一種基于云平臺(tái)的教育主題搜索算法分析與改進(jìn)34-53
- 3.1 傳統(tǒng)主題網(wǎng)絡(luò)爬蟲搜索算法分析34-40
- 3.1.1 基于深度優(yōu)先搜索算法35
- 3.1.2 基于廣度優(yōu)先搜索算法35-36
- 3.1.3 基于最佳優(yōu)先搜索算法36-40
- 3.2 基于云平臺(tái)的教育主題搜索算法分析與改進(jìn)40-50
- 3.2.1 云平臺(tái)下的搜索模型分析40-41
- 3.2.2 云平臺(tái)下的搜索任務(wù)調(diào)度算法分析與改進(jìn)41-44
- 3.2.3 基于云平臺(tái)的教育主題搜索算法分析與改進(jìn)44-50
- 3.3 改進(jìn)后搜索算法的性能比較50-52
- 3.3.1 改進(jìn)后搜索算法采集網(wǎng)頁(yè)能力比較分析50-51
- 3.3.2 改進(jìn)后搜索算法性能比較分析51-52
- 3.4 本章小結(jié)52-53
- 第4章 面向教育輿情主題網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)53-68
- 4.1 開發(fā)運(yùn)行環(huán)境簡(jiǎn)介53-57
- 4.1.1 Embarcadero Delphi XE7介紹53-54
- 4.1.2 Microsoft SQL Server 2012介紹54-56
- 4.1.3 Windows Azure云計(jì)算平臺(tái)介紹及搭建56-57
- 4.2 系統(tǒng)目標(biāo)與需求分析57-59
- 4.2.1 系統(tǒng)目標(biāo)57-58
- 4.2.2 系統(tǒng)需求分析58-59
- 4.3 系統(tǒng)總體設(shè)計(jì)59-62
- 4.3.1 系統(tǒng)模塊設(shè)計(jì)59-61
- 4.3.2 系統(tǒng)流程設(shè)計(jì)61-62
- 4.4 基于云平臺(tái)的教育主題搜索算法的實(shí)現(xiàn)62-65
- 4.4.1 云平臺(tái)下的搜索任務(wù)調(diào)度算法實(shí)現(xiàn)62-64
- 4.4.2 向量空間模型算法實(shí)現(xiàn)64-65
- 4.5 基于貝葉斯分類算法的教育主題識(shí)別的實(shí)現(xiàn)65-67
- 4.5.1 貝葉斯分類算法實(shí)現(xiàn)流程65
- 4.5.2 貝葉斯分類算法部分函數(shù)實(shí)現(xiàn)65-67
- 4.6 本章小結(jié)67-68
- 第5章 系統(tǒng)測(cè)試和實(shí)驗(yàn)數(shù)據(jù)分析68-76
- 5.1 系統(tǒng)測(cè)試環(huán)境68-69
- 5.2 系統(tǒng)測(cè)試?yán)碚撝R(shí)69-70
- 5.3 系統(tǒng)測(cè)試結(jié)果及分析70-74
- 5.4 本章小結(jié)74-76
- 第6章 結(jié)束語(yǔ)76-77
- 6.1 工作總結(jié)76
- 6.2 問(wèn)題與展望76-77
- 參考文獻(xiàn)77-82
- 作者攻讀學(xué)位期間的科研成果82-83
- 致謝83
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 戚欣;;基于本體的主題網(wǎng)絡(luò)爬蟲設(shè)計(jì)[J];武漢理工大學(xué)學(xué)報(bào);2009年03期
2 彭軻;廖聞劍;;基于瀏覽器服務(wù)的網(wǎng)絡(luò)爬蟲[J];硅谷;2009年04期
3 王江紅;朱麗君;李彩虹;;一種新型網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];微計(jì)算機(jī)信息;2010年03期
4 孫立偉;何國(guó)輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年15期
5 楊靖韜;陳會(huì)果;;對(duì)網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];科技創(chuàng)業(yè)月刊;2010年10期
6 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報(bào);2011年03期
7 李志義;;網(wǎng)絡(luò)爬蟲的優(yōu)化策略探略[J];現(xiàn)代情報(bào);2011年10期
8 焦賽美;;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];瓊州學(xué)院學(xué)報(bào);2011年05期
9 宋海洋;劉曉然;錢?;;一種新的主題網(wǎng)絡(luò)爬蟲爬行策略[J];計(jì)算機(jī)應(yīng)用與軟件;2011年11期
10 王娟;吳金鵬;;網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];軟件導(dǎo)刊;2012年04期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條
1 夏詔杰;郭力;李曉霞;;化學(xué)主題網(wǎng)絡(luò)爬蟲的研究[A];第十屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2009年
2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[A];2010年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2010年
3 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評(píng)論信息的挖掘[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
4 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國(guó)第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國(guó)第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 陶俊文;基于Heritrix框架的專業(yè)鎮(zhèn)信息網(wǎng)絡(luò)爬蟲系統(tǒng)[D];華南理工大學(xué);2015年
2 馬漢超;基于主題網(wǎng)絡(luò)爬蟲的汽車行業(yè)多元信息web系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2015年
3 李威;基于交通流量圖的交通信息提取技術(shù)研究[D];長(zhǎng)安大學(xué);2015年
4 朱嶸良;分布式并行環(huán)境下的網(wǎng)絡(luò)爬蟲研究[D];中央民族大學(xué);2015年
5 周思華;股票系統(tǒng)之熱門話題發(fā)現(xiàn)子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
6 丁杰;基于網(wǎng)絡(luò)爬蟲的虛假網(wǎng)頁(yè)主動(dòng)智能檢測(cè)[D];華北電力大學(xué);2015年
7 唐華棟;網(wǎng)頁(yè)防抓取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
8 白劍飛;基于層次主題模型的網(wǎng)絡(luò)新聞匯聚[D];浙江大學(xué);2015年
9 袁野;企業(yè)內(nèi)網(wǎng)搜索引擎關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
10 滕以芳;基于本體的多媒體素材網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2015年
本文關(guān)鍵詞:面向教育輿情的主題網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號(hào):253427
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/253427.html