專(zhuān)業(yè)鎮(zhèn)信息爬取子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:專(zhuān)業(yè)鎮(zhèn)信息爬取子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著廣東省經(jīng)濟(jì)的飛速發(fā)展,一些在省內(nèi)占有優(yōu)越的地理位置、文化環(huán)境和信息條件的市鎮(zhèn)出現(xiàn)了許多有一定規(guī)模的中小微企業(yè)。這些鎮(zhèn)內(nèi)的企業(yè)常常聯(lián)合起來(lái),針對(duì)某一產(chǎn)業(yè),各自分工合作,從而謀得發(fā)展。經(jīng)過(guò)多年的優(yōu)勝劣汰,省內(nèi)的許多市鎮(zhèn)都形成了自己的特色產(chǎn)業(yè),特色品牌。然而,這些鎮(zhèn)與鎮(zhèn)之間的聯(lián)系比較少,缺乏信息溝通的渠道。而且,鎮(zhèn)內(nèi)的企業(yè)都缺乏一個(gè)能夠進(jìn)行信息共享、展現(xiàn)自我的信息服務(wù)平臺(tái)。在信息網(wǎng)絡(luò)蓬勃發(fā)展的現(xiàn)在,這些專(zhuān)業(yè)鎮(zhèn)明顯跟不上時(shí)代的腳步。因此,急需一個(gè)平臺(tái)來(lái)整合產(chǎn)業(yè)信息資源,提供信息交互的渠道,通過(guò)信息網(wǎng)絡(luò)創(chuàng)新技術(shù)保證信息的完整以及安全,為企業(yè)的發(fā)展提供一個(gè)有效的、可行的策略。而廣東省專(zhuān)業(yè)鎮(zhèn)信息服務(wù)平臺(tái)迎合了這些需求。本論文來(lái)源于“廣東省專(zhuān)業(yè)鎮(zhèn)信息服務(wù)平臺(tái)”項(xiàng)目。在專(zhuān)業(yè)鎮(zhèn)信息平臺(tái)中,我們需要對(duì)專(zhuān)業(yè)鎮(zhèn)平臺(tái)三大數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行采集工作,為了高效準(zhǔn)確地獲取數(shù)據(jù)源,本文設(shè)計(jì)了一個(gè)專(zhuān)業(yè)鎮(zhèn)信息爬取子系統(tǒng)來(lái)實(shí)現(xiàn)從互聯(lián)網(wǎng)上抓取數(shù)據(jù),解析數(shù)據(jù)并將數(shù)據(jù)導(dǎo)入平臺(tái)系統(tǒng)中。論文主要完成了以下工作:對(duì)信息平臺(tái)發(fā)展動(dòng)態(tài)以及爬蟲(chóng)研究現(xiàn)狀做了簡(jiǎn)單的介紹;闡述平臺(tái)系統(tǒng)的總體設(shè)計(jì)思路與組織架構(gòu),平臺(tái)的前端頁(yè)面技術(shù)以及后端的企業(yè)內(nèi)容管理系統(tǒng)。通過(guò)分析平臺(tái)的處理流程和網(wǎng)絡(luò)結(jié)構(gòu),描述平臺(tái)的實(shí)現(xiàn)過(guò)程。設(shè)計(jì)并實(shí)現(xiàn)爬取子系統(tǒng),爬取各類(lèi)網(wǎng)站的海量數(shù)據(jù),根據(jù)信息平臺(tái)數(shù)據(jù)庫(kù)需求的數(shù)據(jù)類(lèi)型與格式,對(duì)獲取的數(shù)據(jù)源進(jìn)行結(jié)構(gòu)化處理。通過(guò)網(wǎng)頁(yè)內(nèi)容主題相關(guān)策略對(duì)信息的有效性進(jìn)行了驗(yàn)證。最后將爬取的數(shù)據(jù)源存儲(chǔ)在數(shù)據(jù)庫(kù)管理系統(tǒng)中,爬取結(jié)束后,把數(shù)據(jù)庫(kù)文件進(jìn)行分類(lèi)處理,并將其批量導(dǎo)入專(zhuān)業(yè)鎮(zhèn)信息平臺(tái)的后臺(tái)數(shù)據(jù)庫(kù)。實(shí)現(xiàn)了信息平臺(tái)數(shù)據(jù)和采集數(shù)據(jù)的融合。
【關(guān)鍵詞】:信息服務(wù)平臺(tái) 網(wǎng)絡(luò)爬蟲(chóng) 數(shù)據(jù)源
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP311.52;TP393.09
【目錄】:
- 摘要5-6
- Abstract6-11
- 第一章 緒論11-16
- 1.1 課題研究的背景及意義11-12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-14
- 1.2.1 國(guó)內(nèi)外專(zhuān)業(yè)鎮(zhèn)信息化研究現(xiàn)狀12-13
- 1.2.2 國(guó)內(nèi)外網(wǎng)絡(luò)爬蟲(chóng)研究現(xiàn)狀13-14
- 1.3 論文的研究?jī)?nèi)容及論文結(jié)構(gòu)14-16
- 第二章 相關(guān)技術(shù)介紹16-24
- 2.1 爬蟲(chóng)技術(shù)的簡(jiǎn)介16-17
- 2.2 基于Scrapy的網(wǎng)頁(yè)抓取技術(shù)17-18
- 2.2.1 python爬蟲(chóng)框架Scrapy17-18
- 2.2.2 Xpath介紹18
- 2.3 基于BeautifulSoup的網(wǎng)頁(yè)解析技術(shù)18-19
- 2.3.1 Urllib庫(kù)18
- 2.3.2 BeautifulSoup解析器18-19
- 2.4 專(zhuān)業(yè)鎮(zhèn)信息服務(wù)平臺(tái)的開(kāi)發(fā)技術(shù)19-23
- 2.4.1 J2EE概念和結(jié)構(gòu)19-20
- 2.4.2 J2EE主要技術(shù)20-21
- 2.4.3 Web應(yīng)用框架21
- 2.4.4 Web Services21-22
- 2.4.5 企業(yè)內(nèi)容管理系統(tǒng)22-23
- 2.5 本章小結(jié)23-24
- 第三章 平臺(tái)的總體設(shè)計(jì)24-31
- 3.1 系統(tǒng)的需求分析24-26
- 3.1.1 前端系統(tǒng)功能性需求25
- 3.1.2 后臺(tái)系統(tǒng)的功能性需求25
- 3.1.3 平臺(tái)系統(tǒng)的用例25-26
- 3.2 系統(tǒng)的流程處理26-28
- 3.3 系統(tǒng)的軟件結(jié)構(gòu)28-30
- 3.4 系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)30
- 3.5 本章小結(jié)30-31
- 第四章 爬取子系統(tǒng)的設(shè)計(jì)31-47
- 4.1 子系統(tǒng)的爬取目標(biāo)31-32
- 4.2 子系統(tǒng)的功能結(jié)構(gòu)32-33
- 4.3 子系統(tǒng)的軟件結(jié)構(gòu)33-37
- 4.4 子系統(tǒng)的流程處理37-38
- 4.5 子系統(tǒng)的抓取策略38-40
- 4.5.1 深度優(yōu)先遍歷策略38-39
- 4.5.2 網(wǎng)頁(yè)內(nèi)容主題相關(guān)策略39-40
- 4.6 子系統(tǒng)的接口設(shè)計(jì)40-42
- 4.7 數(shù)據(jù)庫(kù)的設(shè)計(jì)42-46
- 4.7.1 創(chuàng)新資源庫(kù)42-44
- 4.7.2 市場(chǎng)信息庫(kù)44-46
- 4.7.3 企業(yè)技術(shù)需求庫(kù)46
- 4.8 本章小結(jié)46-47
- 第五章 子系統(tǒng)的詳細(xì)設(shè)計(jì)及關(guān)鍵技術(shù)的應(yīng)用47-64
- 5.1 抓取信息模塊的設(shè)計(jì)47-48
- 5.2 信息存儲(chǔ)模塊的設(shè)計(jì)48-51
- 5.3 內(nèi)容處理模塊的設(shè)計(jì)51-53
- 5.4 Web信息抓取框架Scrapy的應(yīng)用53-60
- 5.4.1 Spider的具體應(yīng)用53-55
- 5.4.2 CSS選擇器和Xpath的具體應(yīng)用55-58
- 5.4.3 模擬登錄抓取網(wǎng)頁(yè)內(nèi)容58-60
- 5.5 HTML/XML解析器BeautifulSoup的應(yīng)用60-63
- 5.5.1 靜態(tài)網(wǎng)頁(yè)內(nèi)容提取60-62
- 5.5.2 抓取動(dòng)態(tài)網(wǎng)頁(yè)62-63
- 5.6 本章小結(jié)63-64
- 第六章 系統(tǒng)測(cè)試64-72
- 6.1 系統(tǒng)測(cè)試概述64-65
- 6.2 網(wǎng)絡(luò)爬蟲(chóng)子系統(tǒng)的功能測(cè)試65-70
- 6.3 網(wǎng)絡(luò)爬蟲(chóng)子系統(tǒng)的性能測(cè)試70
- 6.4 本章小結(jié)70-72
- 總結(jié)與展望72-73
- 參考文獻(xiàn)73-75
- 攻讀碩士學(xué)位期間取得的研究成果75-76
- 致謝76-77
- 附件77
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 楊勇;;廣東省專(zhuān)業(yè)鎮(zhèn)公共創(chuàng)新服務(wù)平臺(tái)建設(shè)研究[J];廣東科技;2011年16期
2 曾亮;齊歡;王小平;陳迎春;;基于J2EE核心模式的組合Web框架研究[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年06期
3 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲(chóng):研究綜述[J];計(jì)算機(jī)科學(xué);2009年08期
4 范玉順,吳澄;工作流管理技術(shù)研究與產(chǎn)品現(xiàn)狀及發(fā)展趨勢(shì)[J];計(jì)算機(jī)集成制造系統(tǒng)-CIMS;2000年01期
5 于滿(mǎn)泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁(yè)信息解析器的研究與設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2005年04期
6 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲(chóng)研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期
7 歐陽(yáng)俊;張?jiān)篮?;廣東專(zhuān)業(yè)鎮(zhèn)發(fā)展的現(xiàn)狀及與國(guó)內(nèi)外比較研究[J];科技管理研究;2009年08期
8 古秉權(quán);;數(shù)據(jù)庫(kù)系統(tǒng)分析與設(shè)計(jì)[J];南方金屬;2009年01期
9 胡敏;;基于Freemarker的企業(yè)網(wǎng)站內(nèi)容管理平臺(tái)研究[J];信息通信;2011年02期
10 王法能;周曉娟;;數(shù)據(jù)庫(kù)安全的實(shí)現(xiàn)技術(shù)[J];計(jì)算機(jī)與信息技術(shù);2005年08期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前6條
1 周星海;基于SOAP的Web服務(wù)訪(fǎng)問(wèn)控制技術(shù)的研究[D];大連海事大學(xué);2006年
2 劉潔清;網(wǎng)站聚焦爬蟲(chóng)研究[D];江西財(cái)經(jīng)大學(xué);2006年
3 蔣科;基于領(lǐng)域概念定制的主題爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2007年
4 何庭宏;廣東專(zhuān)業(yè)鎮(zhèn)發(fā)展現(xiàn)狀分析與升級(jí)對(duì)策[D];北京交通大學(xué);2008年
5 郭智杰;中國(guó)高科技產(chǎn)業(yè)集群?jiǎn)栴}研究[D];遼寧大學(xué);2012年
6 劉惠;基于MVC的體育舞蹈視頻教學(xué)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2014年
本文關(guān)鍵詞:專(zhuān)業(yè)鎮(zhèn)信息爬取子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號(hào):384069
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/384069.html