天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

網(wǎng)站文本數(shù)據(jù)采集系統(tǒng)的設(shè)計與實(shí)現(xiàn)

發(fā)布時間:2017-10-07 03:09

  本文關(guān)鍵詞:網(wǎng)站文本數(shù)據(jù)采集系統(tǒng)的設(shè)計與實(shí)現(xiàn)


  更多相關(guān)文章: 輿情監(jiān)測 爬蟲 JavaEE


【摘要】:互聯(lián)網(wǎng)輿情監(jiān)測系統(tǒng)實(shí)時監(jiān)測網(wǎng)絡(luò)信息傳播,是新媒介發(fā)展的產(chǎn)物。輿情監(jiān)測讓用戶第一時間發(fā)現(xiàn)輿情,追蹤輿情,了解輿情發(fā)展,使預(yù)防違法犯罪成為可能。互聯(lián)網(wǎng)爬蟲作為輿情監(jiān)測的一部分,很大程度上決定了輿情監(jiān)測的實(shí)時性。本文設(shè)計并實(shí)現(xiàn)了網(wǎng)站文本數(shù)據(jù)采集系統(tǒng),通過用戶配置網(wǎng)站模板等相關(guān)信息,定制抓取目標(biāo)網(wǎng)站內(nèi)容,為輿情系統(tǒng)提供實(shí)時數(shù)據(jù)源。 本文設(shè)計的網(wǎng)站文本數(shù)據(jù)采集系統(tǒng)主要通過爬蟲資源配置與監(jiān)控平臺和爬蟲抓取信息平臺兩個子系統(tǒng)來實(shí)現(xiàn)對定制網(wǎng)站內(nèi)容的抓取。爬蟲資源配置與監(jiān)控平臺采用Struts2和Spring等JavaEE開源開發(fā)框架,利用系統(tǒng)分層結(jié)構(gòu)和模塊化設(shè)計,提高了系統(tǒng)開發(fā)效率與可擴(kuò)展性。爬蟲抓取信息平臺參考SourceForge開源網(wǎng)絡(luò)爬蟲Heritrix項(xiàng)目架構(gòu),進(jìn)行了重新設(shè)計開發(fā),以適應(yīng)自身產(chǎn)品需要。爬蟲資源配置與監(jiān)控平臺主要負(fù)責(zé)對待抓取的網(wǎng)站信息進(jìn)行配置,包括:站點(diǎn)、頻道、種子、模板等配置信息。另外平臺實(shí)現(xiàn)了對配置模板的測試功能,驗(yàn)證模板配置的準(zhǔn)確性。同時平臺提供了爬蟲抓取歷史動態(tài)展示圖,方便用戶監(jiān)測后臺爬蟲抓取數(shù)量。還可以導(dǎo)出模板錯誤記錄,進(jìn)行錯誤模板的修改。爬蟲抓取信息平臺主要負(fù)責(zé)對配置網(wǎng)站信息的抓取,通過種子加載、網(wǎng)頁下載、網(wǎng)頁解析、存儲四步,實(shí)現(xiàn)對網(wǎng)頁內(nèi)容的采集。在系統(tǒng)設(shè)計和開發(fā)過程中,作者參與并完成了以下五個方面的工作: (1)搜集客戶需求,調(diào)查爬蟲產(chǎn)品現(xiàn)狀,整理出本系統(tǒng)的整體需求與各模塊的功能需求。 (2)完成了系統(tǒng)總體架構(gòu)設(shè)計與功能模塊劃分。 (3)根據(jù)各功能模塊劃分,進(jìn)行了各模塊功能解決方案的制定,根據(jù)方案,作者完成了網(wǎng)站信息配置管理、模板測試、抓取記錄狀態(tài)展示、爬蟲種子獲取、HTML下載、模板解析、存儲等模塊的設(shè)計。 (4)作者根據(jù)具體設(shè)計,對各功能模塊進(jìn)行了編程實(shí)現(xiàn)。 (5)作者對重點(diǎn)開發(fā)模塊進(jìn)行了功能測試,并對采集準(zhǔn)確度進(jìn)行了驗(yàn)證。 本系統(tǒng)作為內(nèi)部測試版本,可以滿足客戶基本需要,但仍舊未成為部門有競爭力的產(chǎn)品。未來,需要在模板自動化配置與爬蟲采集效率方面進(jìn)行改進(jìn),使其成為部門有競爭力的產(chǎn)品,為公司帶來可觀利潤。
【關(guān)鍵詞】:輿情監(jiān)測 爬蟲 JavaEE
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092;TP274.2
【目錄】:
  • 致謝5-6
  • 摘要6-7
  • ABSTRACT7-11
  • 1 引言11-15
  • 1.1 項(xiàng)目研究意義11-12
  • 1.2 國內(nèi)外發(fā)展現(xiàn)狀12-13
  • 1.3 個人工作內(nèi)容13
  • 1.4 論文的組織結(jié)構(gòu)13-15
  • 2 相關(guān)技術(shù)綜述15-21
  • 2.1 QUI前端展示框架15
  • 2.2 Struts2框架15-16
  • 2.3 Spring框架16-17
  • 2.4 正則表達(dá)式17
  • 2.5 HttpClient17-18
  • 2.6 PhantomJS18
  • 2.7 Redis18-19
  • 2.8 本章小結(jié)19-21
  • 3 網(wǎng)站文本數(shù)據(jù)采集系統(tǒng)需求分析21-27
  • 3.1 系統(tǒng)建設(shè)目標(biāo)21-22
  • 3.2 功能性需求分析22-24
  • 3.2.1 爬蟲資源配置與監(jiān)控平臺的需求分析22-23
  • 3.2.2 爬蟲抓取信息平臺的需求分析23-24
  • 3.3 非功能性需求分析24-25
  • 3.4 其它需求說明25
  • 3.5 本章小結(jié)25-27
  • 4 網(wǎng)站文本數(shù)據(jù)采集系統(tǒng)的概要設(shè)計27-47
  • 4.1 系統(tǒng)架構(gòu)設(shè)計27-34
  • 4.1.1 架構(gòu)整體設(shè)計27-29
  • 4.1.2 爬蟲資源配置與監(jiān)控平臺29-31
  • 4.1.3 爬蟲抓取信息平臺31-34
  • 4.2 系統(tǒng)功能設(shè)計34-38
  • 4.2.1 爬蟲資源配置與監(jiān)控平臺34-37
  • 4.2.2 爬蟲抓取信息平臺37-38
  • 4.3 系統(tǒng)數(shù)據(jù)庫設(shè)計38-46
  • 4.3.1 數(shù)據(jù)庫概念結(jié)構(gòu)設(shè)計38-39
  • 4.3.2 數(shù)據(jù)庫物理結(jié)構(gòu)設(shè)計39-46
  • 4.4 本章小結(jié)46-47
  • 5 網(wǎng)站文本數(shù)據(jù)采集系統(tǒng)的詳細(xì)設(shè)計與實(shí)現(xiàn)47-73
  • 5.1 爬蟲資源配置與監(jiān)控平臺47-62
  • 5.1.1 主要界面設(shè)計47-50
  • 5.1.2 網(wǎng)站完整信息配置50-51
  • 5.1.3 頻道添加51-54
  • 5.1.4 模板添加與測試54-56
  • 5.1.5 種子自動添加56-58
  • 5.1.6 導(dǎo)出腳本58-62
  • 5.2 爬蟲抓取信息平臺62-71
  • 5.2.1 環(huán)形隊(duì)列62-63
  • 5.2.2 種子加載63-65
  • 5.2.3 網(wǎng)頁下載65-67
  • 5.2.4 網(wǎng)頁解析67-69
  • 5.2.5 存儲69-71
  • 5.3 本章小結(jié)71-73
  • 6 系統(tǒng)驗(yàn)證73-81
  • 6.1 系統(tǒng)業(yè)務(wù)功能驗(yàn)證73-79
  • 6.2 系統(tǒng)性能驗(yàn)證79-80
  • 6.3 本章小結(jié)80-81
  • 7 結(jié)論81-83
  • 7.1 全文總結(jié)81
  • 7.2 不足與展望81-83
  • 參考文獻(xiàn)83-85
  • 作者簡歷及攻讀碩士專業(yè)學(xué)位期間取得的研究成果85-87
  • 學(xué)位論文數(shù)據(jù)集87

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前9條

1 何濤;謝為;;網(wǎng)絡(luò)新媒體輿情監(jiān)控與引導(dǎo)路徑[J];西部廣播電視;2014年23期

2 劉高軍;王帝澳;;基于Redis的海量小文件分布式存儲方法研究[J];計算機(jī)工程與科學(xué);2013年10期

3 朱敏;羅省賢;;基于Heritrix的面向特定主題的聚焦爬蟲研究[J];計算機(jī)技術(shù)與發(fā)展;2012年02期

4 閆俊伢;安俊秀;;J2EE技術(shù)體系的探討與研究[J];實(shí)驗(yàn)室研究與探索;2010年07期

5 趙洋;張麗;王恩東;張素寧;;基于Struts,Hibernate和Spring的J2EE架構(gòu)研究[J];現(xiàn)代電子技術(shù);2009年02期

6 曾偉輝;李淼;曾偉輝;;深層網(wǎng)絡(luò)爬蟲研究綜述[J];計算機(jī)系統(tǒng)應(yīng)用;2008年05期

7 胡啟敏;薛錦云;鐘林輝;;基于Spring框架的輕量級J2EE架構(gòu)與應(yīng)用[J];計算機(jī)工程與應(yīng)用;2008年05期

8 林泊;周明輝;劉天成;黃罡;梅宏;;一個J2EE應(yīng)用服務(wù)器的Web容器集成框架[J];軟件學(xué)報;2006年05期

9 吳平博,陳群秀,馬亮;基于特征串的大規(guī)模中文網(wǎng)頁快速去重算法研究[J];中文信息學(xué)報;2003年02期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 項(xiàng)斌;網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)設(shè)計與實(shí)現(xiàn)[D];電子科技大學(xué);2010年



本文編號:986553

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/986553.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d14b1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com