天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

垂直搜索中一種高效穩(wěn)定的數(shù)據(jù)抓取方法的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-05-18 01:04

  本文關(guān)鍵詞:垂直搜索中一種高效穩(wěn)定的數(shù)據(jù)抓取方法的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:垂直搜索引擎的發(fā)展解決了互聯(lián)網(wǎng)用戶對(duì)大規(guī)模高時(shí)間敏感度數(shù)據(jù)的搜索需求,數(shù)據(jù)抓取的過程是其關(guān)鍵的組成部分。傳統(tǒng)數(shù)據(jù)抓取程序通常只關(guān)注于網(wǎng)頁鏈接的獲取,以及網(wǎng)頁或網(wǎng)頁塊的整體抓取,對(duì)網(wǎng)頁內(nèi)容基本不作分析與處理。但是,如果為垂直搜索提供數(shù)據(jù)源,則需要具備更高智能和性能的數(shù)據(jù)抓取系統(tǒng),它不僅能分析提取網(wǎng)頁鏈接,而且能分析網(wǎng)頁結(jié)構(gòu)及內(nèi)容,準(zhǔn)確提取結(jié)構(gòu)化信息[Chakrabartia et al.,1999],同時(shí)保證一定的覆蓋率和更新率。針對(duì)某一個(gè)垂直領(lǐng)域的數(shù)據(jù)抓取能夠更深層次地挖掘信息,但是也會(huì)遇到站點(diǎn)改版、流量分配、調(diào)度更新不及時(shí)、重復(fù)挖掘、時(shí)效性等困難[Ricardo et al.,2007]。根據(jù)具體業(yè)務(wù)需求,團(tuán)隊(duì)設(shè)計(jì)并開發(fā)了一個(gè)數(shù)據(jù)抓取系統(tǒng),用于擴(kuò)展完成不同業(yè)務(wù)部門對(duì)目標(biāo)網(wǎng)站的數(shù)據(jù)抓取任務(wù),實(shí)現(xiàn)對(duì)目標(biāo)網(wǎng)頁的分布式并行抓取和處理[Bing Zhou et al.,2010]。系統(tǒng)實(shí)現(xiàn)抓取的過程分為任務(wù)調(diào)度,任務(wù)分發(fā),數(shù)據(jù)抓取,結(jié)果存儲(chǔ)。數(shù)據(jù)抓取系統(tǒng)在實(shí)際應(yīng)用中被證實(shí)為高效,穩(wěn)定,可擴(kuò)展的。本文圍繞數(shù)據(jù)抓取系統(tǒng)的數(shù)據(jù)抓取和測(cè)試監(jiān)控,完成了下列主要研究及應(yīng)用工作:1.在數(shù)據(jù)抓取方面,實(shí)現(xiàn)了多線程提高處理效率,采用不同的抓取模式完成對(duì)網(wǎng)頁數(shù)據(jù)的解析和處理。同時(shí),支持客戶端的自動(dòng)升級(jí),保證頻繁的需求變更不會(huì)帶來巨大的工作量;2.對(duì)該數(shù)據(jù)抓取系統(tǒng)的功能和性能測(cè)試,在保證數(shù)據(jù)抓取的效率,正確性和穩(wěn)定性方面發(fā)揮了重要作用。主要包括性能參數(shù)采集,API測(cè)試,數(shù)據(jù)校驗(yàn)等;3.實(shí)現(xiàn)對(duì)系統(tǒng)的監(jiān)控管理,將抓取過程可視化,同時(shí)提供報(bào)警機(jī)制,幫助及時(shí)發(fā)現(xiàn)并解決問題,保證抓取系統(tǒng)的穩(wěn)定性。
【關(guān)鍵詞】:數(shù)據(jù)抓取 C/S 分布式 Redis 可視化
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【目錄】:
  • 摘要5-6
  • Abstract6-12
  • 第一章 引言12-16
  • 1.1 項(xiàng)目背景12-13
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀和進(jìn)展13-14
  • 1.3 本文主要研究的工作14-15
  • 1.4 本文的組織結(jié)構(gòu)15-16
  • 第二章 技術(shù)綜述16-22
  • 2.1 垂直搜索引擎技術(shù)16-17
  • 2.2 Redis17-18
  • 2.3 Selenium18-19
  • 2.4 TestNG19-20
  • 2.5 系統(tǒng)自動(dòng)化配置和管理20-21
  • 2.6 Web.py21
  • 2.7 本章小結(jié)21-22
  • 第三章 數(shù)據(jù)抓取系統(tǒng)的需求分析與總體設(shè)計(jì)22-29
  • 3.1 需求分析22-25
  • 3.1.1 功能需求22-24
  • 3.1.2 非功能需求24-25
  • 3.2 總體設(shè)計(jì)25-28
  • 3.2.1 項(xiàng)目約定25-26
  • 3.2.2 總體架構(gòu)26-27
  • 3.2.3 運(yùn)行流程27-28
  • 3.3 本章小結(jié)28-29
  • 第四章 數(shù)據(jù)抓取系統(tǒng)的詳細(xì)設(shè)計(jì)29-44
  • 4.1 數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)29-32
  • 4.2 接口設(shè)計(jì)32-35
  • 4.3 模塊設(shè)計(jì)35-43
  • 4.3.1 任務(wù)調(diào)度模塊36-37
  • 4.3.2 任務(wù)分發(fā)模塊37-38
  • 4.3.3 數(shù)據(jù)抓取模塊38-41
  • 4.3.4 數(shù)據(jù)存儲(chǔ)模塊41-43
  • 4.4 本章小結(jié)43-44
  • 第五章 數(shù)據(jù)抓取系統(tǒng)的抓取實(shí)現(xiàn)44-51
  • 5.1 抓取控制44-45
  • 5.2 抓取模式45-49
  • 5.2.1 Local抓取45-47
  • 5.2.2 Remote抓取47-49
  • 5.3 抓取升級(jí)49-50
  • 5.4 本章小結(jié)50-51
  • 第六章 數(shù)據(jù)抓取系統(tǒng)的測(cè)試與監(jiān)控51-63
  • 6.1 測(cè)試實(shí)現(xiàn)51-58
  • 6.1.1 API測(cè)試51-53
  • 6.1.2 Metrics采集53-55
  • 6.1.3 性能參數(shù)采集55
  • 6.1.4 截圖數(shù)據(jù)校驗(yàn)55-56
  • 6.1.5 ADSL重播測(cè)試56-57
  • 6.1.6 Client批量操作部署57-58
  • 6.2 監(jiān)控管理58-61
  • 6.2.1 任務(wù)調(diào)度59
  • 6.2.2 客戶端監(jiān)控59-60
  • 6.2.3 檢測(cè)報(bào)警60-61
  • 6.3 本章小結(jié)61-63
  • 第七章 總結(jié)與展望63-65
  • 7.1 總結(jié)63-64
  • 7.2 進(jìn)一步工作展望64-65
  • 參考文獻(xiàn)65-67
  • 致謝67-69

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫 前10條

1 宿建光;;指點(diǎn)通:移動(dòng)垂直搜索的創(chuàng)新者[J];通信世界;2007年03期

2 一林;;垂直搜索:前進(jìn)路上的喜與憂[J];互聯(lián)網(wǎng)天地;2010年02期

3 陳誠(chéng);;基于云計(jì)算的智慧城市垂直搜索技術(shù)研究[J];軟件產(chǎn)業(yè)與工程;2012年04期

4 白駿驕;;垂直搜索更貼近需求或引領(lǐng)搜索市場(chǎng)發(fā)展方向[J];世界電信;2013年05期

5 田野;垂直搜索火熱為哪般[J];中國(guó)計(jì)算機(jī)用戶;2005年37期

6 劉策;;垂直搜索——電子商務(wù)領(lǐng)域的新秀[J];軟件導(dǎo)刊;2006年11期

7 ;垂直搜索互聯(lián)網(wǎng)搜索業(yè)的新軍[J];數(shù)字通信世界;2006年12期

8 李震;;移動(dòng)垂直搜索:隨時(shí)得到有用信息[J];中國(guó)傳媒科技;2006年12期

9 吳偉忠;崔建英;;基于時(shí)效性的垂直搜索及其應(yīng)用[J];暨南大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年03期

10 莊芯;;風(fēng)投押寶垂直搜索 各方巨頭介入又添疑點(diǎn)[J];IT時(shí)代周刊;2008年01期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫 前2條

1 周明;劉曉華;蔣龍;Matt Scott;;利用網(wǎng)絡(luò)挖掘技術(shù)建立英語學(xué)習(xí)平臺(tái)[A];中國(guó)計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

2 劉源;詹舒波;;基于Solr的行業(yè)垂直搜索平臺(tái)的研究[A];2008通信理論與技術(shù)新進(jìn)展——第十三屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上)[C];2008年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫 前10條

1 高賽;垂直搜索是下一個(gè)“金礦”[N];光明日?qǐng)?bào);2008年

2 本報(bào)實(shí)習(xí)記者 張健;360聯(lián)合一淘上線購(gòu)物搜索垂直搜索或迎新機(jī)遇[N];通信信息報(bào);2013年

3 特約記者 曹晟源 本報(bào)記者 陳時(shí)俊;阿里、百度入口爭(zhēng)奪戰(zhàn):一淘殺入旅游垂直搜索[N];21世紀(jì)經(jīng)濟(jì)報(bào)道;2013年

4 劉筱攸;金融垂直搜索平臺(tái)面臨三大制約因素[N];證券時(shí)報(bào);2013年

5 姜蓉;垂直搜索是搜索市場(chǎng)的新“錢景”[N];中國(guó)經(jīng)營(yíng)報(bào);2005年

6 劉冰;垂直搜索越來越有魅力[N];經(jīng)濟(jì)參考報(bào);2007年

7 薛娟;垂直搜索盯緊風(fēng)投的口袋?[N];中國(guó)經(jīng)濟(jì)時(shí)報(bào);2006年

8 ;移動(dòng)垂直搜索開拓中國(guó)搜索新天地[N];人民郵電;2006年

9 沉風(fēng);垂直搜索:互聯(lián)網(wǎng)服務(wù)生活新方向[N];人民郵電;2007年

10 本報(bào)記者 廖慶升;垂直搜索贏利模式探討[N];通信信息報(bào);2007年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 管虎;普適環(huán)境下輕量級(jí)垂直搜索中數(shù)據(jù)挖掘理論研究[D];上海交通大學(xué);2013年

2 陳德品;基于遷移學(xué)習(xí)的跨領(lǐng)域排序?qū)W習(xí)算法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 梅良;基于特定領(lǐng)域?qū)ο蠹?jí)垂直搜索中的對(duì)象抽取問題的研究[D];電子科技大學(xué);2015年

2 肖劍;垂直搜索中一種高效穩(wěn)定的數(shù)據(jù)抓取方法的研究與實(shí)現(xiàn)[D];南京大學(xué);2014年

3 呂昊;面向垂直搜索的聚焦爬蟲研究及應(yīng)用[D];浙江大學(xué);2008年

4 易平;生活服務(wù)行業(yè)垂直搜索的設(shè)計(jì)與實(shí)現(xiàn)[D];暨南大學(xué);2010年

5 宋國(guó);面向分布式數(shù)據(jù)源的語義垂直搜索系統(tǒng)研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2013年

6 劉金亮;汽車行業(yè)垂直搜索系統(tǒng)原型的設(shè)計(jì)與關(guān)鍵模塊的實(shí)現(xiàn)[D];北京郵電大學(xué);2008年

7 史磊峰;移動(dòng)垂直搜索系統(tǒng)的研究[D];北京交通大學(xué);2010年

8 雷洪;一個(gè)垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];中山大學(xué);2012年

9 莊力;中醫(yī)臨床診療垂直搜索系統(tǒng)研究[D];北京交通大學(xué);2009年

10 吳昆;基于視覺特征的垂直搜索研究[D];華中科技大學(xué);2009年


  本文關(guān)鍵詞:垂直搜索中一種高效穩(wěn)定的數(shù)據(jù)抓取方法的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。

,

本文編號(hào):374818

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/374818.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶75143***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com