天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于狀態(tài)轉(zhuǎn)換的動態(tài)爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-06-06 14:08

  本文關(guān)鍵詞:基于狀態(tài)轉(zhuǎn)換的動態(tài)爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:網(wǎng)絡(luò)爬蟲按照一定規(guī)則抓取Web信息,是搜索引擎技術(shù)的重要組成部分。隨著Web2.0的興起,在網(wǎng)頁開發(fā)中大量的運(yùn)用Ajax技術(shù)。區(qū)別于傳統(tǒng)網(wǎng)頁,Ajax技術(shù)使用異步的方式向服務(wù)器發(fā)送請求,并根據(jù)響應(yīng)更新頁面。Ajax極大地降低了服務(wù)器的負(fù)載,同時(shí)也提高了用戶體驗(yàn)。與此同時(shí),Ajax技術(shù)部分更新HTML頁面的方式也對傳統(tǒng)爬蟲技術(shù)提出了嚴(yán)峻挑戰(zhàn)。 本文在介紹分析傳統(tǒng)爬蟲爬行原理與結(jié)構(gòu)的基礎(chǔ)上,結(jié)合動態(tài)網(wǎng)絡(luò)爬蟲需要解決的問題,設(shè)計(jì)并實(shí)現(xiàn)了一種可以抓取動態(tài)網(wǎng)頁數(shù)據(jù)的網(wǎng)絡(luò)爬蟲系統(tǒng)。本文完成的主要工作如下。 首先,在前人關(guān)于動態(tài)網(wǎng)絡(luò)爬蟲模型的研究基礎(chǔ)上,基于圖結(jié)構(gòu)的思想,經(jīng)過改進(jìn),提出了基于狀態(tài)轉(zhuǎn)移的動態(tài)網(wǎng)絡(luò)爬蟲模型,從而使用狀態(tài)的轉(zhuǎn)移過程模擬動態(tài)事件觸發(fā)對網(wǎng)頁結(jié)構(gòu)的改變。并結(jié)合動態(tài)爬蟲的需求和真實(shí)的網(wǎng)絡(luò)環(huán)境,在網(wǎng)頁去噪、新狀態(tài)去重、新狀態(tài)抓取等方面對算法模型進(jìn)行了細(xì)化改進(jìn)。 其次,本文根據(jù)該模型,使用調(diào)用瀏覽器內(nèi)核以及本地構(gòu)建JavaScript解析環(huán)境兩種方法,設(shè)計(jì)實(shí)現(xiàn)了針對動態(tài)網(wǎng)頁數(shù)據(jù)的爬蟲系統(tǒng)。在保持傳統(tǒng)爬蟲功能的基礎(chǔ)上,,添加了對動態(tài)數(shù)據(jù)抓取的支持。 最后,本文通過對真實(shí)網(wǎng)頁的抓取實(shí)驗(yàn),比較了兩種方法與傳統(tǒng)爬蟲的優(yōu)勢和不足。驗(yàn)證了該系統(tǒng)的可行性和有效性。
【關(guān)鍵詞】:動態(tài)網(wǎng)頁 網(wǎng)絡(luò)爬蟲 狀態(tài)轉(zhuǎn)換 Ajax
【學(xué)位授予單位】:中山大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092
【目錄】:
  • 摘要3-4
  • ABSTRACT4-8
  • 第1章 綜述8-12
  • 1.1 應(yīng)用背景8
  • 1.2 國內(nèi)外研究現(xiàn)狀8-9
  • 1.3 本論文的研究內(nèi)容和主要工作9-10
  • 1.4 論文結(jié)構(gòu)安排10-12
  • 第2章 技術(shù)背景介紹12-28
  • 2.1 動態(tài)網(wǎng)頁中的 JAVASCRIPT12-14
  • 2.2 AJAX 技術(shù)14-17
  • 2.3 HTML DOM 模型和 BOM 模型17-22
  • 2.4 傳統(tǒng)網(wǎng)絡(luò)爬蟲架構(gòu)簡介22-23
  • 2.5 爬蟲系統(tǒng)相關(guān)引擎工具介紹23-27
  • 2.6 本章小結(jié)27-28
  • 第3章 基于狀態(tài)轉(zhuǎn)換的動態(tài)網(wǎng)頁爬行算法28-40
  • 3.1 傳統(tǒng)爬蟲爬行算法簡述28-29
  • 3.2 傳統(tǒng)爬行算法的現(xiàn)實(shí)問題29-30
  • 3.3 系統(tǒng)需求分析30
  • 3.4 基于狀態(tài)轉(zhuǎn)換的動態(tài)網(wǎng)頁爬行算法30-33
  • 3.5 算法改進(jìn)33-39
  • 3.6 本章小結(jié)39-40
  • 第4章 網(wǎng)絡(luò)爬蟲系統(tǒng)結(jié)構(gòu)設(shè)計(jì)與實(shí)現(xiàn)40-70
  • 4.1 基于狀態(tài)轉(zhuǎn)換的動態(tài)爬蟲系統(tǒng)設(shè)計(jì)40-52
  • 4.2 系統(tǒng)部分功能設(shè)計(jì)52-54
  • 4.3 爬蟲系統(tǒng)具體實(shí)現(xiàn)54-62
  • 4.4 系統(tǒng)測試與結(jié)果分析62-69
  • 4.5 本章小結(jié)69-70
  • 第5章 總結(jié)和展望70-72
  • 5.1 論文總結(jié)70-71
  • 5.2 研究展望71-72
  • 參考文獻(xiàn)72-76
  • 致謝76

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 宋鰲;支t$;周軍;羅傳飛;安然;;基于LCS的特征樹最大相似性匹配網(wǎng)頁去噪算法[J];電視技術(shù);2011年13期

2 董斌;;靜態(tài)頁面生成的網(wǎng)站系統(tǒng)研究[J];福建電腦;2009年08期

3 劉晨曦;吳揚(yáng)揚(yáng);;一種基于塊分析的網(wǎng)頁去噪音方法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期

4 段青玲;楊仁剛;朱楊;;一種表單Ajax信息項(xiàng)提取方法[J];計(jì)算機(jī)工程;2011年03期

5 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用;2005年09期

6 呂林濤;萬經(jīng)華;周紅芳;;基于AJAX的Web無刷新頁面快速更新數(shù)據(jù)方法[J];計(jì)算機(jī)應(yīng)用研究;2006年11期

7 郭浩;陸余良;劉金紅;;一種基于狀態(tài)轉(zhuǎn)換圖的Ajax爬行算法[J];計(jì)算機(jī)應(yīng)用研究;2009年11期

8 范軒苗;鄭寧;范淵;;一種基于Ajax的爬蟲模型的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2010年01期

9 陳雪;徐慧;沈家峻;;基于網(wǎng)頁結(jié)構(gòu)的網(wǎng)頁去噪算法設(shè)計(jì)[J];軟件;2013年08期

10 金曉鷗;鐘寶燕;李翔;;基于Rhino的JavaScript動態(tài)頁面解析研究與實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2008年02期


  本文關(guān)鍵詞:基于狀態(tài)轉(zhuǎn)換的動態(tài)爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號:426578

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/426578.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2f4e0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com