天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 移動網絡論文 >

支持動態(tài)頁面的快速URL提取方法研究

發(fā)布時間:2024-11-02 02:42
  Web2.0技術在互聯(lián)網上的出現(xiàn)以及社交平臺的興起,極大的促進了動態(tài)網頁的使用和普及。動態(tài)網頁中的Ajax技術,實現(xiàn)了客戶端和服務端之間數據的異步操作,不僅滿足了新時代的技術需要,同時也提高了用戶體驗,更是促進了互聯(lián)網的發(fā)展。但是,傳統(tǒng)網絡爬蟲并不能應對動態(tài)網頁帶來的新特征,所以支持動態(tài)頁面的網絡爬蟲的研究就具有了一定實踐意義。對于主題網絡爬蟲而言,噪聲鏈接不僅沒有價值,而且還會占用大量的資源,尤其是網絡爬蟲對噪聲鏈接對應網頁的采集和分析,極大地降低了網絡爬蟲爬取的效率。 針對上述問題,本文的主要研究內容如下: 首先,針對動態(tài)網頁中關鍵技術Ajax異步操作的原理,解決了如何令網絡爬蟲支持動態(tài)網頁爬取的問題。本文通過HTTP請求獲取到網頁,然后將網頁在本地進行DOM樹的構建,進行對腳本的解析和URL的提取,并通過對HtmlUnit的源碼修改來解析需要進行點擊觸發(fā)的腳本,從而解決傳統(tǒng)網絡爬蟲對動態(tài)網頁中動態(tài)生成的URL難以獲取的問題; 其次,由于噪聲鏈接極大地降低了網絡爬蟲的效率,所以本文對網頁噪聲的去除算法進行了研究。傳統(tǒng)的網頁去噪算法針對網頁整體結構進行處理,去噪效率低下。本...

【文章頁數】:62 頁

【學位級別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 課題研究的背景和意義
    1.2 國內外研究發(fā)展以及現(xiàn)狀
        1.2.1 動態(tài)頁面解析的研究現(xiàn)狀
        1.2.2 網頁去噪技術的研究現(xiàn)狀
    1.3 本文研究的主要內容
    1.4 論文結構安排
第2章 相關概念介紹
    2.1 Web2.0 技術簡介
    2.2 網頁頁面相關概念
        2.2.1 靜態(tài)頁面簡介
        2.2.2 動態(tài)頁面簡介
    2.3 動態(tài)網頁頁面涉及的關鍵技術介紹
        2.3.1 Ajax 技術基本原理
        2.3.2 Ajax 技術引發(fā)的問題
    2.4 性能評價指標
    2.5 本章小結
第3章 支持動態(tài)頁面的網絡爬蟲系統(tǒng)設計
    3.1 網絡爬蟲簡介
        3.1.1 網絡爬蟲體系結構
        3.1.2 網絡爬蟲工作原理
        3.1.3 網絡爬蟲搜索策略
    3.2 支持動態(tài)頁面網絡爬蟲系統(tǒng)設計
        3.2.1 系統(tǒng)架構設計
        3.2.2 系統(tǒng)技術難點
    3.3 支持動態(tài)頁面涉及的關鍵技術
        3.3.1 腳本的解析
        3.3.2 瀏覽器對象
    3.4 本章小結
第4章 頁面超鏈接快速提取算法
    4.1 噪聲鏈接分析
        4.1.1 噪聲鏈接簡介
        4.1.2 URL 提取效率分析
    4.2 直接去噪聲鏈接算法
        4.2.1 頁面 DOM 樹結構特征
        4.2.2 基于 DOM 樹的方法
    4.3 基于聚類的噪聲鏈接去除方法
        4.3.1 噪聲鏈接簇的識別
        4.3.2 K-means 聚類算法
        4.3.3 Single-Pass 算法
        4.3.4 基于改進 Single-Pass 算法的噪聲鏈接去除算法
    4.4 實驗結果與分析
    4.5 本章小結
第5章 支持動態(tài)頁面快速 URL 提取系統(tǒng)的實現(xiàn)
    5.1 頁面采集模塊
        5.1.1 HTTP 協(xié)議簡介
        5.1.2 頁面的采集
    5.2 頁面解析模塊
        5.2.1 腳本嵌入的方式
        5.2.2 URL 的提取
    5.3 頁面 DOM 支持模塊
        5.3.1 Jsoup 簡介
        5.3.2 DOM 樹構建與操作
    5.4 事件觸發(fā)模擬模塊
        5.4.1 HtmlUnit 簡介
        5.4.2 腳本事件觸發(fā)的處理
    5.5 頁面生成模塊
    5.6 實驗結果分析
    5.7 本章小結
結論
參考文獻
致謝



本文編號:4008895

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/4008895.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶c2241***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com