面向動態(tài)網(wǎng)頁的定向信息提取模型的設(shè)計與實現(xiàn)
本文關(guān)鍵詞:面向動態(tài)網(wǎng)頁的定向信息提取模型的設(shè)計與實現(xiàn)
更多相關(guān)文章: 定向信息提取模型 動態(tài)網(wǎng)頁 網(wǎng)絡(luò)爬蟲 動態(tài)腳本 信息提取
【摘要】:隨著Web2.0技術(shù)的出現(xiàn)以及快速發(fā)展,互聯(lián)網(wǎng)中出現(xiàn)了越來越多的動態(tài)網(wǎng)頁。Ajax技術(shù)實現(xiàn)了客戶端與服務(wù)器之間的異步數(shù)據(jù)傳輸操作,不僅提高了用戶的體驗度,而且促進了動態(tài)網(wǎng)頁的普及和互聯(lián)網(wǎng)的發(fā)展。但是,這也使得依據(jù)HTML源碼進行信息提取的傳統(tǒng)網(wǎng)絡(luò)爬蟲無法提取到動態(tài)網(wǎng)頁中的動態(tài)信息。因此,支持動態(tài)網(wǎng)頁的信息提取的研究具有一定的實踐意義。為此,本文提出了一種面向動態(tài)網(wǎng)頁的定向信息提取模型。首先,分析了與動態(tài)網(wǎng)頁定向信息提取相關(guān)的理論與技術(shù),同時將研究對象Web頁面分為靜態(tài)網(wǎng)頁和動態(tài)網(wǎng)頁兩類,并對其進行了詳細的對比分析。在此基礎(chǔ)上,分析了動態(tài)網(wǎng)頁廣泛采用的Ajax技術(shù)對信息提取帶來的挑戰(zhàn)。最后,對超文本標記語言、DOM模型和正則表達式在信息提取中的作用進行了詳細介紹。其次,分析了傳統(tǒng)網(wǎng)絡(luò)爬蟲爬取動態(tài)網(wǎng)頁的缺陷和不足,提出了一種面向動態(tài)網(wǎng)頁的定向信息提取模型。其工作流程為首先通過HTTP請求獲取網(wǎng)頁,然后采用HtmlUnit來解析與執(zhí)行動態(tài)腳本,并模擬提交頁面表單;最后,利用jsoup構(gòu)建DOM樹,從而提取頁面信息和URL,并存儲到數(shù)據(jù)庫中。再次,結(jié)合所提出的面向動態(tài)網(wǎng)頁的定向信息提取模型,給出了各個組成模塊的具體實現(xiàn)方法:采用廣度優(yōu)先搜索策略爬取網(wǎng)站中的網(wǎng)頁,使用布隆過濾器對URL鏈接進行去重處理,利用正則表達式和jsoup選擇器提取網(wǎng)頁信息和URL鏈接,并采用多線程爬蟲技術(shù)來提高該模型的性能。最后,基于所提出的面向動態(tài)網(wǎng)頁的信息提取模型,以燕山大學(xué)百度貼吧為爬取對象進行實驗,并從模型的效率和性能兩個方面進行實驗設(shè)計。通過對爬取結(jié)果進行分析可知,所提出的模型在準確率、召回率和F值等評價指標下均有較好的結(jié)果,驗證了所提模型的高效率和高性能。
【關(guān)鍵詞】:定向信息提取模型 動態(tài)網(wǎng)頁 網(wǎng)絡(luò)爬蟲 動態(tài)腳本 信息提取
【學(xué)位授予單位】:燕山大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092;TP391.1
【目錄】:
- 摘要5-6
- Abstract6-11
- 第1章 緒論11-16
- 1.1 研究背景與意義11-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-14
- 1.3 主要研究內(nèi)容14
- 1.4 要解決的關(guān)鍵技術(shù)問題14-15
- 1.5 論文的組織結(jié)構(gòu)15-16
- 第2章 理論與技術(shù)分析16-29
- 2.1 Web2.016-18
- 2.1.1 Web2.0 簡介16-17
- 2.1.2 Web2.0 的特點17-18
- 2.2 網(wǎng)頁頁面類型18-21
- 2.2.1 靜態(tài)網(wǎng)頁18-19
- 2.2.2 動態(tài)網(wǎng)頁19-21
- 2.3 Ajax技術(shù)21-26
- 2.3.1 Ajax簡介21-22
- 2.3.2 Ajax的工作原理22-24
- 2.3.3 Ajax在網(wǎng)頁開發(fā)中的應(yīng)用24-25
- 2.3.4 Ajax技術(shù)引發(fā)的問題25-26
- 2.4 網(wǎng)頁結(jié)構(gòu)分析技術(shù)26-28
- 2.4.1 文檔對象模型26-27
- 2.4.2 正則表達式27-28
- 2.5 本章小結(jié)28-29
- 第3章 面向動態(tài)網(wǎng)頁的定向信息提取模型的設(shè)計29-41
- 3.1 面向動態(tài)網(wǎng)頁的定向信息提取問題分析29-31
- 3.2 面向動態(tài)網(wǎng)頁的定向信息提取模型設(shè)計31-33
- 3.2.1 面向動態(tài)網(wǎng)頁的定向信息提取模型31-32
- 3.2.2 面向動態(tài)網(wǎng)頁的定向信息提取模型的工作流程32-33
- 3.3 頁面爬行策略與流程33-35
- 3.3.1 頁面爬行搜索策略33-34
- 3.3.2 頁面爬行流程34-35
- 3.4 頁面分析方法設(shè)計35-38
- 3.4.1 JavaScript腳本嵌入方式35-36
- 3.4.2 form表單的識別36-37
- 3.4.3 頁面分析流程37-38
- 3.5 頁面生成方法與流程38-40
- 3.6 本章小結(jié)40-41
- 第4章 面向動態(tài)網(wǎng)頁的定向信息提取系統(tǒng)的實現(xiàn)41-57
- 4.1 系統(tǒng)總體設(shè)計41-42
- 4.2 初始URL模塊42
- 4.3 頁面爬行模塊42-44
- 4.4 頁面分析模塊44-46
- 4.4.1 JavaScript腳本代碼的識別與篩選44-45
- 4.4.2 表單的識別與篩選45-46
- 4.5 頁面生成模塊46-48
- 4.5.1 JS解析模塊46-47
- 4.5.2 表單解析模塊47-48
- 4.6 信息提取模塊48-50
- 4.6.1 信息提取方法48-49
- 4.6.2 信息提取模型數(shù)據(jù)庫設(shè)計49-50
- 4.7 鏈接過濾模塊50-54
- 4.7.1 布隆過濾器50-52
- 4.7.2 基于布隆過濾器的鏈接過濾算法52-54
- 4.8 線程管理模塊54-55
- 4.9 系統(tǒng)接口設(shè)計55-56
- 4.10 本章小結(jié)56-57
- 第5章 實驗與結(jié)果分析57-65
- 5.1 實驗環(huán)境設(shè)置57
- 5.2 評價指標57-58
- 5.3 實驗結(jié)果及分析58-64
- 5.3.1 定向信息提取效率實驗61-63
- 5.3.2 定向信息提取性能實驗63-64
- 5.4 本章小結(jié)64-65
- 結(jié)論65-67
- 參考文獻67-70
- 攻讀碩士學(xué)位期間承擔的科研任務(wù)與主要成果70-71
- 致謝71
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張玉孔;;變量傳遞在ASP動態(tài)網(wǎng)頁中的應(yīng)用分析[J];計算機系統(tǒng)應(yīng)用;2007年08期
2 盧新建;;試談ASP動態(tài)網(wǎng)頁課程的教學(xué)探索[J];電腦編程技巧與維護;2010年24期
3 楊振宇;建立動態(tài)網(wǎng)頁──ASP應(yīng)用舉例[J];電腦技術(shù);1998年06期
4 李嘉;開發(fā)動態(tài)網(wǎng)頁的利器——ASP[J];計算機與通信;1998年Z1期
5 花飄飄;動態(tài)網(wǎng)頁之絕招大全[J];多媒體世界;1999年06期
6 趙小林,陳英,劉然;動態(tài)網(wǎng)頁規(guī)劃與實現(xiàn)機制[J];北京理工大學(xué)學(xué)報;2001年01期
7 丁振凡,鄒芝蘭;ASP動態(tài)網(wǎng)頁中基于日期的條件查詢設(shè)計技術(shù)[J];計算機時代;2001年03期
8 羅媛;利用HTML設(shè)計動態(tài)網(wǎng)頁[J];蕪湖職業(yè)技術(shù)學(xué)院學(xué)報;2001年03期
9 楊毅;淺談動態(tài)網(wǎng)頁[J];成都師專學(xué)報;2002年04期
10 祝小華,楊建剛;動態(tài)網(wǎng)頁加速技術(shù)[J];計算機應(yīng)用;2002年04期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 冉熙璐;段磊;呂廣奕;陳珂;李鐘麒;黃東蘭;唐常杰;;基于對比學(xué)習(xí)的動態(tài)網(wǎng)頁用戶評論獲取方法[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)(NDBC2012)[C];2012年
2 于平福;劉凱龍;;基于ASP的農(nóng)業(yè)網(wǎng)站動態(tài)網(wǎng)頁的設(shè)計研究[A];山西省科學(xué)技術(shù)情報學(xué)會學(xué)術(shù)年會論文集[C];2004年
3 邵輝;李芳;;基于樹模型算法的動態(tài)網(wǎng)頁信息抽取研究[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
4 牟琦;;創(chuàng)建電子商務(wù)平臺的技術(shù)解決方案[A];第十一屆全國煤礦自動化學(xué)術(shù)年會論文專輯[C];2001年
中國重要報紙全文數(shù)據(jù)庫 前5條
1 丁一;“活的老鼠”不好抓[N];計算機世界;2001年
2 北京 董智勇;動態(tài)網(wǎng)頁新技術(shù)[N];中國電腦教育報;2001年
3 鄒肇輝 何艷陽;動態(tài)網(wǎng)頁打造利器——JSP[N];電腦報;2005年
4 Besky;輕松打造動態(tài)網(wǎng)頁菜單[N];電腦報;2003年
5 慰鵬飛;走進編程之網(wǎng)絡(luò)篇(四)[N];江蘇經(jīng)濟報;2001年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前9條
1 楊柳;基于用戶界面狀態(tài)改變的Ajax動態(tài)網(wǎng)頁爬取算法研究[D];北京交通大學(xué);2016年
2 盛潔;面向動態(tài)網(wǎng)頁的定向信息提取模型的設(shè)計與實現(xiàn)[D];燕山大學(xué);2016年
3 王婷;面向授權(quán)管理的動態(tài)網(wǎng)頁資源描述與搜集技術(shù)研究[D];解放軍信息工程大學(xué);2007年
4 段國云;基于環(huán)結(jié)構(gòu)的動態(tài)網(wǎng)頁防篡改系統(tǒng)的設(shè)計與實現(xiàn)[D];湖南大學(xué);2012年
5 潘敏;動態(tài)網(wǎng)頁防篡改方法與技術(shù)研究[D];南昌航空大學(xué);2012年
6 郭常宏;借助動態(tài)網(wǎng)頁及局域網(wǎng)內(nèi)數(shù)據(jù)庫數(shù)據(jù)調(diào)用實現(xiàn)電視臺工作單管理及成本核算的開發(fā)調(diào)試和研究[D];山東大學(xué);2006年
7 童罕;面向LXR的動態(tài)網(wǎng)頁加速技術(shù)研究與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2008年
8 李魁;大規(guī)模Web論壇采集技術(shù)研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2006年
9 沈祥;基于FPGA的嵌入式動態(tài)網(wǎng)頁Java Web服務(wù)器的研究與實現(xiàn)[D];上海交通大學(xué);2011年
,本文編號:674409
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/674409.html