面向動(dòng)態(tài)Web應(yīng)用的數(shù)據(jù)采集與抽取技術(shù)研究與實(shí)現(xiàn)
【文章頁(yè)數(shù)】:77 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1MVC應(yīng)用構(gòu)件模型及運(yùn)行框架[12]??
?北京郵電大學(xué)工學(xué)碩士學(xué)位論文???(2)視圖(View)定義用戶界面中數(shù)據(jù)展示及布局信息,并且實(shí)現(xiàn)了將界??面上的用戶操作轉(zhuǎn)化為構(gòu)件控制器中功能。??(3)控制器(Controller)實(shí)現(xiàn)構(gòu)件的主體業(yè)務(wù)邏輯,并對(duì)應(yīng)用如何控制模??型和視圖元素進(jìn)行定義,在此基礎(chǔ)之上,開發(fā)人員可....
圖2-4CSS文件中偽類的應(yīng)用
圖2-6頁(yè)面彈窗問(wèn)題展示??從以上幾個(gè)方面可以看出目前動(dòng)態(tài)爬蟲的研宄工作中仍然存在諸多困難與??挑戰(zhàn),本文的Web數(shù)據(jù)采集研究將針對(duì)爬取動(dòng)態(tài)網(wǎng)站提出一種新的方法,并對(duì)己??有的工作和存在的問(wèn)題進(jìn)行改良和優(yōu)化,實(shí)現(xiàn)基于事件模擬的Web頁(yè)面采集框架,??幫助使用者更加高效和穩(wěn)定地完成....
圖2一SJavasctipt中對(duì)CSS偽類的引用
圖2-6頁(yè)面彈窗問(wèn)題展示??從以上幾個(gè)方面可以看出目前動(dòng)態(tài)爬蟲的研宄工作中仍然存在諸多困難與??挑戰(zhàn),本文的Web數(shù)據(jù)采集研究將針對(duì)爬取動(dòng)態(tài)網(wǎng)站提出一種新的方法,并對(duì)己??有的工作和存在的問(wèn)題進(jìn)行改良和優(yōu)化,實(shí)現(xiàn)基于事件模擬的Web頁(yè)面采集框架,??幫助使用者更加高效和穩(wěn)定地完成....
圖2-7抽取規(guī)則生成流程圖[31】??該算法在構(gòu)建PAT樹前需要對(duì)網(wǎng)頁(yè)中所有標(biāo)簽和文本進(jìn)行前綴編碼,由于網(wǎng)??
(2)?IEPAD[31]基于模式發(fā)現(xiàn)的方法從半結(jié)構(gòu)化文檔中抽取結(jié)構(gòu)化數(shù)據(jù)。算??法利用類似后綴樹的數(shù)據(jù)結(jié)構(gòu)PAT?(Practical?Algorithm?for?Retrieve?Information??Coded?in?Alphanumeric?Tree)來(lái)發(fā)現(xiàn)同構(gòu)的數(shù)據(jù)....
本文編號(hào):3944506
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3944506.html