天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向動(dòng)態(tài)Web應(yīng)用的數(shù)據(jù)采集與抽取技術(shù)研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2024-03-31 21:17
  隨著信息技術(shù)的發(fā)展,人類進(jìn)入大數(shù)據(jù)時(shí)代,大數(shù)據(jù)分析不僅在商業(yè)競(jìng)爭(zhēng)中至關(guān)重要,在公共事業(yè)領(lǐng)域,大數(shù)據(jù)在促進(jìn)經(jīng)濟(jì)發(fā)展、維護(hù)社會(huì)穩(wěn)定等方面也發(fā)揮著重要作用,政府部門加快大數(shù)據(jù)開發(fā)開放已經(jīng)成為必然選擇。但此前政務(wù)數(shù)據(jù)缺乏科學(xué)的管理和系統(tǒng)的規(guī)劃,導(dǎo)致了政務(wù)數(shù)據(jù)源分散、數(shù)據(jù)相對(duì)割裂、應(yīng)用和服務(wù)碎片化的情況,造成政務(wù)數(shù)據(jù)開放工作中高質(zhì)量的數(shù)據(jù)源獲取困難的問(wèn)題,如何自動(dòng)、高效地獲取政務(wù)系統(tǒng)數(shù)據(jù)源成為近年研究熱點(diǎn)。本文研究如何自動(dòng)獲取異構(gòu)、獨(dú)立的政務(wù)系統(tǒng)網(wǎng)站頁(yè)面,在對(duì)政務(wù)系統(tǒng)網(wǎng)站進(jìn)行協(xié)議和結(jié)構(gòu)分析的基礎(chǔ)上,提出一種基于事件模擬的動(dòng)態(tài)Web頁(yè)面采集框架,框架創(chuàng)新性地引入代理網(wǎng)關(guān)實(shí)現(xiàn)向目標(biāo)網(wǎng)站中注入JavaScript代碼,并采用內(nèi)置原生瀏覽器的方式實(shí)現(xiàn)網(wǎng)頁(yè)中JavaScript腳本解析和頁(yè)面渲染。在采集策略方面,框架對(duì)已有研究中狀態(tài)轉(zhuǎn)換方法進(jìn)行改進(jìn),最終實(shí)現(xiàn)對(duì)動(dòng)、靜態(tài)兩種網(wǎng)站兼容的自動(dòng)化頁(yè)面采集方案。在此基礎(chǔ)上,對(duì)政務(wù)系統(tǒng)中兩種典型的半結(jié)構(gòu)化信息:列表類信息和主題類信息的抽取,分別提出樹對(duì)齊算法和文本密度算法。樹對(duì)齊算法提出利用網(wǎng)頁(yè)DOM樹特性識(shí)別并分割數(shù)據(jù)記錄,在將數(shù)據(jù)記錄進(jìn)行對(duì)齊時(shí)采用部分對(duì)齊的方式,...

【文章頁(yè)數(shù)】:77 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖1-1MVC應(yīng)用構(gòu)件模型及運(yùn)行框架[12]??

圖1-1MVC應(yīng)用構(gòu)件模型及運(yùn)行框架[12]??

?北京郵電大學(xué)工學(xué)碩士學(xué)位論文???(2)視圖(View)定義用戶界面中數(shù)據(jù)展示及布局信息,并且實(shí)現(xiàn)了將界??面上的用戶操作轉(zhuǎn)化為構(gòu)件控制器中功能。??(3)控制器(Controller)實(shí)現(xiàn)構(gòu)件的主體業(yè)務(wù)邏輯,并對(duì)應(yīng)用如何控制模??型和視圖元素進(jìn)行定義,在此基礎(chǔ)之上,開發(fā)人員可....


圖2-4CSS文件中偽類的應(yīng)用

圖2-4CSS文件中偽類的應(yīng)用

圖2-6頁(yè)面彈窗問(wèn)題展示??從以上幾個(gè)方面可以看出目前動(dòng)態(tài)爬蟲的研宄工作中仍然存在諸多困難與??挑戰(zhàn),本文的Web數(shù)據(jù)采集研究將針對(duì)爬取動(dòng)態(tài)網(wǎng)站提出一種新的方法,并對(duì)己??有的工作和存在的問(wèn)題進(jìn)行改良和優(yōu)化,實(shí)現(xiàn)基于事件模擬的Web頁(yè)面采集框架,??幫助使用者更加高效和穩(wěn)定地完成....


圖2一SJavasctipt中對(duì)CSS偽類的引用

圖2一SJavasctipt中對(duì)CSS偽類的引用

圖2-6頁(yè)面彈窗問(wèn)題展示??從以上幾個(gè)方面可以看出目前動(dòng)態(tài)爬蟲的研宄工作中仍然存在諸多困難與??挑戰(zhàn),本文的Web數(shù)據(jù)采集研究將針對(duì)爬取動(dòng)態(tài)網(wǎng)站提出一種新的方法,并對(duì)己??有的工作和存在的問(wèn)題進(jìn)行改良和優(yōu)化,實(shí)現(xiàn)基于事件模擬的Web頁(yè)面采集框架,??幫助使用者更加高效和穩(wěn)定地完成....


圖2-7抽取規(guī)則生成流程圖[31】??該算法在構(gòu)建PAT樹前需要對(duì)網(wǎng)頁(yè)中所有標(biāo)簽和文本進(jìn)行前綴編碼,由于網(wǎng)??

圖2-7抽取規(guī)則生成流程圖[31】??該算法在構(gòu)建PAT樹前需要對(duì)網(wǎng)頁(yè)中所有標(biāo)簽和文本進(jìn)行前綴編碼,由于網(wǎng)??

(2)?IEPAD[31]基于模式發(fā)現(xiàn)的方法從半結(jié)構(gòu)化文檔中抽取結(jié)構(gòu)化數(shù)據(jù)。算??法利用類似后綴樹的數(shù)據(jù)結(jié)構(gòu)PAT?(Practical?Algorithm?for?Retrieve?Information??Coded?in?Alphanumeric?Tree)來(lái)發(fā)現(xiàn)同構(gòu)的數(shù)據(jù)....



本文編號(hào):3944506

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3944506.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0ad7d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com