基于優(yōu)化NFA正則匹配的Web信息抽取技術及應用研究

發(fā)布時間：2017-04-24 16:04

本文關鍵詞：基于優(yōu)化NFA正則匹配的Web信息抽取技術及應用研究，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著網(wǎng)絡技術的快速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為我們?nèi)粘Ｉ钪斜夭豢缮俚囊徊糠�。如何從海量的、半結構化萬維網(wǎng)(Web)信息中挖掘出人們所感興趣的信息變得越來越重要。以往基于網(wǎng)頁模板實現(xiàn)的Web信息抽取軟件,絕大多數(shù)是利用傳統(tǒng)的基于NFA的正則表達式匹配算法來提取網(wǎng)頁內(nèi)容。但這些軟件存在著模板維護難、抽取效率低等問題,通常只能抽取一類網(wǎng)站的數(shù)據(jù),使得它們在現(xiàn)實中很難被廣泛應用。本文研究的重點是如何優(yōu)化NFA,改進傳統(tǒng)的構建NFA的算法。另外也系統(tǒng)分析了Web信息抽取技術中網(wǎng)頁預處理和三層開發(fā)框架整合等問題,并最終實現(xiàn)Web房屋數(shù)據(jù)抽取系統(tǒng),該系統(tǒng)主要是為一些房地產(chǎn)評稅系統(tǒng)提供樣本數(shù)據(jù)。本文的主要工作如下:1.針對NFA(非確定型有限狀態(tài)自動機)的研究,提出了用擴展方式構建NFA的算法,并設計了減少構建NFA時間和節(jié)省存儲空間的一些優(yōu)化方法。2.在基于NFA的正則表達式引擎下,提出了構造較優(yōu)化的正則表達式的方法,比較優(yōu)化前后的網(wǎng)頁內(nèi)容抽取效率,為后續(xù)制定各類網(wǎng)站的抽取規(guī)則提供優(yōu)化策略。3.對于網(wǎng)頁預處理給出了自動識別網(wǎng)頁編碼的方法,提出了基于模板的網(wǎng)頁去噪算法,該算法能去除網(wǎng)頁的可見和不可見噪音。4.在Ext Js、Spring和Hibernate框架的基礎上,提出結合MVC+DAO的開發(fā)模式,解決了以往Web信息抽取軟件模板維護難的弊端。通過引入Io C技術和AOP思想,分離了業(yè)務邏輯代碼和基礎代碼,并減少了代碼的冗余。5.基于以上的方法,設計并實現(xiàn)了一個Web房屋數(shù)據(jù)抽取系統(tǒng)。本系統(tǒng)可以多任務定時地對各類房屋信息網(wǎng)站進行頁面源碼解析、去噪、去重,并利用抽取規(guī)則和改進的基于NFA的正則表達式匹配算法來通用地抓取全國范圍內(nèi)的房屋數(shù)據(jù)。
【關鍵詞】：NFA 網(wǎng)頁去噪 正則表達式 抽取規(guī)則 Ext Js框架
【學位授予單位】：杭州電子科技大學
【學位級別】：碩士
【學位授予年份】：2015
【分類號】：TP393.092
【目錄】：

摘要5-6
ABSTRACT6-9
第一章緒論9-13
1.1 課題研究背景與意義9
1.2 國內(nèi)外研究現(xiàn)狀9-11
1.2.1 Web信息抽取技術9-10
1.2.2 Web挖掘分類10-11
1.2.3 Web開發(fā)技術11
1.3 研究內(nèi)容11-12
1.4 論文組織結構12-13
第二章相關技術研究13-24
2.1 常用Web信息抽取方法13-14
2.2 正則表達式14-18
2.2.1 正則表達式術語14-15
2.2.2 基于NFA的正則表達式匹配算法15-16
2.2.3 基于DFA的正則表達式匹配算法16-17
2.2.4 兩種正則表達式匹配算法的比較17-18
2.3 Web信息抽取開發(fā)框架18-23
2.3.1 Ext Js框架18-19
2.3.2 Spring框架19-22
2.3.3 Hibernate框架22-23
2.4 本章小結23-24
第三章 NFA優(yōu)化24-32
3.1 Thompson構造NFA24-25
3.2 減少構建時間25-27
3.2.1 擴展構建25-26
3.2.2 表壓縮26-27
3.2.3 緩存技術27
3.3 存儲空間壓縮27-28
3.4 NFA引擎下正則表達式的優(yōu)化28-30
3.5 實驗性能分析30-31
3.6 本章小結31-32
第四章 Web信息抽取32-43
4.1 獲取Web服務器的頁面32-33
4.2 網(wǎng)頁預處理33-36
4.2.1 編碼識別33-34
4.2.2 基于模板的網(wǎng)頁去噪算法34-36
4.3 基于表達式優(yōu)化的抽取規(guī)則36-39
4.3.1 抽取原理36-37
4.3.2 規(guī)則生成37-39
4.4 Web信息抽取開發(fā)框架集成39-42
4.4.1 三層框架的整合39-41
4.4.2 IoC技術和AOP思想41-42
4.5 本章小結42-43
第五章 Web房屋數(shù)據(jù)抽取系統(tǒng)的設計與實現(xiàn)43-59
5.1 系統(tǒng)總體架構43-45
5.2 數(shù)據(jù)庫模塊45-46
5.3 網(wǎng)頁預處理模塊46-47
5.4 改進的NFA正則表達式匹配模塊47-48
5.5 系統(tǒng)各個功能模塊的實現(xiàn)48-56
5.5.1 站點維護49-50
5.5.2 采集和導航規(guī)則50-51
5.5.3 任務管理模塊51-52
5.5.4 數(shù)據(jù)抽取的實現(xiàn)52-56
5.6 系統(tǒng)測試56-58
5.7 本章小結58-59
第六章總結和展望59-61
6.1 本文研究工作的總結59
6.2 工作展望59-61
致謝61-62
參考文獻62-66
附錄66-67
詳細摘要67-68

【參考文獻】

中國期刊全文數(shù)據(jù)庫前2條

1 李天鳴;何月順;;基于ExtJS技術與SSH框架的權限管理研究[J];計算機應用與軟件;2011年05期

2 陳哲;;垂直搜索中網(wǎng)頁抓取技術的研究[J];科技信息;2009年22期

中國碩士學位論文全文數(shù)據(jù)庫前1條

1 王林強;基于J2EE規(guī)范的通用型整合框架的研究與應用[D];上海師范大學;2009年

本文關鍵詞：基于優(yōu)化NFA正則匹配的Web信息抽取技術及應用研究，，由筆耕文化傳播整理發(fā)布。

本文編號：324508

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/jingjilunwen/fangdichanjingjilunwen/324508.html

上一篇：我國上市公司每股收益、每股綜合收益與股票價格相關性研究
下一篇：X建筑公司阿聯(lián)酋市場拓展戰(zhàn)略

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于優(yōu)化NFA正則匹配的Web信息抽取技術及應用研究