基于優(yōu)化NFA正則匹配的Web信息抽取技術及應用研究
發(fā)布時間:2017-04-24 16:04
本文關鍵詞:基于優(yōu)化NFA正則匹配的Web信息抽取技術及應用研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著網(wǎng)絡技術的快速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為我們?nèi)粘I钪斜夭豢缮俚囊徊糠。如何從海量的、半結構化萬維網(wǎng)(Web)信息中挖掘出人們所感興趣的信息變得越來越重要。以往基于網(wǎng)頁模板實現(xiàn)的Web信息抽取軟件,絕大多數(shù)是利用傳統(tǒng)的基于NFA的正則表達式匹配算法來提取網(wǎng)頁內(nèi)容。但這些軟件存在著模板維護難、抽取效率低等問題,通常只能抽取一類網(wǎng)站的數(shù)據(jù),使得它們在現(xiàn)實中很難被廣泛應用。本文研究的重點是如何優(yōu)化NFA,改進傳統(tǒng)的構建NFA的算法。另外也系統(tǒng)分析了Web信息抽取技術中網(wǎng)頁預處理和三層開發(fā)框架整合等問題,并最終實現(xiàn)Web房屋數(shù)據(jù)抽取系統(tǒng),該系統(tǒng)主要是為一些房地產(chǎn)評稅系統(tǒng)提供樣本數(shù)據(jù)。本文的主要工作如下:1.針對NFA(非確定型有限狀態(tài)自動機)的研究,提出了用擴展方式構建NFA的算法,并設計了減少構建NFA時間和節(jié)省存儲空間的一些優(yōu)化方法。2.在基于NFA的正則表達式引擎下,提出了構造較優(yōu)化的正則表達式的方法,比較優(yōu)化前后的網(wǎng)頁內(nèi)容抽取效率,為后續(xù)制定各類網(wǎng)站的抽取規(guī)則提供優(yōu)化策略。3.對于網(wǎng)頁預處理給出了自動識別網(wǎng)頁編碼的方法,提出了基于模板的網(wǎng)頁去噪算法,該算法能去除網(wǎng)頁的可見和不可見噪音。4.在Ext Js、Spring和Hibernate框架的基礎上,提出結合MVC+DAO的開發(fā)模式,解決了以往Web信息抽取軟件模板維護難的弊端。通過引入Io C技術和AOP思想,分離了業(yè)務邏輯代碼和基礎代碼,并減少了代碼的冗余。5.基于以上的方法,設計并實現(xiàn)了一個Web房屋數(shù)據(jù)抽取系統(tǒng)。本系統(tǒng)可以多任務定時地對各類房屋信息網(wǎng)站進行頁面源碼解析、去噪、去重,并利用抽取規(guī)則和改進的基于NFA的正則表達式匹配算法來通用地抓取全國范圍內(nèi)的房屋數(shù)據(jù)。
【關鍵詞】:NFA 網(wǎng)頁去噪 正則表達式 抽取規(guī)則 Ext Js框架
【學位授予單位】:杭州電子科技大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.092
【目錄】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 緒論9-13
- 1.1 課題研究背景與意義9
- 1.2 國內(nèi)外研究現(xiàn)狀9-11
- 1.2.1 Web信息抽取技術9-10
- 1.2.2 Web挖掘分類10-11
- 1.2.3 Web開發(fā)技術11
- 1.3 研究內(nèi)容11-12
- 1.4 論文組織結構12-13
- 第二章 相關技術研究13-24
- 2.1 常用Web信息抽取方法13-14
- 2.2 正則表達式14-18
- 2.2.1 正則表達式術語14-15
- 2.2.2 基于NFA的正則表達式匹配算法15-16
- 2.2.3 基于DFA的正則表達式匹配算法16-17
- 2.2.4 兩種正則表達式匹配算法的比較17-18
- 2.3 Web信息抽取開發(fā)框架18-23
- 2.3.1 Ext Js框架18-19
- 2.3.2 Spring框架19-22
- 2.3.3 Hibernate框架22-23
- 2.4 本章小結23-24
- 第三章 NFA優(yōu)化24-32
- 3.1 Thompson構造NFA24-25
- 3.2 減少構建時間25-27
- 3.2.1 擴展構建25-26
- 3.2.2 表壓縮26-27
- 3.2.3 緩存技術27
- 3.3 存儲空間壓縮27-28
- 3.4 NFA引擎下正則表達式的優(yōu)化28-30
- 3.5 實驗性能分析30-31
- 3.6 本章小結31-32
- 第四章 Web信息抽取32-43
- 4.1 獲取Web服務器的頁面32-33
- 4.2 網(wǎng)頁預處理33-36
- 4.2.1 編碼識別33-34
- 4.2.2 基于模板的網(wǎng)頁去噪算法34-36
- 4.3 基于表達式優(yōu)化的抽取規(guī)則36-39
- 4.3.1 抽取原理36-37
- 4.3.2 規(guī)則生成37-39
- 4.4 Web信息抽取開發(fā)框架集成39-42
- 4.4.1 三層框架的整合39-41
- 4.4.2 IoC技術和AOP思想41-42
- 4.5 本章小結42-43
- 第五章 Web房屋數(shù)據(jù)抽取系統(tǒng)的設計與實現(xiàn)43-59
- 5.1 系統(tǒng)總體架構43-45
- 5.2 數(shù)據(jù)庫模塊45-46
- 5.3 網(wǎng)頁預處理模塊46-47
- 5.4 改進的NFA正則表達式匹配模塊47-48
- 5.5 系統(tǒng)各個功能模塊的實現(xiàn)48-56
- 5.5.1 站點維護49-50
- 5.5.2 采集和導航規(guī)則50-51
- 5.5.3 任務管理模塊51-52
- 5.5.4 數(shù)據(jù)抽取的實現(xiàn)52-56
- 5.6 系統(tǒng)測試56-58
- 5.7 本章小結58-59
- 第六章 總結和展望59-61
- 6.1 本文研究工作的總結59
- 6.2 工作展望59-61
- 致謝61-62
- 參考文獻62-66
- 附錄66-67
- 詳細摘要67-68
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 李天鳴;何月順;;基于ExtJS技術與SSH框架的權限管理研究[J];計算機應用與軟件;2011年05期
2 陳哲;;垂直搜索中網(wǎng)頁抓取技術的研究[J];科技信息;2009年22期
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 王林強;基于J2EE規(guī)范的通用型整合框架的研究與應用[D];上海師范大學;2009年
本文關鍵詞:基于優(yōu)化NFA正則匹配的Web信息抽取技術及應用研究,,由筆耕文化傳播整理發(fā)布。
本文編號:324508
本文鏈接:http://sikaile.net/jingjilunwen/fangdichanjingjilunwen/324508.html
最近更新
教材專著