基于優(yōu)化NFA正則匹配的Web信息抽取技術(shù)及應(yīng)用研究
發(fā)布時(shí)間:2017-04-24 16:04
本文關(guān)鍵詞:基于優(yōu)化NFA正則匹配的Web信息抽取技術(shù)及應(yīng)用研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為我們?nèi)粘I钪斜夭豢缮俚囊徊糠。如何從海量的、半結(jié)構(gòu)化萬維網(wǎng)(Web)信息中挖掘出人們所感興趣的信息變得越來越重要。以往基于網(wǎng)頁(yè)模板實(shí)現(xiàn)的Web信息抽取軟件,絕大多數(shù)是利用傳統(tǒng)的基于NFA的正則表達(dá)式匹配算法來提取網(wǎng)頁(yè)內(nèi)容。但這些軟件存在著模板維護(hù)難、抽取效率低等問題,通常只能抽取一類網(wǎng)站的數(shù)據(jù),使得它們?cè)诂F(xiàn)實(shí)中很難被廣泛應(yīng)用。本文研究的重點(diǎn)是如何優(yōu)化NFA,改進(jìn)傳統(tǒng)的構(gòu)建NFA的算法。另外也系統(tǒng)分析了Web信息抽取技術(shù)中網(wǎng)頁(yè)預(yù)處理和三層開發(fā)框架整合等問題,并最終實(shí)現(xiàn)Web房屋數(shù)據(jù)抽取系統(tǒng),該系統(tǒng)主要是為一些房地產(chǎn)評(píng)稅系統(tǒng)提供樣本數(shù)據(jù)。本文的主要工作如下:1.針對(duì)NFA(非確定型有限狀態(tài)自動(dòng)機(jī))的研究,提出了用擴(kuò)展方式構(gòu)建NFA的算法,并設(shè)計(jì)了減少構(gòu)建NFA時(shí)間和節(jié)省存儲(chǔ)空間的一些優(yōu)化方法。2.在基于NFA的正則表達(dá)式引擎下,提出了構(gòu)造較優(yōu)化的正則表達(dá)式的方法,比較優(yōu)化前后的網(wǎng)頁(yè)內(nèi)容抽取效率,為后續(xù)制定各類網(wǎng)站的抽取規(guī)則提供優(yōu)化策略。3.對(duì)于網(wǎng)頁(yè)預(yù)處理給出了自動(dòng)識(shí)別網(wǎng)頁(yè)編碼的方法,提出了基于模板的網(wǎng)頁(yè)去噪算法,該算法能去除網(wǎng)頁(yè)的可見和不可見噪音。4.在Ext Js、Spring和Hibernate框架的基礎(chǔ)上,提出結(jié)合MVC+DAO的開發(fā)模式,解決了以往Web信息抽取軟件模板維護(hù)難的弊端。通過引入Io C技術(shù)和AOP思想,分離了業(yè)務(wù)邏輯代碼和基礎(chǔ)代碼,并減少了代碼的冗余。5.基于以上的方法,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)Web房屋數(shù)據(jù)抽取系統(tǒng)。本系統(tǒng)可以多任務(wù)定時(shí)地對(duì)各類房屋信息網(wǎng)站進(jìn)行頁(yè)面源碼解析、去噪、去重,并利用抽取規(guī)則和改進(jìn)的基于NFA的正則表達(dá)式匹配算法來通用地抓取全國(guó)范圍內(nèi)的房屋數(shù)據(jù)。
【關(guān)鍵詞】:NFA 網(wǎng)頁(yè)去噪 正則表達(dá)式 抽取規(guī)則 Ext Js框架
【學(xué)位授予單位】:杭州電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092
【目錄】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 緒論9-13
- 1.1 課題研究背景與意義9
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-11
- 1.2.1 Web信息抽取技術(shù)9-10
- 1.2.2 Web挖掘分類10-11
- 1.2.3 Web開發(fā)技術(shù)11
- 1.3 研究?jī)?nèi)容11-12
- 1.4 論文組織結(jié)構(gòu)12-13
- 第二章 相關(guān)技術(shù)研究13-24
- 2.1 常用Web信息抽取方法13-14
- 2.2 正則表達(dá)式14-18
- 2.2.1 正則表達(dá)式術(shù)語14-15
- 2.2.2 基于NFA的正則表達(dá)式匹配算法15-16
- 2.2.3 基于DFA的正則表達(dá)式匹配算法16-17
- 2.2.4 兩種正則表達(dá)式匹配算法的比較17-18
- 2.3 Web信息抽取開發(fā)框架18-23
- 2.3.1 Ext Js框架18-19
- 2.3.2 Spring框架19-22
- 2.3.3 Hibernate框架22-23
- 2.4 本章小結(jié)23-24
- 第三章 NFA優(yōu)化24-32
- 3.1 Thompson構(gòu)造NFA24-25
- 3.2 減少構(gòu)建時(shí)間25-27
- 3.2.1 擴(kuò)展構(gòu)建25-26
- 3.2.2 表壓縮26-27
- 3.2.3 緩存技術(shù)27
- 3.3 存儲(chǔ)空間壓縮27-28
- 3.4 NFA引擎下正則表達(dá)式的優(yōu)化28-30
- 3.5 實(shí)驗(yàn)性能分析30-31
- 3.6 本章小結(jié)31-32
- 第四章 Web信息抽取32-43
- 4.1 獲取Web服務(wù)器的頁(yè)面32-33
- 4.2 網(wǎng)頁(yè)預(yù)處理33-36
- 4.2.1 編碼識(shí)別33-34
- 4.2.2 基于模板的網(wǎng)頁(yè)去噪算法34-36
- 4.3 基于表達(dá)式優(yōu)化的抽取規(guī)則36-39
- 4.3.1 抽取原理36-37
- 4.3.2 規(guī)則生成37-39
- 4.4 Web信息抽取開發(fā)框架集成39-42
- 4.4.1 三層框架的整合39-41
- 4.4.2 IoC技術(shù)和AOP思想41-42
- 4.5 本章小結(jié)42-43
- 第五章 Web房屋數(shù)據(jù)抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)43-59
- 5.1 系統(tǒng)總體架構(gòu)43-45
- 5.2 數(shù)據(jù)庫(kù)模塊45-46
- 5.3 網(wǎng)頁(yè)預(yù)處理模塊46-47
- 5.4 改進(jìn)的NFA正則表達(dá)式匹配模塊47-48
- 5.5 系統(tǒng)各個(gè)功能模塊的實(shí)現(xiàn)48-56
- 5.5.1 站點(diǎn)維護(hù)49-50
- 5.5.2 采集和導(dǎo)航規(guī)則50-51
- 5.5.3 任務(wù)管理模塊51-52
- 5.5.4 數(shù)據(jù)抽取的實(shí)現(xiàn)52-56
- 5.6 系統(tǒng)測(cè)試56-58
- 5.7 本章小結(jié)58-59
- 第六章 總結(jié)和展望59-61
- 6.1 本文研究工作的總結(jié)59
- 6.2 工作展望59-61
- 致謝61-62
- 參考文獻(xiàn)62-66
- 附錄66-67
- 詳細(xì)摘要67-68
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 李天鳴;何月順;;基于ExtJS技術(shù)與SSH框架的權(quán)限管理研究[J];計(jì)算機(jī)應(yīng)用與軟件;2011年05期
2 陳哲;;垂直搜索中網(wǎng)頁(yè)抓取技術(shù)的研究[J];科技信息;2009年22期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 王林強(qiáng);基于J2EE規(guī)范的通用型整合框架的研究與應(yīng)用[D];上海師范大學(xué);2009年
本文關(guān)鍵詞:基于優(yōu)化NFA正則匹配的Web信息抽取技術(shù)及應(yīng)用研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):324508
本文鏈接:http://sikaile.net/jingjilunwen/fangdichanjingjilunwen/324508.html
最近更新
教材專著