精確web信息抽取系統(tǒng)的設計與實現(xiàn)

發(fā)布時間：2017-10-15 11:32

本文關鍵詞：精確web信息抽取系統(tǒng)的設計與實現(xiàn)

【摘要】：Web信息已經成為各領域最具潛力和價值的巨大信息來源,當前的一些研究和應用,如推薦系統(tǒng)、觀點挖掘與分析、數(shù)據(jù)融合和集成系統(tǒng)等都是基于結構化的Web數(shù)據(jù)。面對海量的繁雜的Web信息,如何從中快速有效地查找和獲取所需的信息來用作進一步的挖掘,獲取更多的潛在價值是一個具有挑戰(zhàn)性的技術難題,也是一個非常有研究意義和實用意義的課題。精確Web信息抽取的研究正是為滿足這些需求而出現(xiàn)的熱點研究領域。所謂Web信息抽取是指從半結構化或無結構化的Web頁面中準確的抽取數(shù)據(jù),轉換成結構化的數(shù)據(jù)以進行挖掘和利用的過程。本文的內容主要包括：分析比較當前的信息抽取研究方法及抽取模型,對各類站點的網頁特點進行研究；研究抽取模版及利用基于用戶交互的抽取規(guī)則生成方法,設計了幾類網頁抽取元素和導航元素,元素的定位與識別主要采用基于XPath的方式；設計并開發(fā)實現(xiàn)該信息抽取系統(tǒng),具體的開發(fā)采用Qt開發(fā)框架、Python和JavaScript技術,實現(xiàn)的抽取系統(tǒng)提供一個Webkit瀏覽器引擎用于網頁渲染和Ajax動態(tài)內容加載及用戶的瀏覽交互。實驗結果證明本文研究實現(xiàn)的精確Web信息抽取系統(tǒng)能滿足目前各類站點精確Web信息抽取的需求,如新聞類、電商類、微博類等站點的Web信息抽取,抽取結果數(shù)據(jù)能保存為各種結構化的數(shù)據(jù)格式(數(shù)據(jù)庫、Excel、格式文本文件),并且該系統(tǒng)的信息抽取的效率和精確性能達到較好的效果。
【關鍵詞】：Web信息抽取 網絡爬蟲 XPath 信息檢索
【學位授予單位】：北京郵電大學
【學位級別】：碩士
【學位授予年份】：2015
【分類號】：TP393.092
【目錄】：

摘要4-5
ABSTRACT5-9
第一章緒論9-14
1.1 研究背景與意義9-10
1.2 國內外研究現(xiàn)狀10-12
1.3 研究內容12-13
1.4 本文組織結構安排13-14
第二章相關概念、理論與關鍵技術14-22
2.1 信息抽取相關概念14-17
2.1.1 HTML & DOM14-15
2.1.2 XML & XPath15-16
2.1.3 正則表達式16-17
2.2 爬蟲技術17-18
2.3 頁面渲染引擎18-19
2.4 信息檢索模型19-21
2.4.1 布爾模型20
2.4.2 向量空間模型20-21
2.5 本章小結21-22
第三章精確WEB信息抽取系統(tǒng)的研究22-31
3.1 精確WEB信息抽取模型22-23
3.2 抽取規(guī)則與基于XML的抽取模版生成23-26
3.2.1 基于用戶交互的抽取信息定義及規(guī)則生成24
3.2.2 模版引擎與抽取模版生成24-26
3.3 抽取字段元素和導航元素類型研究26-28
3.4 網頁瀏覽導航模型28-29
3.5 網頁元素識別29-30
3.6 本章小結30-31
第四章精確WEB信息抽取系統(tǒng)的設計31-42
4.1 系統(tǒng)設計目標31
4.2 系統(tǒng)總體設計31-34
4.2.1 系統(tǒng)處理流程31-33
4.2.2 總體架構和模塊設計33-34
4.3 系統(tǒng)各功能模塊的設計34-35
4.3.1 網頁數(shù)據(jù)識別與標注模塊34
4.3.2 抽取規(guī)則與模版生成模塊34
4.3.3 抽取任務運行模塊34-35
4.3.4 數(shù)據(jù)集成模塊35
4.4 元素與導航類型設計35-38
4.4.1 網頁抽取元素類型35-37
4.4.2 導航元素類型37-38
4.5 數(shù)據(jù)結構設計38-40
4.6 接口設計40
4.7 系統(tǒng)主界面的設計40-41
4.8 本章小結41-42
第五章精確WEB信息抽取系統(tǒng)的實現(xiàn)42-55
5.1 開發(fā)技術選型43
5.2 網頁數(shù)據(jù)識別與標注模塊的實現(xiàn)43-48
5.3 抽取模版生成模塊的實現(xiàn)48-51
5.3.1 抽取模版的定義48-50
5.3.2 抽取模版文件的生成50-51
5.4 抽取任務運行模塊的實現(xiàn)51-53
5.5 數(shù)據(jù)集成模塊的實現(xiàn)53-54
5.6 本章小結54-55
第六章實驗結果分析55-59
6.1 實驗環(huán)境55
6.2 評估方法及實驗結果55-58
6.2.1 評估方法55-56
6.2.2 Web信息抽取系統(tǒng)實驗56-58
6.3 結果分析58
6.4 本章小結58-59
第七章總結與展望59-61
7.1 論文工作總結59-60
7.2 展望60-61
參考文獻61-63
致謝63-64
攻讀學位期間發(fā)表的學術論文目錄64

【共引文獻】

中國期刊全文數(shù)據(jù)庫前8條

1 李廣建;喬建忠;;全自動生成網頁信息抽取包裝器的主要技術方法研究[J];情報理論與實踐;2010年01期

2 李霞;蔣盛益;;基于DOM樹及行文本統(tǒng)計去噪的網頁文本抽取技術[J];山東大學學報(理學版);2012年03期

3 蔡李;單艷;薛化建;蘇國平;;維吾爾文網頁正文抽取系統(tǒng)的研究與實現(xiàn)[J];計算機工程與設計;2012年02期

4 趙宏亮;楊鶴標;;面向領域的語義搜索引擎的應用研究[J];計算機工程與設計;2012年05期

5 呂國英;馮艷;李茹;;基于CFN的教材內容提要信息抽取研究[J];山西大學學報(自然科學版);2010年01期

6 魏瑞斌;;基于微軟學術搜索的信息檢索研究的文獻計量分析[J];圖書情報工作;2012年20期

7 沈靖喃;黃雪丹;杜妮香;何建鋒;;畜牧養(yǎng)殖培訓系統(tǒng)設計與開發(fā)——以生豬養(yǎng)殖技術培訓系統(tǒng)為例[J];軟件導刊;2014年08期

8 陳朝;;面向雙維度標簽語義聚合在Folksonomy導航架構研究[J];圖書館學研究;2015年13期

中國重要會議論文全文數(shù)據(jù)庫前5條

1 王雅莉;古麗拉·阿東別克;;哈薩克語通用詞匯自動提取方法研究與實現(xiàn)[A];中國計算語言學研究前沿進展（2009-2011）[C];2011年

2 陳志峰;朱巧明;;面向課程教學的中文問答系統(tǒng)研究[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年

3 丁凡;王斌;白碩;劉宜軒;李亞楠;;文本檢索中句法信息的有效利用研究[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年

4 呂國英;馮艷;李茹;;基于中文框架語義的信息抽取研究[A];第四屆全國信息檢索與內容安全學術會議論文集（上）[C];2008年

5 林建方;李生;鄭德權;;基于詞語搭配關系的查詢擴展方法[A];第四屆全國信息檢索與內容安全學術會議論文集（上）[C];2008年

中國博士學位論文全文數(shù)據(jù)庫前10條

1 劉朝濤;中文問答系統(tǒng)中的句型理論及其應用研究[D];重慶大學;2010年

2 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學;2011年

3 楊震;文本分類和聚類中若干問題的研究[D];北京郵電大學;2007年

4 王樹梅;信息檢索相關技術研究[D];南京理工大學;2007年

5 譚紅葉;中文事件抽取關鍵技術研究[D];哈爾濱工業(yè)大學;2008年

6 何慧;WEB文本挖掘中關鍵問題的研究[D];北京郵電大學;2009年

7 茹昭;企業(yè)信息檢索中的對象檢索方法研究[D];北京郵電大學;2008年

8 陳圣兵;基于商空間理論的海量信息檢索模型的研究[D];安徽大學;2010年

9 何川;分布式信息檢索中的若干重要問題研究[D];北京郵電大學;2012年

10 王桂紅;農產品市場價格web信息分析方法研究[D];沈陽農業(yè)大學;2013年

中國碩士學位論文全文數(shù)據(jù)庫前10條

1 孫嶺;一種基于前綴表達式的Web信息抽取方法的關鍵問題的實現(xiàn)[D];山東科技大學;2010年

2 齊保元;知識文檔的語義檢索方法研究與實現(xiàn)[D];首都師范大學;2011年

3 李亞洲;文本分類語料庫自動構建系統(tǒng)的研究與改進[D];武漢理工大學;2011年

4 盧承山;基于領域的主題信息采集技術研究[D];武漢理工大學;2011年

5 田鶴楠;質檢總局輿情監(jiān)控系統(tǒng)中信息抽取的研究[D];北京郵電大學;2011年

6 祝美蓮;半結構化網頁的信息抽取技術研究[D];中國石油大學;2011年

7 鄧飛;基于本體的查詢擴展研究[D];遼寧科技大學;2011年

8 盧振;面向教育新聞的主題爬蟲設計與實現(xiàn)[D];華中科技大學;2011年

9 于鵬;基于自然語言打印機人機交互方法研究與實現(xiàn)[D];大連理工大學;2011年

10 白宇;中文問答系統(tǒng)中多策略答案抽取技術的研究[D];沈陽航空工業(yè)學院;2008年

，

本文編號：1036886

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/1036886.html

上一篇：基于映射矩陣的多目標交換式以太網拓撲優(yōu)化
下一篇：不透明謂詞在JavaScript代碼保護的應用研究

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

精確web信息抽取系統(tǒng)的設計與實現(xiàn)