天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

精確web信息抽取系統(tǒng)的設計與實現(xiàn)

發(fā)布時間:2017-10-15 11:32

  本文關鍵詞:精確web信息抽取系統(tǒng)的設計與實現(xiàn)


  更多相關文章: Web信息抽取 網(wǎng)絡爬蟲 XPath 信息檢索


【摘要】:Web信息已經成為各領域最具潛力和價值的巨大信息來源,當前的一些研究和應用,如推薦系統(tǒng)、觀點挖掘與分析、數(shù)據(jù)融合和集成系統(tǒng)等都是基于結構化的Web數(shù)據(jù)。面對海量的繁雜的Web信息,如何從中快速有效地查找和獲取所需的信息來用作進一步的挖掘,獲取更多的潛在價值是一個具有挑戰(zhàn)性的技術難題,也是一個非常有研究意義和實用意義的課題。精確Web信息抽取的研究正是為滿足這些需求而出現(xiàn)的熱點研究領域。所謂Web信息抽取是指從半結構化或無結構化的Web頁面中準確的抽取數(shù)據(jù),轉換成結構化的數(shù)據(jù)以進行挖掘和利用的過程。 本文的內容主要包括:分析比較當前的信息抽取研究方法及抽取模型,對各類站點的網(wǎng)頁特點進行研究;研究抽取模版及利用基于用戶交互的抽取規(guī)則生成方法,設計了幾類網(wǎng)頁抽取元素和導航元素,元素的定位與識別主要采用基于XPath的方式;設計并開發(fā)實現(xiàn)該信息抽取系統(tǒng),具體的開發(fā)采用Qt開發(fā)框架、Python和JavaScript技術,實現(xiàn)的抽取系統(tǒng)提供一個Webkit瀏覽器引擎用于網(wǎng)頁渲染和Ajax動態(tài)內容加載及用戶的瀏覽交互。 實驗結果證明本文研究實現(xiàn)的精確Web信息抽取系統(tǒng)能滿足目前各類站點精確Web信息抽取的需求,如新聞類、電商類、微博類等站點的Web信息抽取,抽取結果數(shù)據(jù)能保存為各種結構化的數(shù)據(jù)格式(數(shù)據(jù)庫、Excel、格式文本文件),并且該系統(tǒng)的信息抽取的效率和精確性能達到較好的效果。
【關鍵詞】:Web信息抽取 網(wǎng)絡爬蟲 XPath 信息檢索
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.092
【目錄】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 緒論9-14
  • 1.1 研究背景與意義9-10
  • 1.2 國內外研究現(xiàn)狀10-12
  • 1.3 研究內容12-13
  • 1.4 本文組織結構安排13-14
  • 第二章 相關概念、理論與關鍵技術14-22
  • 2.1 信息抽取相關概念14-17
  • 2.1.1 HTML & DOM14-15
  • 2.1.2 XML & XPath15-16
  • 2.1.3 正則表達式16-17
  • 2.2 爬蟲技術17-18
  • 2.3 頁面渲染引擎18-19
  • 2.4 信息檢索模型19-21
  • 2.4.1 布爾模型20
  • 2.4.2 向量空間模型20-21
  • 2.5 本章小結21-22
  • 第三章 精確WEB信息抽取系統(tǒng)的研究22-31
  • 3.1 精確WEB信息抽取模型22-23
  • 3.2 抽取規(guī)則與基于XML的抽取模版生成23-26
  • 3.2.1 基于用戶交互的抽取信息定義及規(guī)則生成24
  • 3.2.2 模版引擎與抽取模版生成24-26
  • 3.3 抽取字段元素和導航元素類型研究26-28
  • 3.4 網(wǎng)頁瀏覽導航模型28-29
  • 3.5 網(wǎng)頁元素識別29-30
  • 3.6 本章小結30-31
  • 第四章 精確WEB信息抽取系統(tǒng)的設計31-42
  • 4.1 系統(tǒng)設計目標31
  • 4.2 系統(tǒng)總體設計31-34
  • 4.2.1 系統(tǒng)處理流程31-33
  • 4.2.2 總體架構和模塊設計33-34
  • 4.3 系統(tǒng)各功能模塊的設計34-35
  • 4.3.1 網(wǎng)頁數(shù)據(jù)識別與標注模塊34
  • 4.3.2 抽取規(guī)則與模版生成模塊34
  • 4.3.3 抽取任務運行模塊34-35
  • 4.3.4 數(shù)據(jù)集成模塊35
  • 4.4 元素與導航類型設計35-38
  • 4.4.1 網(wǎng)頁抽取元素類型35-37
  • 4.4.2 導航元素類型37-38
  • 4.5 數(shù)據(jù)結構設計38-40
  • 4.6 接口設計40
  • 4.7 系統(tǒng)主界面的設計40-41
  • 4.8 本章小結41-42
  • 第五章 精確WEB信息抽取系統(tǒng)的實現(xiàn)42-55
  • 5.1 開發(fā)技術選型43
  • 5.2 網(wǎng)頁數(shù)據(jù)識別與標注模塊的實現(xiàn)43-48
  • 5.3 抽取模版生成模塊的實現(xiàn)48-51
  • 5.3.1 抽取模版的定義48-50
  • 5.3.2 抽取模版文件的生成50-51
  • 5.4 抽取任務運行模塊的實現(xiàn)51-53
  • 5.5 數(shù)據(jù)集成模塊的實現(xiàn)53-54
  • 5.6 本章小結54-55
  • 第六章 實驗結果分析55-59
  • 6.1 實驗環(huán)境55
  • 6.2 評估方法及實驗結果55-58
  • 6.2.1 評估方法55-56
  • 6.2.2 Web信息抽取系統(tǒng)實驗56-58
  • 6.3 結果分析58
  • 6.4 本章小結58-59
  • 第七章 總結與展望59-61
  • 7.1 論文工作總結59-60
  • 7.2 展望60-61
  • 參考文獻61-63
  • 致謝63-64
  • 攻讀學位期間發(fā)表的學術論文目錄64

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前8條

1 李廣建;喬建忠;;全自動生成網(wǎng)頁信息抽取包裝器的主要技術方法研究[J];情報理論與實踐;2010年01期

2 李霞;蔣盛益;;基于DOM樹及行文本統(tǒng)計去噪的網(wǎng)頁文本抽取技術[J];山東大學學報(理學版);2012年03期

3 蔡李;單艷;薛化建;蘇國平;;維吾爾文網(wǎng)頁正文抽取系統(tǒng)的研究與實現(xiàn)[J];計算機工程與設計;2012年02期

4 趙宏亮;楊鶴標;;面向領域的語義搜索引擎的應用研究[J];計算機工程與設計;2012年05期

5 呂國英;馮艷;李茹;;基于CFN的教材內容提要信息抽取研究[J];山西大學學報(自然科學版);2010年01期

6 魏瑞斌;;基于微軟學術搜索的信息檢索研究的文獻計量分析[J];圖書情報工作;2012年20期

7 沈靖喃;黃雪丹;杜妮香;何建鋒;;畜牧養(yǎng)殖培訓系統(tǒng)設計與開發(fā)——以生豬養(yǎng)殖技術培訓系統(tǒng)為例[J];軟件導刊;2014年08期

8 陳朝;;面向雙維度標簽語義聚合在Folksonomy導航架構研究[J];圖書館學研究;2015年13期

中國重要會議論文全文數(shù)據(jù)庫 前5條

1 王雅莉;古麗拉·阿東別克;;哈薩克語通用詞匯自動提取方法研究與實現(xiàn)[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

2 陳志峰;朱巧明;;面向課程教學的中文問答系統(tǒng)研究[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年

3 丁凡;王斌;白碩;劉宜軒;李亞楠;;文本檢索中句法信息的有效利用研究[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年

4 呂國英;馮艷;李茹;;基于中文框架語義的信息抽取研究[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年

5 林建方;李生;鄭德權;;基于詞語搭配關系的查詢擴展方法[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年

中國博士學位論文全文數(shù)據(jù)庫 前10條

1 劉朝濤;中文問答系統(tǒng)中的句型理論及其應用研究[D];重慶大學;2010年

2 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學;2011年

3 楊震;文本分類和聚類中若干問題的研究[D];北京郵電大學;2007年

4 王樹梅;信息檢索相關技術研究[D];南京理工大學;2007年

5 譚紅葉;中文事件抽取關鍵技術研究[D];哈爾濱工業(yè)大學;2008年

6 何慧;WEB文本挖掘中關鍵問題的研究[D];北京郵電大學;2009年

7 茹昭;企業(yè)信息檢索中的對象檢索方法研究[D];北京郵電大學;2008年

8 陳圣兵;基于商空間理論的海量信息檢索模型的研究[D];安徽大學;2010年

9 何川;分布式信息檢索中的若干重要問題研究[D];北京郵電大學;2012年

10 王桂紅;農產品市場價格web信息分析方法研究[D];沈陽農業(yè)大學;2013年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 孫嶺;一種基于前綴表達式的Web信息抽取方法的關鍵問題的實現(xiàn)[D];山東科技大學;2010年

2 齊保元;知識文檔的語義檢索方法研究與實現(xiàn)[D];首都師范大學;2011年

3 李亞洲;文本分類語料庫自動構建系統(tǒng)的研究與改進[D];武漢理工大學;2011年

4 盧承山;基于領域的主題信息采集技術研究[D];武漢理工大學;2011年

5 田鶴楠;質檢總局輿情監(jiān)控系統(tǒng)中信息抽取的研究[D];北京郵電大學;2011年

6 祝美蓮;半結構化網(wǎng)頁的信息抽取技術研究[D];中國石油大學;2011年

7 鄧飛;基于本體的查詢擴展研究[D];遼寧科技大學;2011年

8 盧振;面向教育新聞的主題爬蟲設計與實現(xiàn)[D];華中科技大學;2011年

9 于鵬;基于自然語言打印機人機交互方法研究與實現(xiàn)[D];大連理工大學;2011年

10 白宇;中文問答系統(tǒng)中多策略答案抽取技術的研究[D];沈陽航空工業(yè)學院;2008年

,

本文編號:1036886

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1036886.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶2c1da***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com