基于文本密度和頁面結構的網頁信息抽取技術研究與實現
【學位單位】:中國海洋大學
【學位級別】:碩士
【學位年份】:2015
【中圖分類】:TP393.092;TP391.1
【文章目錄】:
摘要
Abstract
1. 緒論
1.1. 研究背景和目的
1.2. 國內外發(fā)展現狀
1.3. 課題研究的思路
1.4. 論文結構
2. 網頁信息抽取相關技術簡介
2.1. 信息抽取簡介
2.1.1. 信息抽取與信息檢索
2.1.2. 網頁信息抽取工具
2.1.3. 制定網頁信息抽取規(guī)則
2.2. 網頁信息抽取相關技術
2.2.1. 基于自然語言的網頁信息抽取
2.2.2. 基于包裝器的網頁信息抽取
2.2.3. 基于Ontology的網頁信息抽取
2.2.4. 基于模板的網頁信息抽取
2.3. 頁面結構介紹
2.3.1. 基于DOM樹頁面結構分析
2.3.2. 基于HTML標簽頁面結構劃分
2.3.3. 基于視覺特征的頁面結構劃分
2.4. 文本密度介紹
2.5. 網頁信息抽取評價標準
2.6. 本章小結
3. 頁面分塊算法研究
3.1. 網頁預處理
3.1.1. 網頁編碼格式檢測
3.1.2. 網頁標準化
3.1.3. 清除冗余塊
3.2. 定義網頁標簽種類
3.2.1. 塊級元素
3.2.2. 內聯元素
3.2.3. 排版元素
3.3. 定義分塊原則
3.4. 分塊算法
3.5. 本章小結
4. 基于文本密度的網頁信息抽取
4.1. 定義文本密度的測量方法
4.2. 文本密度的算法原理及流程
4.3. 根據文本密度抽取信息
4.4. 閾值設定
4.4.1. 樣本數據來源
4.4.2. 性能指標
4.4.3. 實驗結果分析
4.5. 本章小結
5. 基于文本密度和頁面結構的網頁信息抽取技術驗證與實現
5.1. 系統(tǒng)設計目標
5.2. 系統(tǒng)總體框架
5.3. 系統(tǒng)模塊的設計與實現
5.3.1. 網頁預處理
5.3.2. 網頁分塊
5.3.3. 網頁信息提取測試
5.4. 結果演示
5.5. 本章小結
6. 總結與展望
6.1. 論文工作總結
6.2. 未來研究與展望
參考文獻
致謝
個人簡歷
【相似文獻】
相關期刊論文 前10條
1 朱松巖;;網頁設計之特性分析[J];山東省農業(yè)管理干部學院學報;2009年03期
2 安琳;;國外網頁信息存檔項目及相關問題研究[J];圖書館建設;2009年12期
3 蔣桂梅;;網頁設計的藝術性[J];電腦知識與技術;2010年05期
4 龍正義;;網頁長期保存的策略與方法研究[J];檔案管理;2010年03期
5 李志義;梁士金;;國內網頁去重技術研究:現狀與總結[J];圖書情報工作;2011年07期
6 王爍;;美國網頁歸檔項目——Internet Archive發(fā)展研究[J];蘭臺世界;2012年17期
7 栗勇兵;韓平;董啟雄;;網頁信息自動提取的設計與實現[J];計算機光盤軟件與應用;2012年18期
8 何立波;周世波;;網頁設計中的藝術研究[J];考試周刊;2011年25期
9 秦永平;網頁信息共享技術[J];計算機應用;2000年02期
10 項鎮(zhèn);網頁設計新概念[J];江西教育學院學報(自然科學);2001年06期
相關會議論文 前10條
1 吳建軍;;談網頁設計的藝術性表現[A];經天緯地——全國測繪科技信息網中南分網第十九次學術交流會優(yōu)秀論文選編[C];2005年
2 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領域知識的網頁篩選系統(tǒng)[A];第十九屆全國數據庫學術會議論文集(技術報告篇)[C];2002年
3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網頁相關度研究[A];語言計算與基于內容的文本處理——全國第七屆計算語言學聯合學術會議論文集[C];2003年
4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網頁信息的一種網頁結構劃分方法[A];第一屆建立和諧人機環(huán)境聯合學術會議(HHME2005)論文集[C];2005年
5 曹淮;晁丁丁;;3D元素在網頁信息傳達中的應用研究[A];2006年中國機械工程學會年會暨中國工程院機械與運載工程學部首屆年會論文集[C];2006年
6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網頁文檔的方法[A];2007北京地區(qū)高校研究生學術交流會通信與信息技術會議論文集(上冊)[C];2008年
7 馬驍;王曉龍;王軒;卜永忠;;基于網頁信息結構的網頁體裁聚類分析[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年
8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網頁的雙語資源挖掘方法[A];第六屆全國信息檢索學術會議論文集[C];2010年
9 于滿泉;譚松波;許洪波;;網頁內部結構挖掘技術研究[A];NCIRCS2004第一屆全國信息檢索與內容安全學術會議論文集[C];2004年
10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內容的Web查詢[A];第十七屆全國數據庫學術會議論文集(技術報告篇)[C];2000年
相關重要報紙文章 前10條
1 本報記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網頁工程開辟為農服務新渠道[N];中國氣象報;2012年
2 壯壯;批量保存網頁信息[N];電腦報;2004年
3 羅震宇 嚴小斌;一種新型WEB開發(fā)技術的探討[N];中國冶金報;2011年
4 錢鵬;網盡Web頁中的好東東[N];電腦報;2004年
5 星之海洋;邁出網頁制作的第一步[N];電腦報;2004年
6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報;2001年
7 楓爾;網站瀏覽提速的五大秘方[N];中國證券報;2004年
8 飄零劍客;網絡監(jiān)控利器——AnyView[N];中國電腦教育報;2004年
9 八戒;眨眼之間 答案立現[N];電腦報;2013年
10 ;網絡應用 天龍八“步” 申請上網賬號[N];電腦報;2002年
相關博士學位論文 前10條
1 陳潔;基于概念融合的網頁篩選技術研究[D];北京郵電大學;2013年
2 龔昌盛;基于語義標注的網頁廣告加載模型研究[D];武漢大學;2010年
3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學;2005年
4 黃華軍;網頁信息隱藏與隱秘信息檢測研究[D];湖南大學;2007年
5 徐晴陽;基于關系子群發(fā)現算法的聚焦爬行技術[D];吉林大學;2008年
6 曹魯慧;Web個人信息集成問題研究[D];山東大學;2012年
7 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學;2012年
8 羅娜;基于本體的主題爬行技術研究[D];吉林大學;2009年
9 張勇實;基于鏈接相似性分析的WEB結構挖掘方法研究[D];哈爾濱工程大學;2012年
10 宗校軍;中文網頁定題采集及分類研究[D];華中科技大學;2006年
相關碩士學位論文 前10條
1 敖志敏;基于網頁相似度的搜索算法改進的研究[D];上海師范大學;2015年
2 楊尋;地域文化的視覺元素在旅游網頁設計中的應用研究[D];西南交通大學;2015年
3 張W
本文編號:2829823
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2829823.html