WEB實體信息的提取算法及其應(yīng)用研究
【學(xué)位單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP393.09;TP391.1
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文主要研究內(nèi)容和貢獻
1.4 本文結(jié)構(gòu)安排
第二章 論文相關(guān)基礎(chǔ)技術(shù)知識介紹
2.1 網(wǎng)絡(luò)爬蟲技術(shù)概述
2.1.1 網(wǎng)絡(luò)爬蟲基本流程
2.1.2 網(wǎng)絡(luò)爬蟲搜索策略
2.1.3 網(wǎng)絡(luò)爬蟲分類
2.2 WEB信息提取經(jīng)典技術(shù)概述
2.2.1 WEB信息提取技術(shù)特點
2.2.2 WEB信息提取技術(shù)分類
2.3 本章小結(jié)
第三章 WEB實體信息的提取算法
3.1 WEB實體信息提取算法的研究基礎(chǔ)和目標(biāo)
3.1.1 WEB實體信息提取算法的研究基礎(chǔ)
3.1.2 WEB實體信息提取算法實現(xiàn)目標(biāo)及框架
3.2 有監(jiān)督的廣度優(yōu)先網(wǎng)頁帶權(quán)搜索策略
3.2.1 正則表達式
3.2.2 正則表達式過濾器
3.2.2.1 URL識別
3.2.2.2 URL正則表達式生成規(guī)則
3.2.2.3 URL聚類
3.2.3 帶權(quán)網(wǎng)頁計算
3.2.3.1 主題孤島問題
3.2.3.2 基于隧道技術(shù)的網(wǎng)頁權(quán)值計算
3.3 數(shù)據(jù)解析路徑模板自動抽取
3.3.1 數(shù)據(jù)解析路徑模板自動生成提出基礎(chǔ)
3.3.2 提取目標(biāo)頁面公共節(jié)點路徑模板
3.3.3 生成精確數(shù)據(jù)解析路徑
3.4 本章小結(jié)
第四章 通用型垂直爬蟲系統(tǒng)的實現(xiàn)及實驗分析
4.1 系統(tǒng)設(shè)計與實現(xiàn)
4.1.1 系統(tǒng)實現(xiàn)基礎(chǔ)技術(shù)介紹
4.1.2 系統(tǒng)框架和模塊設(shè)計
4.1.3 系統(tǒng)界面層展示
4.2 實驗結(jié)果與分析
4.2.1 實驗環(huán)境和內(nèi)容
4.2.2 多種類型網(wǎng)站實驗結(jié)果及分析
4.2.2.1 大眾點評網(wǎng)實驗分析
4.2.2.2 新浪股票網(wǎng)站實驗分析
4.2.2.3 搜狐軍事網(wǎng)站實驗分析
4.2.2.4 新華網(wǎng)論壇實驗分析
4.2.3 初始化階段實驗結(jié)果及分析
4.2.4 正式爬取階段與現(xiàn)有技術(shù)實驗對比分析
4.2.4.1 配置信息便捷性
4.2.4.2 數(shù)據(jù)爬取效率
4.2.4.3 數(shù)據(jù)采集完整性
4.2.4.4 數(shù)據(jù)采集準(zhǔn)確性
4.3 本章小結(jié)
第五章 總結(jié)與展望
5.1 全文總結(jié)
5.2 工作展望
致謝
參考文獻
攻讀碩士期間取得的研究成果
【相似文獻】
相關(guān)期刊論文 前10條
1 鄔建民;高昕忠;;企業(yè)計算機集成制造系統(tǒng)(CIMS)中實體信息編碼方案探討[J];國防技術(shù)基礎(chǔ);2007年06期
2 韓曉光;趙志軍;蔡郁知;;基于MGS平臺的VR-Forces實體信息顯示方法[J];火力與指揮控制;2015年11期
3 謝志平;神經(jīng)系統(tǒng)中心理信息運作過程和機理[J];湖南大學(xué)學(xué)報(自然科學(xué)版);1999年02期
4 朱菁菁;;瑞士郵政發(fā)行首份定制型日報[J];郵政研究;2012年04期
5 吳榮政;檔案與文物[J];貴州檔案;1996年02期
6 江向東;數(shù)字圖書館實體信息資源建設(shè)的版權(quán)問題分析[J];中國圖書館學(xué)報;2004年05期
7 張雪英;葉鵬;王曙;杜咪;;基于深度信念網(wǎng)絡(luò)的地質(zhì)實體識別方法[J];巖石學(xué)報;2018年02期
8 王松林;;信息組織工具論[J];山東圖書館季刊;2008年04期
9 龍素華;AutoCAD形文件的自動生成[J];揚州職業(yè)大學(xué)學(xué)報;1999年03期
10 鄧松;;實體信息集成檢索的深網(wǎng)數(shù)據(jù)源選擇[J];計算機工程;2016年10期
相關(guān)碩士學(xué)位論文 前10條
1 高峰;WEB實體信息的提取算法及其應(yīng)用研究[D];電子科技大學(xué);2018年
2 孫程程;基于協(xié)同搜索的實體信息發(fā)現(xiàn)方法設(shè)計與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2014年
3 尹杰;對象檢索中的實體信息查詢擴展算法研究[D];北京郵電大學(xué);2014年
4 鄭逢強;本體在名實體信息抽取中的應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2009年
5 史晶晶;基于CRF的Web機構(gòu)實體信息抽取系統(tǒng)[D];吉林大學(xué);2011年
6 鐘云;基于圖的中文集成實體鏈接算法研究與實現(xiàn)[D];電子科技大學(xué);2017年
7 黨曉婉;Deep Web環(huán)境下實體的信息抽取與識別研究[D];遼寧大學(xué);2013年
8 周安林;基于Web的實體信息提取和搜索研究[D];電子科技大學(xué);2014年
9 袁金偉;基于網(wǎng)絡(luò)百科的中文實體鏈接研究[D];西南交通大學(xué);2017年
10 賴思超;平面幾何圖像中實體信息的抽取與表示[D];華中師范大學(xué);2017年
本文編號:2862935
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2862935.html