天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

WEB實體信息的提取算法及其應(yīng)用研究

發(fā)布時間:2020-10-30 19:52
   由于互聯(lián)網(wǎng)的高速發(fā)展和普及,互聯(lián)網(wǎng)已經(jīng)成為了一個十分重要的信息源。而許多互聯(lián)網(wǎng)用戶也越來越迫切的希望能夠在浩瀚的互聯(lián)網(wǎng)中高效準(zhǔn)確的找到目標(biāo)主題頁面并對主題頁面實現(xiàn)定制化實體信息提取。傳統(tǒng)的搜索引擎領(lǐng)域中主題爬蟲和垂直爬蟲是獲取特定主題和特定網(wǎng)站數(shù)據(jù)的較為普遍流行的方法,但是主題爬蟲更注重于主題頁面的搜索,往往忽視對頁面信息精確抽取的深入研究,而垂直爬蟲雖然可以對一個網(wǎng)站實現(xiàn)精準(zhǔn)信息抽取,但是其一大弊端就是可移植性較差,無法對不同網(wǎng)站實現(xiàn)通用的爬取,自動化程度較低。經(jīng)典的WEB信息提取方法,雖然在各自適應(yīng)的領(lǐng)域取得一定的成果,但是也都有其適應(yīng)范圍的局限性和提取算法效率低的問題;同時,這些方法基本都只側(cè)重于對目標(biāo)WEB頁面實體信息抽取的研究,而忽略了對目標(biāo)頁面的搜索策略的研究;因此,現(xiàn)有的經(jīng)典WEB實體信息的抽取方法都有其適用范圍和研究范圍的局限性。本文針對垂直爬蟲無法直接移植到其他網(wǎng)站并且程序設(shè)計需要大量人工干預(yù)的弊端,以及經(jīng)典WEB實體信息抽取方法的局限性,提出了一種高效的,且具有高可移植性的WEB實體信息提取算法,而提取算法的研究又包括了主題頁面搜索定位和頁面信息提取兩個部分:(1)在主題頁面搜索定位部分,提出了有監(jiān)督的廣度優(yōu)先網(wǎng)頁帶權(quán)搜索策略,自動識別主題目標(biāo)和目錄頁面URL以及利用URL聚類生成URL正則表達式過濾器,利用正則表達式過濾器廣度優(yōu)先大范圍搜索相關(guān)頁面,同時輔以基于隧道技術(shù)的網(wǎng)頁權(quán)值計算達到有監(jiān)督的最佳優(yōu)先的效果,通過實驗證明本文設(shè)計的搜索策略能夠保證爬蟲充分、快速、準(zhǔn)確的對于主題相關(guān)頁面的定位及下載,具有較高的搜索效率和準(zhǔn)確率。(2)在頁面信息提取部分,結(jié)合多種經(jīng)典WEB信息提取技術(shù)的優(yōu)勢提出了基于配置信息的數(shù)據(jù)解析路徑模板自動生成方法,基于配置信息可以讓爬蟲實現(xiàn)對于定制化WEB實體信息的準(zhǔn)確完整提取,而自動生成數(shù)據(jù)解析路徑模板則可以充分保證信息抽取的高效性和準(zhǔn)確性,并能夠提高自動化程度。利用本文提出的WEB實體信息提取算法的原理,本文設(shè)計實現(xiàn)了一種通用型垂直爬蟲系統(tǒng),該系統(tǒng)的實現(xiàn)是WEB數(shù)據(jù)采集器方面的一個具體應(yīng)用,并且該系統(tǒng)可以在便捷的配置信息后,實現(xiàn)對不同網(wǎng)站的高效、快速、準(zhǔn)確的定制化數(shù)據(jù)爬取,可移植性高且通用性強。同時,也證明了本文提出的WEB實體信息提取算法的合理性和有效性,具有較高的應(yīng)用價值,也豐富了WEB信息抽取領(lǐng)域的理論和應(yīng)用研究。
【學(xué)位單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP393.09;TP391.1
【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 研究背景及意義
    1.2 國內(nèi)外研究現(xiàn)狀
    1.3 本文主要研究內(nèi)容和貢獻
    1.4 本文結(jié)構(gòu)安排
第二章 論文相關(guān)基礎(chǔ)技術(shù)知識介紹
    2.1 網(wǎng)絡(luò)爬蟲技術(shù)概述
        2.1.1 網(wǎng)絡(luò)爬蟲基本流程
        2.1.2 網(wǎng)絡(luò)爬蟲搜索策略
        2.1.3 網(wǎng)絡(luò)爬蟲分類
    2.2 WEB信息提取經(jīng)典技術(shù)概述
        2.2.1 WEB信息提取技術(shù)特點
        2.2.2 WEB信息提取技術(shù)分類
    2.3 本章小結(jié)
第三章 WEB實體信息的提取算法
    3.1 WEB實體信息提取算法的研究基礎(chǔ)和目標(biāo)
        3.1.1 WEB實體信息提取算法的研究基礎(chǔ)
        3.1.2 WEB實體信息提取算法實現(xiàn)目標(biāo)及框架
    3.2 有監(jiān)督的廣度優(yōu)先網(wǎng)頁帶權(quán)搜索策略
        3.2.1 正則表達式
        3.2.2 正則表達式過濾器
            3.2.2.1 URL識別
            3.2.2.2 URL正則表達式生成規(guī)則
            3.2.2.3 URL聚類
        3.2.3 帶權(quán)網(wǎng)頁計算
            3.2.3.1 主題孤島問題
            3.2.3.2 基于隧道技術(shù)的網(wǎng)頁權(quán)值計算
    3.3 數(shù)據(jù)解析路徑模板自動抽取
        3.3.1 數(shù)據(jù)解析路徑模板自動生成提出基礎(chǔ)
        3.3.2 提取目標(biāo)頁面公共節(jié)點路徑模板
        3.3.3 生成精確數(shù)據(jù)解析路徑
    3.4 本章小結(jié)
第四章 通用型垂直爬蟲系統(tǒng)的實現(xiàn)及實驗分析
    4.1 系統(tǒng)設(shè)計與實現(xiàn)
        4.1.1 系統(tǒng)實現(xiàn)基礎(chǔ)技術(shù)介紹
        4.1.2 系統(tǒng)框架和模塊設(shè)計
        4.1.3 系統(tǒng)界面層展示
    4.2 實驗結(jié)果與分析
        4.2.1 實驗環(huán)境和內(nèi)容
        4.2.2 多種類型網(wǎng)站實驗結(jié)果及分析
            4.2.2.1 大眾點評網(wǎng)實驗分析
            4.2.2.2 新浪股票網(wǎng)站實驗分析
            4.2.2.3 搜狐軍事網(wǎng)站實驗分析
            4.2.2.4 新華網(wǎng)論壇實驗分析
        4.2.3 初始化階段實驗結(jié)果及分析
        4.2.4 正式爬取階段與現(xiàn)有技術(shù)實驗對比分析
            4.2.4.1 配置信息便捷性
            4.2.4.2 數(shù)據(jù)爬取效率
            4.2.4.3 數(shù)據(jù)采集完整性
            4.2.4.4 數(shù)據(jù)采集準(zhǔn)確性
    4.3 本章小結(jié)
第五章 總結(jié)與展望
    5.1 全文總結(jié)
    5.2 工作展望
致謝
參考文獻
攻讀碩士期間取得的研究成果

【相似文獻】

相關(guān)期刊論文 前10條

1 鄔建民;高昕忠;;企業(yè)計算機集成制造系統(tǒng)(CIMS)中實體信息編碼方案探討[J];國防技術(shù)基礎(chǔ);2007年06期

2 韓曉光;趙志軍;蔡郁知;;基于MGS平臺的VR-Forces實體信息顯示方法[J];火力與指揮控制;2015年11期

3 謝志平;神經(jīng)系統(tǒng)中心理信息運作過程和機理[J];湖南大學(xué)學(xué)報(自然科學(xué)版);1999年02期

4 朱菁菁;;瑞士郵政發(fā)行首份定制型日報[J];郵政研究;2012年04期

5 吳榮政;檔案與文物[J];貴州檔案;1996年02期

6 江向東;數(shù)字圖書館實體信息資源建設(shè)的版權(quán)問題分析[J];中國圖書館學(xué)報;2004年05期

7 張雪英;葉鵬;王曙;杜咪;;基于深度信念網(wǎng)絡(luò)的地質(zhì)實體識別方法[J];巖石學(xué)報;2018年02期

8 王松林;;信息組織工具論[J];山東圖書館季刊;2008年04期

9 龍素華;AutoCAD形文件的自動生成[J];揚州職業(yè)大學(xué)學(xué)報;1999年03期

10 鄧松;;實體信息集成檢索的深網(wǎng)數(shù)據(jù)源選擇[J];計算機工程;2016年10期


相關(guān)碩士學(xué)位論文 前10條

1 高峰;WEB實體信息的提取算法及其應(yīng)用研究[D];電子科技大學(xué);2018年

2 孫程程;基于協(xié)同搜索的實體信息發(fā)現(xiàn)方法設(shè)計與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2014年

3 尹杰;對象檢索中的實體信息查詢擴展算法研究[D];北京郵電大學(xué);2014年

4 鄭逢強;本體在名實體信息抽取中的應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2009年

5 史晶晶;基于CRF的Web機構(gòu)實體信息抽取系統(tǒng)[D];吉林大學(xué);2011年

6 鐘云;基于圖的中文集成實體鏈接算法研究與實現(xiàn)[D];電子科技大學(xué);2017年

7 黨曉婉;Deep Web環(huán)境下實體的信息抽取與識別研究[D];遼寧大學(xué);2013年

8 周安林;基于Web的實體信息提取和搜索研究[D];電子科技大學(xué);2014年

9 袁金偉;基于網(wǎng)絡(luò)百科的中文實體鏈接研究[D];西南交通大學(xué);2017年

10 賴思超;平面幾何圖像中實體信息的抽取與表示[D];華中師范大學(xué);2017年



本文編號:2862935

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2862935.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶43df0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com