天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

網(wǎng)絡(luò)信息自動(dòng)化高效抽取技術(shù)研究

發(fā)布時(shí)間:2021-03-25 19:56
  隨著互聯(lián)網(wǎng)爆炸式的發(fā)展和普及,網(wǎng)絡(luò)信息已經(jīng)成為了一種寶貴的信息數(shù)據(jù)資源。海量的網(wǎng)絡(luò)數(shù)據(jù)使得數(shù)據(jù)分析與挖掘系統(tǒng)進(jìn)入了一個(gè)新時(shí)代,越來(lái)越多的網(wǎng)絡(luò)應(yīng)用系統(tǒng)需要對(duì)來(lái)自不同數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行抽取、挖掘和整合。然而,由于網(wǎng)頁(yè)文檔的半結(jié)構(gòu)化性質(zhì),網(wǎng)頁(yè)上呈現(xiàn)的數(shù)據(jù)往往不能被機(jī)器自動(dòng)地抽取和理解,因此,網(wǎng)絡(luò)信息抽取的研究目標(biāo)在于提取網(wǎng)頁(yè)的結(jié)構(gòu)化數(shù)據(jù);ヂ(lián)網(wǎng)數(shù)據(jù)的海量規(guī)模與高度異構(gòu)的特征,為網(wǎng)絡(luò)信息抽取工作帶來(lái)了巨大的挑戰(zhàn)。本文圍繞網(wǎng)絡(luò)信息的海量規(guī)模與高度異構(gòu)的特征,分?jǐn)?shù)據(jù)記錄抽取和數(shù)據(jù)單元抽取兩個(gè)層次,對(duì)自動(dòng)化、高效抽取網(wǎng)絡(luò)信息的技術(shù)展開(kāi)了相關(guān)研究,研究?jī)?nèi)容包括以下四個(gè)方面:1.針對(duì)網(wǎng)絡(luò)信息高度異構(gòu)的特點(diǎn),提出新的自動(dòng)化的基于錨點(diǎn)樹(shù)的數(shù)據(jù)記錄的抽取方法(Mining data records Based on Anchor Trees,MiBAT)。首先分析了當(dāng)數(shù)據(jù)記錄含有一定的不規(guī)則內(nèi)容時(shí)(例如用戶原創(chuàng)內(nèi)容)時(shí),現(xiàn)有的基于相似度檢測(cè)的自動(dòng)化方法并不能取得理想的抽取效果。本文提出錨點(diǎn)的概念,對(duì)應(yīng)數(shù)據(jù)記錄中的某些關(guān)鍵的數(shù)據(jù)單元。例如,每個(gè)用戶創(chuàng)建、發(fā)表的帖子記錄(例如在線論壇帖子、用戶評(píng)論等)都含有發(fā)... 

【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁(yè)數(shù)】:127 頁(yè)

【學(xué)位級(jí)別】:博士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 研究背景和意義
    1.2 網(wǎng)絡(luò)信息抽取的相關(guān)概念
        1.2.1 HTML網(wǎng)頁(yè)與DOM樹(shù)
        1.2.2 樹(shù)匹配與標(biāo)簽路徑
    1.3 網(wǎng)絡(luò)信息抽取的研究現(xiàn)狀
        1.3.1 相關(guān)工作分類(lèi)
        1.3.2 人工化方法
        1.3.3 半自動(dòng)化方法
        1.3.4 全自動(dòng)化方法
        1.3.5 綜合對(duì)比與總結(jié)
    1.4 論文主要研究?jī)?nèi)容
        1.4.1 問(wèn)題定義
        1.4.2 研究綜述
第2章 基于錨點(diǎn)樹(shù)的數(shù)據(jù)記錄抽取方法
    2.1 引言
    2.2 MiBAT綜述
    2.3 基于枚舉子樹(shù)的錨點(diǎn)樹(shù)尋找方法
        2.3.1 樹(shù)結(jié)構(gòu)相似度檢測(cè)準(zhǔn)則
        2.3.2 基于枚舉子樹(shù)的錨點(diǎn)樹(shù)尋找算法
        2.3.3 時(shí)間復(fù)雜度分析
    2.4 確定數(shù)據(jù)記錄邊界
        2.4.1 數(shù)據(jù)記錄邊界的三種情形
        2.4.2 數(shù)據(jù)記錄邊界確定算法
        2.4.3 時(shí)間復(fù)雜度分析
    2.5 論壇帖子抽取實(shí)驗(yàn)
        2.5.1 數(shù)據(jù)集
        2.5.2 主要區(qū)域選擇
        2.5.3 評(píng)測(cè)指標(biāo)
        2.5.4 基準(zhǔn)方法
        2.5.5 評(píng)測(cè)結(jié)果
        2.5.6 實(shí)例分析
    2.6 博客與點(diǎn)評(píng)網(wǎng)站的用戶評(píng)論抽取實(shí)驗(yàn)
    2.7 與監(jiān)督學(xué)習(xí)方法的對(duì)比實(shí)驗(yàn)
    2.8 本章小結(jié)
第3章 錨點(diǎn)樹(shù)的快速尋找方法
    3.1 引言
    3.2 基于標(biāo)簽路徑聚集的錨點(diǎn)樹(shù)尋找方法
        3.2.1 基于標(biāo)簽路徑聚集的錨點(diǎn)樹(shù)尋找算法
        3.2.2 時(shí)間復(fù)雜度分析
        3.2.3 引入錨點(diǎn)的兄弟結(jié)點(diǎn)約束
    3.3 兩種錨點(diǎn)樹(shù)尋找算法的比較
        3.3.1 相似性衡量方法
        3.3.2 算法過(guò)程和時(shí)間復(fù)雜度
        3.3.3 錨點(diǎn)解釋方法
        3.3.4 MiBAT的整體時(shí)間復(fù)雜度
    3.4 兩種MiBAT方法的對(duì)比實(shí)驗(yàn)
        3.4.1 運(yùn)行效率對(duì)比
        3.4.2 抽取準(zhǔn)確度對(duì)比
    3.5 本章小結(jié)
第4章 通用錨點(diǎn)的檢測(cè)方法
    4.1 引言
    4.2 通用錨點(diǎn)
        4.2.1 通用錨點(diǎn)的定義
        4.2.2 基于通用錨點(diǎn)的錨點(diǎn)樹(shù)尋找方法
        4.2.3 通用錨點(diǎn)與領(lǐng)域錨點(diǎn)的比較
    4.3 實(shí)驗(yàn)
        4.3.1 通用錨點(diǎn)的計(jì)算設(shè)置
        4.3.2 兩種錨點(diǎn)抽取效果對(duì)比
        4.3.3 抽取搜索結(jié)果記錄
        4.3.4 基于實(shí)例比較MiBAT的不同變體方法
    4.4 本章小結(jié)
第5章 DOM樹(shù)的快速匹配方法
    5.1 引言
    5.2 基于哈希標(biāo)簽路徑
        5.2.1 基于哈希標(biāo)簽路徑的樹(shù)匹配算法
        5.2.2 時(shí)間復(fù)雜度分析
        5.2.3 匹配結(jié)果分析
    5.3 基于標(biāo)簽路徑序列最長(zhǎng)公共子列
        5.3.1 基于標(biāo)簽路徑序列最長(zhǎng)公共子列的樹(shù)匹配算法
        5.3.2 時(shí)間復(fù)雜度分析
        5.3.3 匹配結(jié)果分析
    5.4 實(shí)驗(yàn)
        5.4.1 實(shí)驗(yàn)設(shè)置
        5.4.2 算法運(yùn)行效率對(duì)比
        5.4.3 樹(shù)匹配準(zhǔn)確度對(duì)比
        5.4.4 數(shù)據(jù)單元對(duì)齊準(zhǔn)確度對(duì)比
    5.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀博士學(xué)位期間發(fā)表的論文及其他成果
致謝
個(gè)人簡(jiǎn)歷


【參考文獻(xiàn)】:
期刊論文
[1]基于智能的網(wǎng)頁(yè)信息提取系統(tǒng)的研究與設(shè)計(jì)[J]. 劉亞?wèn)|,彭艦,張達(dá)平.  四川大學(xué)學(xué)報(bào)(自然科學(xué)版). 2009(04)
[2]基于模板的Web信息自動(dòng)提取方法[J]. 鄭長(zhǎng)松,傅彥,佘莉.  計(jì)算機(jī)應(yīng)用研究. 2009(02)
[3]針對(duì)模板生成網(wǎng)頁(yè)的一種數(shù)據(jù)自動(dòng)抽取方法(英文)[J]. 楊少華,林海略,韓燕波.  軟件學(xué)報(bào). 2008(02)
[4]一種全自動(dòng)生成網(wǎng)頁(yè)信息抽取Wrapper的方法[J]. 梅雪,程學(xué)旗,郭巖,張剛,丁國(guó)棟.  中文信息學(xué)報(bào). 2008(01)
[5]基于DOM的Web信息提取[J]. 李效東,顧毓清.  計(jì)算機(jī)學(xué)報(bào). 2002(05)
[6]基于樣本實(shí)例的Web信息抽取[J]. 張紹華,徐林昊,楊文柱,薛文玲,李天柱.  河北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2001(04)
[7]XWIS中基于預(yù)定義模式的包裝器[J]. 孟小峰,王海燕,谷明哲,王靜.  計(jì)算機(jī)應(yīng)用. 2001(09)
[8]基于多層模式的多記錄網(wǎng)頁(yè)信息抽取方法[J]. 朱明,王軍,王俊普.  計(jì)算機(jī)工程. 2001(09)



本文編號(hào):3100231

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3100231.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6dfc9***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
欧美又黑又粗大又硬又爽| 草草视频福利在线观看| 国产视频福利一区二区| 国产精品九九九一区二区| 日韩人妻一区二区欧美| 嫩呦国产一区二区三区av| 国产精品不卡免费视频| 亚洲中文字幕在线综合视频| 91亚洲人人在字幕国产| 高清在线精品一区二区| 好吊色欧美一区二区三区顽频| 丝袜视频日本成人午夜视频| 日韩中文字幕有码午夜美女| 狠狠做五月深爱婷婷综合| 久久永久免费一区二区| 可以在线看的欧美黄片| 日本av一区二区不卡| 日本婷婷色大香蕉视频在线观看 | 日本欧美一区二区三区在线播| 偷拍偷窥女厕一区二区视频| 五月综合激情婷婷丁香| 一区二区三区日韩中文| 国产精品欧美一区两区| 好吊视频一区二区在线| 欧美加勒比一区二区三区| 情一色一区二区三区四| 欧美日韩久久精品一区二区 | 欧美在线观看视频三区| 丝袜av一区二区三区四区五区| 日本黄色高清视频久久| 亚洲欧美黑人一区二区| 国产高清一区二区白浆| 国产一级精品色特级色国产| 欧美自拍系列精品在线| 日本高清不卡在线一区| 亚洲精品美女三级完整版视频| 色综合伊人天天综合网中文| 中文字幕人妻一区二区免费| 高中女厕偷拍一区二区三区 | 亚洲中文字幕人妻系列| 少妇毛片一区二区三区|