當(dāng)前位置：主頁 > 管理論文 > 移動網(wǎng)絡(luò)論文 >

網(wǎng)絡(luò)信息自動化高效抽取技術(shù)研究

發(fā)布時(shí)間：2021-03-25 19:56

　　隨著互聯(lián)網(wǎng)爆炸式的發(fā)展和普及，網(wǎng)絡(luò)信息已經(jīng)成為了一種寶貴的信息數(shù)據(jù)資源。海量的網(wǎng)絡(luò)數(shù)據(jù)使得數(shù)據(jù)分析與挖掘系統(tǒng)進(jìn)入了一個(gè)新時(shí)代，越來越多的網(wǎng)絡(luò)應(yīng)用系統(tǒng)需要對來自不同數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行抽取、挖掘和整合。然而，由于網(wǎng)頁文檔的半結(jié)構(gòu)化性質(zhì)，網(wǎng)頁上呈現(xiàn)的數(shù)據(jù)往往不能被機(jī)器自動地抽取和理解，因此，網(wǎng)絡(luò)信息抽取的研究目標(biāo)在于提取網(wǎng)頁的結(jié)構(gòu)化數(shù)據(jù)�；ヂ�(lián)網(wǎng)數(shù)據(jù)的海量規(guī)模與高度異構(gòu)的特征，為網(wǎng)絡(luò)信息抽取工作帶來了巨大的挑戰(zhàn)。本文圍繞網(wǎng)絡(luò)信息的海量規(guī)模與高度異構(gòu)的特征，分?jǐn)?shù)據(jù)記錄抽取和數(shù)據(jù)單元抽取兩個(gè)層次，對自動化、高效抽取網(wǎng)絡(luò)信息的技術(shù)展開了相關(guān)研究，研究內(nèi)容包括以下四個(gè)方面：1.針對網(wǎng)絡(luò)信息高度異構(gòu)的特點(diǎn)，提出新的自動化的基于錨點(diǎn)樹的數(shù)據(jù)記錄的抽取方法（Mining data records Based on Anchor Trees，MiBAT）。首先分析了當(dāng)數(shù)據(jù)記錄含有一定的不規(guī)則內(nèi)容時(shí)（例如用戶原創(chuàng)內(nèi)容）時(shí)，現(xiàn)有的基于相似度檢測的自動化方法并不能取得理想的抽取效果。本文提出錨點(diǎn)的概念，對應(yīng)數(shù)據(jù)記錄中的某些關(guān)鍵的數(shù)據(jù)單元。例如，每個(gè)用戶創(chuàng)建、發(fā)表的帖子記錄（例如在線論壇帖子、用戶評論等）都含有發(fā)...

【文章來源】：哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】：127 頁

【學(xué)位級別】：博士

【文章目錄】：
摘要
ABSTRACT
第1章緒論
    1.1 研究背景和意義
    1.2 網(wǎng)絡(luò)信息抽取的相關(guān)概念
        1.2.1 HTML網(wǎng)頁與DOM樹
        1.2.2 樹匹配與標(biāo)簽路徑
    1.3 網(wǎng)絡(luò)信息抽取的研究現(xiàn)狀
        1.3.1 相關(guān)工作分類
        1.3.2 人工化方法
        1.3.3 半自動化方法
        1.3.4 全自動化方法
        1.3.5 綜合對比與總結(jié)
    1.4 論文主要研究內(nèi)容
        1.4.1 問題定義
        1.4.2 研究綜述
第2章基于錨點(diǎn)樹的數(shù)據(jù)記錄抽取方法
    2.1 引言
    2.2 MiBAT綜述
    2.3 基于枚舉子樹的錨點(diǎn)樹尋找方法
        2.3.1 樹結(jié)構(gòu)相似度檢測準(zhǔn)則
        2.3.2 基于枚舉子樹的錨點(diǎn)樹尋找算法
        2.3.3 時(shí)間復(fù)雜度分析
    2.4 確定數(shù)據(jù)記錄邊界
        2.4.1 數(shù)據(jù)記錄邊界的三種情形
        2.4.2 數(shù)據(jù)記錄邊界確定算法
        2.4.3 時(shí)間復(fù)雜度分析
    2.5 論壇帖子抽取實(shí)驗(yàn)
        2.5.1 數(shù)據(jù)集
        2.5.2 主要區(qū)域選擇
        2.5.3 評測指標(biāo)
        2.5.4 基準(zhǔn)方法
        2.5.5 評測結(jié)果
        2.5.6 實(shí)例分析
    2.6 博客與點(diǎn)評網(wǎng)站的用戶評論抽取實(shí)驗(yàn)
    2.7 與監(jiān)督學(xué)習(xí)方法的對比實(shí)驗(yàn)
    2.8 本章小結(jié)
第3章錨點(diǎn)樹的快速尋找方法
    3.1 引言
    3.2 基于標(biāo)簽路徑聚集的錨點(diǎn)樹尋找方法
        3.2.1 基于標(biāo)簽路徑聚集的錨點(diǎn)樹尋找算法
        3.2.2 時(shí)間復(fù)雜度分析
        3.2.3 引入錨點(diǎn)的兄弟結(jié)點(diǎn)約束
    3.3 兩種錨點(diǎn)樹尋找算法的比較
        3.3.1 相似性衡量方法
        3.3.2 算法過程和時(shí)間復(fù)雜度
        3.3.3 錨點(diǎn)解釋方法
        3.3.4 MiBAT的整體時(shí)間復(fù)雜度
    3.4 兩種MiBAT方法的對比實(shí)驗(yàn)
        3.4.1 運(yùn)行效率對比
        3.4.2 抽取準(zhǔn)確度對比
    3.5 本章小結(jié)
第4章通用錨點(diǎn)的檢測方法
    4.1 引言
    4.2 通用錨點(diǎn)
        4.2.1 通用錨點(diǎn)的定義
        4.2.2 基于通用錨點(diǎn)的錨點(diǎn)樹尋找方法
        4.2.3 通用錨點(diǎn)與領(lǐng)域錨點(diǎn)的比較
    4.3 實(shí)驗(yàn)
        4.3.1 通用錨點(diǎn)的計(jì)算設(shè)置
        4.3.2 兩種錨點(diǎn)抽取效果對比
        4.3.3 抽取搜索結(jié)果記錄
        4.3.4 基于實(shí)例比較MiBAT的不同變體方法
    4.4 本章小結(jié)
第5章 DOM樹的快速匹配方法
    5.1 引言
    5.2 基于哈希標(biāo)簽路徑
        5.2.1 基于哈希標(biāo)簽路徑的樹匹配算法
        5.2.2 時(shí)間復(fù)雜度分析
        5.2.3 匹配結(jié)果分析
    5.3 基于標(biāo)簽路徑序列最長公共子列
        5.3.1 基于標(biāo)簽路徑序列最長公共子列的樹匹配算法
        5.3.2 時(shí)間復(fù)雜度分析
        5.3.3 匹配結(jié)果分析
    5.4 實(shí)驗(yàn)
        5.4.1 實(shí)驗(yàn)設(shè)置
        5.4.2 算法運(yùn)行效率對比
        5.4.3 樹匹配準(zhǔn)確度對比
        5.4.4 數(shù)據(jù)單元對齊準(zhǔn)確度對比
    5.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀博士學(xué)位期間發(fā)表的論文及其他成果
致謝
個(gè)人簡歷

【參考文獻(xiàn)】：
期刊論文
[1]基于智能的網(wǎng)頁信息提取系統(tǒng)的研究與設(shè)計(jì)[J]. 劉亞東,彭艦,張達(dá)平.  四川大學(xué)學(xué)報(bào)(自然科學(xué)版). 2009(04)
[2]基于模板的Web信息自動提取方法[J]. 鄭長松,傅彥,佘莉.  計(jì)算機(jī)應(yīng)用研究. 2009(02)
[3]針對模板生成網(wǎng)頁的一種數(shù)據(jù)自動抽取方法(英文)[J]. 楊少華,林海略,韓燕波.  軟件學(xué)報(bào). 2008(02)
[4]一種全自動生成網(wǎng)頁信息抽取Wrapper的方法[J]. 梅雪,程學(xué)旗,郭巖,張剛,丁國棟.  中文信息學(xué)報(bào). 2008(01)
[5]基于DOM的Web信息提取[J]. 李效東,顧毓清.  計(jì)算機(jī)學(xué)報(bào). 2002(05)
[6]基于樣本實(shí)例的Web信息抽取[J]. 張紹華,徐林昊,楊文柱,薛文玲,李天柱.  河北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2001(04)
[7]XWIS中基于預(yù)定義模式的包裝器[J]. 孟小峰,王海燕,谷明哲,王靜.  計(jì)算機(jī)應(yīng)用. 2001(09)
[8]基于多層模式的多記錄網(wǎng)頁信息抽取方法[J]. 朱明,王軍,王俊普.  計(jì)算機(jī)工程. 2001(09)

本文編號：3100231

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/3100231.html

上一篇：基于期望確認(rèn)模型的視頻網(wǎng)站持續(xù)使用研究
下一篇：基于大數(shù)據(jù)的電力信息系統(tǒng)網(wǎng)絡(luò)安全分析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

網(wǎng)絡(luò)信息自動化高效抽取技術(shù)研究