網(wǎng)絡(luò)信息自動(dòng)化高效抽取技術(shù)研究
發(fā)布時(shí)間:2021-03-25 19:56
隨著互聯(lián)網(wǎng)爆炸式的發(fā)展和普及,網(wǎng)絡(luò)信息已經(jīng)成為了一種寶貴的信息數(shù)據(jù)資源。海量的網(wǎng)絡(luò)數(shù)據(jù)使得數(shù)據(jù)分析與挖掘系統(tǒng)進(jìn)入了一個(gè)新時(shí)代,越來(lái)越多的網(wǎng)絡(luò)應(yīng)用系統(tǒng)需要對(duì)來(lái)自不同數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行抽取、挖掘和整合。然而,由于網(wǎng)頁(yè)文檔的半結(jié)構(gòu)化性質(zhì),網(wǎng)頁(yè)上呈現(xiàn)的數(shù)據(jù)往往不能被機(jī)器自動(dòng)地抽取和理解,因此,網(wǎng)絡(luò)信息抽取的研究目標(biāo)在于提取網(wǎng)頁(yè)的結(jié)構(gòu)化數(shù)據(jù);ヂ(lián)網(wǎng)數(shù)據(jù)的海量規(guī)模與高度異構(gòu)的特征,為網(wǎng)絡(luò)信息抽取工作帶來(lái)了巨大的挑戰(zhàn)。本文圍繞網(wǎng)絡(luò)信息的海量規(guī)模與高度異構(gòu)的特征,分?jǐn)?shù)據(jù)記錄抽取和數(shù)據(jù)單元抽取兩個(gè)層次,對(duì)自動(dòng)化、高效抽取網(wǎng)絡(luò)信息的技術(shù)展開(kāi)了相關(guān)研究,研究?jī)?nèi)容包括以下四個(gè)方面:1.針對(duì)網(wǎng)絡(luò)信息高度異構(gòu)的特點(diǎn),提出新的自動(dòng)化的基于錨點(diǎn)樹(shù)的數(shù)據(jù)記錄的抽取方法(Mining data records Based on Anchor Trees,MiBAT)。首先分析了當(dāng)數(shù)據(jù)記錄含有一定的不規(guī)則內(nèi)容時(shí)(例如用戶原創(chuàng)內(nèi)容)時(shí),現(xiàn)有的基于相似度檢測(cè)的自動(dòng)化方法并不能取得理想的抽取效果。本文提出錨點(diǎn)的概念,對(duì)應(yīng)數(shù)據(jù)記錄中的某些關(guān)鍵的數(shù)據(jù)單元。例如,每個(gè)用戶創(chuàng)建、發(fā)表的帖子記錄(例如在線論壇帖子、用戶評(píng)論等)都含有發(fā)...
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:127 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景和意義
1.2 網(wǎng)絡(luò)信息抽取的相關(guān)概念
1.2.1 HTML網(wǎng)頁(yè)與DOM樹(shù)
1.2.2 樹(shù)匹配與標(biāo)簽路徑
1.3 網(wǎng)絡(luò)信息抽取的研究現(xiàn)狀
1.3.1 相關(guān)工作分類(lèi)
1.3.2 人工化方法
1.3.3 半自動(dòng)化方法
1.3.4 全自動(dòng)化方法
1.3.5 綜合對(duì)比與總結(jié)
1.4 論文主要研究?jī)?nèi)容
1.4.1 問(wèn)題定義
1.4.2 研究綜述
第2章 基于錨點(diǎn)樹(shù)的數(shù)據(jù)記錄抽取方法
2.1 引言
2.2 MiBAT綜述
2.3 基于枚舉子樹(shù)的錨點(diǎn)樹(shù)尋找方法
2.3.1 樹(shù)結(jié)構(gòu)相似度檢測(cè)準(zhǔn)則
2.3.2 基于枚舉子樹(shù)的錨點(diǎn)樹(shù)尋找算法
2.3.3 時(shí)間復(fù)雜度分析
2.4 確定數(shù)據(jù)記錄邊界
2.4.1 數(shù)據(jù)記錄邊界的三種情形
2.4.2 數(shù)據(jù)記錄邊界確定算法
2.4.3 時(shí)間復(fù)雜度分析
2.5 論壇帖子抽取實(shí)驗(yàn)
2.5.1 數(shù)據(jù)集
2.5.2 主要區(qū)域選擇
2.5.3 評(píng)測(cè)指標(biāo)
2.5.4 基準(zhǔn)方法
2.5.5 評(píng)測(cè)結(jié)果
2.5.6 實(shí)例分析
2.6 博客與點(diǎn)評(píng)網(wǎng)站的用戶評(píng)論抽取實(shí)驗(yàn)
2.7 與監(jiān)督學(xué)習(xí)方法的對(duì)比實(shí)驗(yàn)
2.8 本章小結(jié)
第3章 錨點(diǎn)樹(shù)的快速尋找方法
3.1 引言
3.2 基于標(biāo)簽路徑聚集的錨點(diǎn)樹(shù)尋找方法
3.2.1 基于標(biāo)簽路徑聚集的錨點(diǎn)樹(shù)尋找算法
3.2.2 時(shí)間復(fù)雜度分析
3.2.3 引入錨點(diǎn)的兄弟結(jié)點(diǎn)約束
3.3 兩種錨點(diǎn)樹(shù)尋找算法的比較
3.3.1 相似性衡量方法
3.3.2 算法過(guò)程和時(shí)間復(fù)雜度
3.3.3 錨點(diǎn)解釋方法
3.3.4 MiBAT的整體時(shí)間復(fù)雜度
3.4 兩種MiBAT方法的對(duì)比實(shí)驗(yàn)
3.4.1 運(yùn)行效率對(duì)比
3.4.2 抽取準(zhǔn)確度對(duì)比
3.5 本章小結(jié)
第4章 通用錨點(diǎn)的檢測(cè)方法
4.1 引言
4.2 通用錨點(diǎn)
4.2.1 通用錨點(diǎn)的定義
4.2.2 基于通用錨點(diǎn)的錨點(diǎn)樹(shù)尋找方法
4.2.3 通用錨點(diǎn)與領(lǐng)域錨點(diǎn)的比較
4.3 實(shí)驗(yàn)
4.3.1 通用錨點(diǎn)的計(jì)算設(shè)置
4.3.2 兩種錨點(diǎn)抽取效果對(duì)比
4.3.3 抽取搜索結(jié)果記錄
4.3.4 基于實(shí)例比較MiBAT的不同變體方法
4.4 本章小結(jié)
第5章 DOM樹(shù)的快速匹配方法
5.1 引言
5.2 基于哈希標(biāo)簽路徑
5.2.1 基于哈希標(biāo)簽路徑的樹(shù)匹配算法
5.2.2 時(shí)間復(fù)雜度分析
5.2.3 匹配結(jié)果分析
5.3 基于標(biāo)簽路徑序列最長(zhǎng)公共子列
5.3.1 基于標(biāo)簽路徑序列最長(zhǎng)公共子列的樹(shù)匹配算法
5.3.2 時(shí)間復(fù)雜度分析
5.3.3 匹配結(jié)果分析
5.4 實(shí)驗(yàn)
5.4.1 實(shí)驗(yàn)設(shè)置
5.4.2 算法運(yùn)行效率對(duì)比
5.4.3 樹(shù)匹配準(zhǔn)確度對(duì)比
5.4.4 數(shù)據(jù)單元對(duì)齊準(zhǔn)確度對(duì)比
5.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀博士學(xué)位期間發(fā)表的論文及其他成果
致謝
個(gè)人簡(jiǎn)歷
【參考文獻(xiàn)】:
期刊論文
[1]基于智能的網(wǎng)頁(yè)信息提取系統(tǒng)的研究與設(shè)計(jì)[J]. 劉亞?wèn)|,彭艦,張達(dá)平. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版). 2009(04)
[2]基于模板的Web信息自動(dòng)提取方法[J]. 鄭長(zhǎng)松,傅彥,佘莉. 計(jì)算機(jī)應(yīng)用研究. 2009(02)
[3]針對(duì)模板生成網(wǎng)頁(yè)的一種數(shù)據(jù)自動(dòng)抽取方法(英文)[J]. 楊少華,林海略,韓燕波. 軟件學(xué)報(bào). 2008(02)
[4]一種全自動(dòng)生成網(wǎng)頁(yè)信息抽取Wrapper的方法[J]. 梅雪,程學(xué)旗,郭巖,張剛,丁國(guó)棟. 中文信息學(xué)報(bào). 2008(01)
[5]基于DOM的Web信息提取[J]. 李效東,顧毓清. 計(jì)算機(jī)學(xué)報(bào). 2002(05)
[6]基于樣本實(shí)例的Web信息抽取[J]. 張紹華,徐林昊,楊文柱,薛文玲,李天柱. 河北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2001(04)
[7]XWIS中基于預(yù)定義模式的包裝器[J]. 孟小峰,王海燕,谷明哲,王靜. 計(jì)算機(jī)應(yīng)用. 2001(09)
[8]基于多層模式的多記錄網(wǎng)頁(yè)信息抽取方法[J]. 朱明,王軍,王俊普. 計(jì)算機(jī)工程. 2001(09)
本文編號(hào):3100231
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:127 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景和意義
1.2 網(wǎng)絡(luò)信息抽取的相關(guān)概念
1.2.1 HTML網(wǎng)頁(yè)與DOM樹(shù)
1.2.2 樹(shù)匹配與標(biāo)簽路徑
1.3 網(wǎng)絡(luò)信息抽取的研究現(xiàn)狀
1.3.1 相關(guān)工作分類(lèi)
1.3.2 人工化方法
1.3.3 半自動(dòng)化方法
1.3.4 全自動(dòng)化方法
1.3.5 綜合對(duì)比與總結(jié)
1.4 論文主要研究?jī)?nèi)容
1.4.1 問(wèn)題定義
1.4.2 研究綜述
第2章 基于錨點(diǎn)樹(shù)的數(shù)據(jù)記錄抽取方法
2.1 引言
2.2 MiBAT綜述
2.3 基于枚舉子樹(shù)的錨點(diǎn)樹(shù)尋找方法
2.3.1 樹(shù)結(jié)構(gòu)相似度檢測(cè)準(zhǔn)則
2.3.2 基于枚舉子樹(shù)的錨點(diǎn)樹(shù)尋找算法
2.3.3 時(shí)間復(fù)雜度分析
2.4 確定數(shù)據(jù)記錄邊界
2.4.1 數(shù)據(jù)記錄邊界的三種情形
2.4.2 數(shù)據(jù)記錄邊界確定算法
2.4.3 時(shí)間復(fù)雜度分析
2.5 論壇帖子抽取實(shí)驗(yàn)
2.5.1 數(shù)據(jù)集
2.5.2 主要區(qū)域選擇
2.5.3 評(píng)測(cè)指標(biāo)
2.5.4 基準(zhǔn)方法
2.5.5 評(píng)測(cè)結(jié)果
2.5.6 實(shí)例分析
2.6 博客與點(diǎn)評(píng)網(wǎng)站的用戶評(píng)論抽取實(shí)驗(yàn)
2.7 與監(jiān)督學(xué)習(xí)方法的對(duì)比實(shí)驗(yàn)
2.8 本章小結(jié)
第3章 錨點(diǎn)樹(shù)的快速尋找方法
3.1 引言
3.2 基于標(biāo)簽路徑聚集的錨點(diǎn)樹(shù)尋找方法
3.2.1 基于標(biāo)簽路徑聚集的錨點(diǎn)樹(shù)尋找算法
3.2.2 時(shí)間復(fù)雜度分析
3.2.3 引入錨點(diǎn)的兄弟結(jié)點(diǎn)約束
3.3 兩種錨點(diǎn)樹(shù)尋找算法的比較
3.3.1 相似性衡量方法
3.3.2 算法過(guò)程和時(shí)間復(fù)雜度
3.3.3 錨點(diǎn)解釋方法
3.3.4 MiBAT的整體時(shí)間復(fù)雜度
3.4 兩種MiBAT方法的對(duì)比實(shí)驗(yàn)
3.4.1 運(yùn)行效率對(duì)比
3.4.2 抽取準(zhǔn)確度對(duì)比
3.5 本章小結(jié)
第4章 通用錨點(diǎn)的檢測(cè)方法
4.1 引言
4.2 通用錨點(diǎn)
4.2.1 通用錨點(diǎn)的定義
4.2.2 基于通用錨點(diǎn)的錨點(diǎn)樹(shù)尋找方法
4.2.3 通用錨點(diǎn)與領(lǐng)域錨點(diǎn)的比較
4.3 實(shí)驗(yàn)
4.3.1 通用錨點(diǎn)的計(jì)算設(shè)置
4.3.2 兩種錨點(diǎn)抽取效果對(duì)比
4.3.3 抽取搜索結(jié)果記錄
4.3.4 基于實(shí)例比較MiBAT的不同變體方法
4.4 本章小結(jié)
第5章 DOM樹(shù)的快速匹配方法
5.1 引言
5.2 基于哈希標(biāo)簽路徑
5.2.1 基于哈希標(biāo)簽路徑的樹(shù)匹配算法
5.2.2 時(shí)間復(fù)雜度分析
5.2.3 匹配結(jié)果分析
5.3 基于標(biāo)簽路徑序列最長(zhǎng)公共子列
5.3.1 基于標(biāo)簽路徑序列最長(zhǎng)公共子列的樹(shù)匹配算法
5.3.2 時(shí)間復(fù)雜度分析
5.3.3 匹配結(jié)果分析
5.4 實(shí)驗(yàn)
5.4.1 實(shí)驗(yàn)設(shè)置
5.4.2 算法運(yùn)行效率對(duì)比
5.4.3 樹(shù)匹配準(zhǔn)確度對(duì)比
5.4.4 數(shù)據(jù)單元對(duì)齊準(zhǔn)確度對(duì)比
5.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀博士學(xué)位期間發(fā)表的論文及其他成果
致謝
個(gè)人簡(jiǎn)歷
【參考文獻(xiàn)】:
期刊論文
[1]基于智能的網(wǎng)頁(yè)信息提取系統(tǒng)的研究與設(shè)計(jì)[J]. 劉亞?wèn)|,彭艦,張達(dá)平. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版). 2009(04)
[2]基于模板的Web信息自動(dòng)提取方法[J]. 鄭長(zhǎng)松,傅彥,佘莉. 計(jì)算機(jī)應(yīng)用研究. 2009(02)
[3]針對(duì)模板生成網(wǎng)頁(yè)的一種數(shù)據(jù)自動(dòng)抽取方法(英文)[J]. 楊少華,林海略,韓燕波. 軟件學(xué)報(bào). 2008(02)
[4]一種全自動(dòng)生成網(wǎng)頁(yè)信息抽取Wrapper的方法[J]. 梅雪,程學(xué)旗,郭巖,張剛,丁國(guó)棟. 中文信息學(xué)報(bào). 2008(01)
[5]基于DOM的Web信息提取[J]. 李效東,顧毓清. 計(jì)算機(jī)學(xué)報(bào). 2002(05)
[6]基于樣本實(shí)例的Web信息抽取[J]. 張紹華,徐林昊,楊文柱,薛文玲,李天柱. 河北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2001(04)
[7]XWIS中基于預(yù)定義模式的包裝器[J]. 孟小峰,王海燕,谷明哲,王靜. 計(jì)算機(jī)應(yīng)用. 2001(09)
[8]基于多層模式的多記錄網(wǎng)頁(yè)信息抽取方法[J]. 朱明,王軍,王俊普. 計(jì)算機(jī)工程. 2001(09)
本文編號(hào):3100231
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3100231.html
最近更新
教材專(zhuān)著