基于主題的增量網(wǎng)頁(yè)并行爬取問(wèn)題研究
發(fā)布時(shí)間:2023-01-11 04:48
隨著互聯(lián)網(wǎng)技術(shù)日新月異的發(fā)展,Web已經(jīng)成為一個(gè)巨大的、分布廣泛的信息源。為了有效地利用這些信息,需要從多個(gè)不同的信息源中將Web頁(yè)面爬取下來(lái),經(jīng)過(guò)信息抽取、信息融合等環(huán)節(jié),存儲(chǔ)到本地?cái)?shù)據(jù)庫(kù)中,為市場(chǎng)情報(bào)分析等應(yīng)用提供支持,這個(gè)過(guò)程稱為數(shù)據(jù)集成。然而,Web數(shù)據(jù)具有規(guī)模宏大、異構(gòu)性、自治性、動(dòng)態(tài)變化等特點(diǎn),這使得Web數(shù)據(jù)自動(dòng)化集成成為一項(xiàng)極具挑戰(zhàn)性的研究課題。Web數(shù)據(jù)爬取是Web數(shù)據(jù)集成的關(guān)鍵問(wèn)題之一,是數(shù)據(jù)集成的基礎(chǔ)。 由于Web數(shù)據(jù)量的迅猛增長(zhǎng),通過(guò)單個(gè)普通爬蟲在合理的時(shí)間內(nèi)獲取足夠多的有效信息非常困難,因此,基于主題的增量網(wǎng)頁(yè)并行爬取引起了國(guó)內(nèi)外研究者的廣泛關(guān)注,它不僅可以同時(shí)爬取多個(gè)相關(guān)主題的頁(yè)面,而且增量爬取保證了頁(yè)面的時(shí)新性,并行的爬取架構(gòu)保證了頁(yè)面的獲取時(shí)間。本文針對(duì)其中存在的關(guān)鍵問(wèn)題展開研究,主要工作與貢獻(xiàn)概括如下: 1.針對(duì)Deep Web增量獲取過(guò)程中查詢?cè)~的提交問(wèn)題,本文提出了基于增量采新率模型的Deep Web增量獲取方法 利用之前進(jìn)行過(guò)的Deep web的多次全部爬取返回的結(jié)果記錄構(gòu)建增量記錄集合,基于這些增量記錄,采用機(jī)器學(xué)習(xí)方法獲得了...
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景及意義
1.2 研究?jī)?nèi)容
1.3 論文貢獻(xiàn)
1.4 論文組織結(jié)構(gòu)
第2章 基于主題的增量網(wǎng)頁(yè)并行爬取問(wèn)題的相關(guān)研究
2.1 引言
2.2 爬蟲種類
2.3 增量爬取
2.3.1 Surface Web增量爬取
2.3.2 Deep Web增量爬取
2.4 并行爬取
2.5 小結(jié)
第3章 基于增量采新率模型的Deep Web增量獲取方法
3.1 引言
3.2 Web數(shù)據(jù)庫(kù)版本
3.3 集合覆蓋模型
3.4 基于IHM的Deep Web增量獲取方法
3.4.1 IHM概況
3.4.2 IHM的構(gòu)建
3.4.3 特征的選擇
3.4.4 IHM的學(xué)習(xí)
3.5 實(shí)驗(yàn)
3.5.1 評(píng)價(jià)標(biāo)準(zhǔn)
3.5.2 數(shù)據(jù)集
3.5.3 實(shí)驗(yàn)結(jié)果及其分析
3.6 小結(jié)
第4章 基于更新頻率判斷模型的Surface Web增量獲取方法
4.1 引言
4.2 基于CFG的更新頻率判斷模型
4.2.1 相關(guān)定義
4.2.2 基于CFG的更新頻率判斷模型
4.2.3 基于CFG的更新頻率判斷算法
4.2.3.1 變化模式預(yù)測(cè)
4.2.3.2 中心頁(yè)面選擇
4.3 基于更新頻率判斷模型的增量爬取過(guò)程
4.4 實(shí)驗(yàn)
4.4.1 評(píng)價(jià)標(biāo)準(zhǔn)
4.4.2 數(shù)據(jù)集
4.4.3 實(shí)驗(yàn)結(jié)果及其分析
4.5 小結(jié)
第5章 基于主題的增量網(wǎng)頁(yè)并行爬取方法
5.1 引言
5.2 基于主題的增量網(wǎng)頁(yè)并行爬取系統(tǒng)架構(gòu)
5.3 URL調(diào)度分配模型
5.3.1 Crawler評(píng)估因素的選擇及量化
5.3.2 各評(píng)估因素權(quán)重的計(jì)算
5.3.2.1 建立層次結(jié)構(gòu)圖
5.3.2.2 建立各級(jí)判定矩陣
5.3.2.3 綜合重要度的計(jì)算
5.3.3 對(duì)Crawler進(jìn)行排序
5.4 URL分配算法
5.5 二級(jí)控制器
5.6 URL排序模型
5.7 實(shí)驗(yàn)
5.7.1 評(píng)價(jià)標(biāo)準(zhǔn)
5.7.2 數(shù)據(jù)集
5.7.3 實(shí)驗(yàn)結(jié)果及其分析
5.8 小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
攻讀學(xué)位期間參與科研項(xiàng)目情況
學(xué)位論文評(píng)閱及答辯情況表
【參考文獻(xiàn)】:
期刊論文
[1]基于標(biāo)簽編碼的Deep Web查詢接口識(shí)別方法[J]. 王妍,宋寶燕,張佳旸,張洪梅,李曉光. 計(jì)算機(jī)應(yīng)用. 2011(05)
[2]一種基于語(yǔ)義及統(tǒng)計(jì)分析的Deep Web實(shí)體識(shí)別機(jī)制[J]. 寇月,申德榮,李冬,聶鐵錚. 軟件學(xué)報(bào). 2008(02)
[3]Web網(wǎng)頁(yè)信息變化的時(shí)間局部性規(guī)律及其驗(yàn)證[J]. 孟濤,閆宏飛,王繼民. 情報(bào)學(xué)報(bào). 2005 (04)
博士論文
[1]Deep Web數(shù)據(jù)集成關(guān)鍵問(wèn)題研究[D]. 董永權(quán).山東大學(xué) 2010
本文編號(hào):3729440
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景及意義
1.2 研究?jī)?nèi)容
1.3 論文貢獻(xiàn)
1.4 論文組織結(jié)構(gòu)
第2章 基于主題的增量網(wǎng)頁(yè)并行爬取問(wèn)題的相關(guān)研究
2.1 引言
2.2 爬蟲種類
2.3 增量爬取
2.3.1 Surface Web增量爬取
2.3.2 Deep Web增量爬取
2.4 并行爬取
2.5 小結(jié)
第3章 基于增量采新率模型的Deep Web增量獲取方法
3.1 引言
3.2 Web數(shù)據(jù)庫(kù)版本
3.3 集合覆蓋模型
3.4 基于IHM的Deep Web增量獲取方法
3.4.1 IHM概況
3.4.2 IHM的構(gòu)建
3.4.3 特征的選擇
3.4.4 IHM的學(xué)習(xí)
3.5 實(shí)驗(yàn)
3.5.1 評(píng)價(jià)標(biāo)準(zhǔn)
3.5.2 數(shù)據(jù)集
3.5.3 實(shí)驗(yàn)結(jié)果及其分析
3.6 小結(jié)
第4章 基于更新頻率判斷模型的Surface Web增量獲取方法
4.1 引言
4.2 基于CFG的更新頻率判斷模型
4.2.1 相關(guān)定義
4.2.2 基于CFG的更新頻率判斷模型
4.2.3 基于CFG的更新頻率判斷算法
4.2.3.1 變化模式預(yù)測(cè)
4.2.3.2 中心頁(yè)面選擇
4.3 基于更新頻率判斷模型的增量爬取過(guò)程
4.4 實(shí)驗(yàn)
4.4.1 評(píng)價(jià)標(biāo)準(zhǔn)
4.4.2 數(shù)據(jù)集
4.4.3 實(shí)驗(yàn)結(jié)果及其分析
4.5 小結(jié)
第5章 基于主題的增量網(wǎng)頁(yè)并行爬取方法
5.1 引言
5.2 基于主題的增量網(wǎng)頁(yè)并行爬取系統(tǒng)架構(gòu)
5.3 URL調(diào)度分配模型
5.3.1 Crawler評(píng)估因素的選擇及量化
5.3.2 各評(píng)估因素權(quán)重的計(jì)算
5.3.2.1 建立層次結(jié)構(gòu)圖
5.3.2.2 建立各級(jí)判定矩陣
5.3.2.3 綜合重要度的計(jì)算
5.3.3 對(duì)Crawler進(jìn)行排序
5.4 URL分配算法
5.5 二級(jí)控制器
5.6 URL排序模型
5.7 實(shí)驗(yàn)
5.7.1 評(píng)價(jià)標(biāo)準(zhǔn)
5.7.2 數(shù)據(jù)集
5.7.3 實(shí)驗(yàn)結(jié)果及其分析
5.8 小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
攻讀學(xué)位期間參與科研項(xiàng)目情況
學(xué)位論文評(píng)閱及答辯情況表
【參考文獻(xiàn)】:
期刊論文
[1]基于標(biāo)簽編碼的Deep Web查詢接口識(shí)別方法[J]. 王妍,宋寶燕,張佳旸,張洪梅,李曉光. 計(jì)算機(jī)應(yīng)用. 2011(05)
[2]一種基于語(yǔ)義及統(tǒng)計(jì)分析的Deep Web實(shí)體識(shí)別機(jī)制[J]. 寇月,申德榮,李冬,聶鐵錚. 軟件學(xué)報(bào). 2008(02)
[3]Web網(wǎng)頁(yè)信息變化的時(shí)間局部性規(guī)律及其驗(yàn)證[J]. 孟濤,閆宏飛,王繼民. 情報(bào)學(xué)報(bào). 2005 (04)
博士論文
[1]Deep Web數(shù)據(jù)集成關(guān)鍵問(wèn)題研究[D]. 董永權(quán).山東大學(xué) 2010
本文編號(hào):3729440
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3729440.html
最近更新
教材專著