天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于主題的增量網(wǎng)頁(yè)并行爬取問(wèn)題研究

發(fā)布時(shí)間:2023-01-11 04:48
  隨著互聯(lián)網(wǎng)技術(shù)日新月異的發(fā)展,Web已經(jīng)成為一個(gè)巨大的、分布廣泛的信息源。為了有效地利用這些信息,需要從多個(gè)不同的信息源中將Web頁(yè)面爬取下來(lái),經(jīng)過(guò)信息抽取、信息融合等環(huán)節(jié),存儲(chǔ)到本地?cái)?shù)據(jù)庫(kù)中,為市場(chǎng)情報(bào)分析等應(yīng)用提供支持,這個(gè)過(guò)程稱為數(shù)據(jù)集成。然而,Web數(shù)據(jù)具有規(guī)模宏大、異構(gòu)性、自治性、動(dòng)態(tài)變化等特點(diǎn),這使得Web數(shù)據(jù)自動(dòng)化集成成為一項(xiàng)極具挑戰(zhàn)性的研究課題。Web數(shù)據(jù)爬取是Web數(shù)據(jù)集成的關(guān)鍵問(wèn)題之一,是數(shù)據(jù)集成的基礎(chǔ)。 由于Web數(shù)據(jù)量的迅猛增長(zhǎng),通過(guò)單個(gè)普通爬蟲在合理的時(shí)間內(nèi)獲取足夠多的有效信息非常困難,因此,基于主題的增量網(wǎng)頁(yè)并行爬取引起了國(guó)內(nèi)外研究者的廣泛關(guān)注,它不僅可以同時(shí)爬取多個(gè)相關(guān)主題的頁(yè)面,而且增量爬取保證了頁(yè)面的時(shí)新性,并行的爬取架構(gòu)保證了頁(yè)面的獲取時(shí)間。本文針對(duì)其中存在的關(guān)鍵問(wèn)題展開研究,主要工作與貢獻(xiàn)概括如下: 1.針對(duì)Deep Web增量獲取過(guò)程中查詢?cè)~的提交問(wèn)題,本文提出了基于增量采新率模型的Deep Web增量獲取方法 利用之前進(jìn)行過(guò)的Deep web的多次全部爬取返回的結(jié)果記錄構(gòu)建增量記錄集合,基于這些增量記錄,采用機(jī)器學(xué)習(xí)方法獲得了... 

【文章頁(yè)數(shù)】:68 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 研究背景及意義
    1.2 研究?jī)?nèi)容
    1.3 論文貢獻(xiàn)
    1.4 論文組織結(jié)構(gòu)
第2章 基于主題的增量網(wǎng)頁(yè)并行爬取問(wèn)題的相關(guān)研究
    2.1 引言
    2.2 爬蟲種類
    2.3 增量爬取
        2.3.1 Surface Web增量爬取
        2.3.2 Deep Web增量爬取
    2.4 并行爬取
    2.5 小結(jié)
第3章 基于增量采新率模型的Deep Web增量獲取方法
    3.1 引言
    3.2 Web數(shù)據(jù)庫(kù)版本
    3.3 集合覆蓋模型
    3.4 基于IHM的Deep Web增量獲取方法
        3.4.1 IHM概況
        3.4.2 IHM的構(gòu)建
        3.4.3 特征的選擇
        3.4.4 IHM的學(xué)習(xí)
    3.5 實(shí)驗(yàn)
        3.5.1 評(píng)價(jià)標(biāo)準(zhǔn)
        3.5.2 數(shù)據(jù)集
        3.5.3 實(shí)驗(yàn)結(jié)果及其分析
    3.6 小結(jié)
第4章 基于更新頻率判斷模型的Surface Web增量獲取方法
    4.1 引言
    4.2 基于CFG的更新頻率判斷模型
        4.2.1 相關(guān)定義
        4.2.2 基于CFG的更新頻率判斷模型
        4.2.3 基于CFG的更新頻率判斷算法
            4.2.3.1 變化模式預(yù)測(cè)
            4.2.3.2 中心頁(yè)面選擇
    4.3 基于更新頻率判斷模型的增量爬取過(guò)程
    4.4 實(shí)驗(yàn)
        4.4.1 評(píng)價(jià)標(biāo)準(zhǔn)
        4.4.2 數(shù)據(jù)集
        4.4.3 實(shí)驗(yàn)結(jié)果及其分析
    4.5 小結(jié)
第5章 基于主題的增量網(wǎng)頁(yè)并行爬取方法
    5.1 引言
    5.2 基于主題的增量網(wǎng)頁(yè)并行爬取系統(tǒng)架構(gòu)
    5.3 URL調(diào)度分配模型
        5.3.1 Crawler評(píng)估因素的選擇及量化
        5.3.2 各評(píng)估因素權(quán)重的計(jì)算
            5.3.2.1 建立層次結(jié)構(gòu)圖
            5.3.2.2 建立各級(jí)判定矩陣
            5.3.2.3 綜合重要度的計(jì)算
        5.3.3 對(duì)Crawler進(jìn)行排序
    5.4 URL分配算法
    5.5 二級(jí)控制器
    5.6 URL排序模型
    5.7 實(shí)驗(yàn)
        5.7.1 評(píng)價(jià)標(biāo)準(zhǔn)
        5.7.2 數(shù)據(jù)集
        5.7.3 實(shí)驗(yàn)結(jié)果及其分析
    5.8 小結(jié)
第6章 總結(jié)與展望
    6.1 總結(jié)
    6.2 展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
攻讀學(xué)位期間參與科研項(xiàng)目情況
學(xué)位論文評(píng)閱及答辯情況表


【參考文獻(xiàn)】:
期刊論文
[1]基于標(biāo)簽編碼的Deep Web查詢接口識(shí)別方法[J]. 王妍,宋寶燕,張佳旸,張洪梅,李曉光.  計(jì)算機(jī)應(yīng)用. 2011(05)
[2]一種基于語(yǔ)義及統(tǒng)計(jì)分析的Deep Web實(shí)體識(shí)別機(jī)制[J]. 寇月,申德榮,李冬,聶鐵錚.  軟件學(xué)報(bào). 2008(02)
[3]Web網(wǎng)頁(yè)信息變化的時(shí)間局部性規(guī)律及其驗(yàn)證[J]. 孟濤,閆宏飛,王繼民.  情報(bào)學(xué)報(bào). 2005 (04)

博士論文
[1]Deep Web數(shù)據(jù)集成關(guān)鍵問(wèn)題研究[D]. 董永權(quán).山東大學(xué) 2010



本文編號(hào):3729440

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3729440.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9fbb9***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产日韩熟女中文字幕| 白丝美女被插入视频在线观看| 翘臀少妇成人一区二区| 国产欧美另类激情久久久| 色一情一伦一区二区三| 午夜精品国产精品久久久| 欧美日韩乱码一区二区三区| 欧美日韩国产福利在线观看| 亚洲婷婷开心色四房播播| 亚洲国产天堂av成人在线播放| 最近中文字幕高清中文字幕无| 欧美日韩免费黄片观看| 亚洲欧美日韩精品永久| 激情内射亚洲一区二区三区| 91人人妻人人爽人人狠狠| 国语对白刺激高潮在线视频| 日韩欧美一区二区黄色| 人妻中文一区二区三区| 国产熟女一区二区精品视频| 国产精品一区二区有码| 国产欧美精品对白性色| 亚洲伦片免费偷拍一区| 国产又粗又爽又猛又黄的 | 国产精品乱子伦一区二区三区| 国产又粗又硬又大又爽的视频| 久久碰国产一区二区三区| 欧美一区日韩二区亚洲三区| 日韩人妻精品免费一区二区三区 | 欧美中文字幕日韩精品| 久久国产精品亚州精品毛片| 中文文精品字幕一区二区| 91人妻人人揉人人澡人| 日韩免费国产91在线| 精品日韩中文字幕视频在线| 久久国内午夜福利直播| 日韩精品一区二区三区av在线| 久久精品福利在线观看| 成人国产激情福利久久| 国产免费一区二区三区不卡| 亚洲国产av在线观看一区| 九九视频通过这里有精品|