天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向Deep Web本地化數(shù)據(jù)集成的數(shù)據(jù)源兩層選擇模型

發(fā)布時(shí)間:2020-02-04 20:39
【摘要】:針對(duì)基于數(shù)據(jù)源質(zhì)量選擇方法的數(shù)據(jù)源在數(shù)據(jù)爬取時(shí)存在代價(jià)大、重復(fù)率高的問(wèn)題,提出一種結(jié)合兩層選擇模型的Deep Web數(shù)據(jù)源選擇和集成方法。該方法根據(jù)數(shù)據(jù)源本身質(zhì)量和數(shù)據(jù)源的效用構(gòu)建數(shù)據(jù)源的兩層選擇模型。給出基于該模型的遞歸增量數(shù)據(jù)源選擇和集成策略,采用基于數(shù)據(jù)源質(zhì)量的選擇器過(guò)濾大量低質(zhì)量Deep Web數(shù)據(jù)源,僅選擇若干個(gè)高質(zhì)量的數(shù)據(jù)源作為第2層選擇器的輸入。從候選數(shù)據(jù)源集合中遞歸地選擇,使集成系統(tǒng)在獲得盡可能多的高質(zhì)量數(shù)據(jù)的同時(shí),避免出現(xiàn)較高覆蓋率的k個(gè)數(shù)據(jù)源,作為集成系統(tǒng)最終需要爬取和集成的數(shù)據(jù)源。實(shí)驗(yàn)結(jié)果表明,該方法結(jié)合兩類(lèi)選擇器的優(yōu)點(diǎn),縮減了候選數(shù)據(jù)源的空間并保證集成數(shù)據(jù)的質(zhì)量,同時(shí)避免了系統(tǒng)處理大量重復(fù)數(shù)據(jù),有效降低Deep Web數(shù)據(jù)爬取與集成的代價(jià)。
【圖文】:

鞋類(lèi),選擇策略,數(shù)據(jù),數(shù)據(jù)源


38邐計(jì)算機(jī)工程邐2017年3月15日逡逑Alexa邋The邋Web邋Information邋Company邋得到這些數(shù)據(jù)邋Two-H3邋與邋Two-H邋比較接近,略好于邋Two-H,Two-逡逑源最近一周和最近3個(gè)月的用戶(hù)的平均訪問(wèn)量。由邋H2的數(shù)據(jù)總量增長(zhǎng)速度低于Two-H,根據(jù)分析由于逡逑于在實(shí)際情況下,在Web數(shù)據(jù)庫(kù)質(zhì)量評(píng)估和效用估邐Two-H的質(zhì)量評(píng)估模型把數(shù)據(jù)源大小作為一個(gè)重要逡逑計(jì)時(shí)僅僅依靠Deep邋Web后臺(tái)Web數(shù)據(jù)庫(kù)中的小部邋評(píng)價(jià)指標(biāo),而Two-H2則沒(méi)有考慮此質(zhì)量因素。其逡逑分的樣本數(shù)據(jù)。為了比較本文提出方法的效率,需邋他方法的性能明顯低于3種兩層數(shù)據(jù)源選擇方法。逡逑要有Deep邋Web數(shù)據(jù)源中較為完整的數(shù)據(jù)作為基準(zhǔn)。在圖書(shū)領(lǐng)域的實(shí)驗(yàn)取得了類(lèi)似的結(jié)果,如圖3所示。逡逑因此,在本文實(shí)驗(yàn)中對(duì)于選取的每一個(gè)DeeP邋Web數(shù)邐因此,本文提出的Two-Hierarchical數(shù)據(jù)源選擇策略逡逑據(jù)源首先利用爬蟲(chóng)盡可能完整地爬取這些Deep邋能選擇盡可能少的數(shù)據(jù)源使集成系統(tǒng)獲得最多的數(shù)逡逑Web數(shù)據(jù)源中的數(shù)據(jù),使用從每個(gè)數(shù)據(jù)源得到的數(shù)邐據(jù)總量,具有較好的性能。逡逑據(jù)代表該數(shù)據(jù)源完整的數(shù)據(jù)。因此,對(duì)于上述實(shí)驗(yàn)邐I^TWO-H邋-^Two-H2邋^逡逑數(shù)據(jù)集可以對(duì)這些數(shù)據(jù)源的質(zhì)量和效用進(jìn)行估算得邐-^-Quality-S1邋-0-Quality-S2邋^-Random逡逑到它們實(shí)際的選擇序列,然后與本文提出的數(shù)據(jù)源邐|1()[邐‘逡逑選擇方法及現(xiàn)有各種數(shù)據(jù)源選擇方法得出的結(jié)果進(jìn)邐u00l'_逡逑行比較,驗(yàn)證本文提出方法的有效性。邐蠢0.4邋-逡逑本文實(shí)驗(yàn)使用的現(xiàn)有各種數(shù)據(jù)源選擇方法邐霉逡逑均邋n邐邐1

曲線,重疊率,選擇策略,圖書(shū)


on逡逑^邋4邋'邐三^邐^邐Retrieval.邋New邋York,USA:ACM邋Press,2010:98-105.逡逑2.rfc邋_邐_邋_邋■W 邐[4]邐?£舉,周立柱.基于關(guān)鍵詞的深度萬(wàn)維網(wǎng)數(shù)據(jù)庫(kù)選逡逑」I邋函邋I邐,W丨W 邐擇[J].計(jì)算機(jī)學(xué)報(bào),2011,34(邋10)邋:1797-1804.逡逑10邐15邐20邐[5]萬(wàn)常選,鄧松,劉德喜,等,面向混合類(lèi)型關(guān)鍵詞查逡逑?)SMDeepWebjK?ilg?l邐詢(xún)的非合作結(jié)構(gòu)化深網(wǎng)數(shù)據(jù)源選擇[J].計(jì)算機(jī)研究逡逑圖4各種選擇策略的重疊率比較(圖書(shū)領(lǐng)域)邐與發(fā)展,2014,51(4)邋:905-917.逡逑根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)-步分析以取,_2所示,[6:逡逑本文提出的Two-H數(shù)據(jù)源選擇方法的曲線,在初期邐Proceedings邋of邋the邋39th邋Imernaticmal邋Conference邋on逡逑的曲線非常陡,數(shù)據(jù)總量百分比隨著選擇數(shù)據(jù)源的邐Very邋Large邋Data邋Bases邋Endowment.邋Riva邋del邋Garda,逡逑增加增長(zhǎng)迅速,當(dāng)選擇15個(gè)數(shù)據(jù)源時(shí),數(shù)據(jù)總量百邐Trento:Springer,2013:37-48.逡逑分比已達(dá)到94%。而之后隨著選擇數(shù)據(jù)源的增加數(shù)[7]邐=邐數(shù)據(jù)獲取問(wèn)題研究[D]?濟(jì)南:逡逑據(jù)總里并沒(méi)有顯著增加。因此,對(duì)于A:有一個(gè)臨界[8邐]邐AboLlnaga邋A,Gebaly邋K邋E.邋pBE:邋User邋Guided邋Source逡逑值,當(dāng)(值到達(dá)臨界值后繼續(xù)增加,對(duì)數(shù)據(jù)總量的影邐Selection邋and邋Schema邋Mediation邋for邋Internet邋Scale邋Data逡逑響

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 唐懿芳 ,牛力 ,張師超;多數(shù)據(jù)源挖掘中的模式合成技術(shù)[J];菏澤師專(zhuān)學(xué)報(bào);2002年02期

2 蔡璇;田忠和;;多數(shù)據(jù)源查詢(xún)的幾種優(yōu)化方法[J];計(jì)算機(jī)與數(shù)字工程;2006年07期

3 王穎;;分布式空間數(shù)據(jù)源的聯(lián)合查詢(xún)[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年04期

4 胡鵬昱;趙朋朋;方巍;崔志明;;深網(wǎng)數(shù)據(jù)源質(zhì)量估計(jì)模型[J];計(jì)算機(jī)工程;2009年09期

5 孫宏旭;邢薇;馬立和;;動(dòng)態(tài)多數(shù)據(jù)源的研究與實(shí)現(xiàn)[J];電腦學(xué)習(xí);2010年03期

6 鄧松;萬(wàn)常選;劉喜平;廖國(guó)瓊;;基于用戶(hù)反饋的深網(wǎng)數(shù)據(jù)源選擇[J];小型微型計(jì)算機(jī)系統(tǒng);2012年11期

7 鄧松;萬(wàn)常選;吁亮;劉德喜;雷剛;王映龍;;非合作結(jié)構(gòu)化深網(wǎng)數(shù)據(jù)源摘要的動(dòng)態(tài)更新[J];微電子學(xué)與計(jì)算機(jī);2014年04期

8 陳彤兵,胡金化,汪保友,施伯樂(lè);分布式自治數(shù)據(jù)源的聯(lián)合查詢(xún)[J];計(jì)算機(jī)研究與發(fā)展;2004年04期

9 龐東升;;信息化過(guò)程中的數(shù)據(jù)源管理[J];中國(guó)高?萍寂c產(chǎn)業(yè)化(學(xué)術(shù)版);2006年S3期

10 黃克穎;高s,

本文編號(hào):2576419


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2576419.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)259a3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com