面向Deep Web本地化數(shù)據(jù)集成的數(shù)據(jù)源兩層選擇模型
【圖文】:
38邐計(jì)算機(jī)工程邐2017年3月15日逡逑Alexa邋The邋Web邋Information邋Company邋得到這些數(shù)據(jù)邋Two-H3邋與邋Two-H邋比較接近,略好于邋Two-H,Two-逡逑源最近一周和最近3個(gè)月的用戶(hù)的平均訪問(wèn)量。由邋H2的數(shù)據(jù)總量增長(zhǎng)速度低于Two-H,根據(jù)分析由于逡逑于在實(shí)際情況下,在Web數(shù)據(jù)庫(kù)質(zhì)量評(píng)估和效用估邐Two-H的質(zhì)量評(píng)估模型把數(shù)據(jù)源大小作為一個(gè)重要逡逑計(jì)時(shí)僅僅依靠Deep邋Web后臺(tái)Web數(shù)據(jù)庫(kù)中的小部邋評(píng)價(jià)指標(biāo),而Two-H2則沒(méi)有考慮此質(zhì)量因素。其逡逑分的樣本數(shù)據(jù)。為了比較本文提出方法的效率,需邋他方法的性能明顯低于3種兩層數(shù)據(jù)源選擇方法。逡逑要有Deep邋Web數(shù)據(jù)源中較為完整的數(shù)據(jù)作為基準(zhǔn)。在圖書(shū)領(lǐng)域的實(shí)驗(yàn)取得了類(lèi)似的結(jié)果,如圖3所示。逡逑因此,在本文實(shí)驗(yàn)中對(duì)于選取的每一個(gè)DeeP邋Web數(shù)邐因此,本文提出的Two-Hierarchical數(shù)據(jù)源選擇策略逡逑據(jù)源首先利用爬蟲(chóng)盡可能完整地爬取這些Deep邋能選擇盡可能少的數(shù)據(jù)源使集成系統(tǒng)獲得最多的數(shù)逡逑Web數(shù)據(jù)源中的數(shù)據(jù),使用從每個(gè)數(shù)據(jù)源得到的數(shù)邐據(jù)總量,具有較好的性能。逡逑據(jù)代表該數(shù)據(jù)源完整的數(shù)據(jù)。因此,對(duì)于上述實(shí)驗(yàn)邐I^TWO-H邋-^Two-H2邋^逡逑數(shù)據(jù)集可以對(duì)這些數(shù)據(jù)源的質(zhì)量和效用進(jìn)行估算得邐-^-Quality-S1邋-0-Quality-S2邋^-Random逡逑到它們實(shí)際的選擇序列,然后與本文提出的數(shù)據(jù)源邐|1()[邐‘逡逑選擇方法及現(xiàn)有各種數(shù)據(jù)源選擇方法得出的結(jié)果進(jìn)邐u00l'_逡逑行比較,驗(yàn)證本文提出方法的有效性。邐蠢0.4邋-逡逑本文實(shí)驗(yàn)使用的現(xiàn)有各種數(shù)據(jù)源選擇方法邐霉逡逑均邋n邐邐1
on逡逑^邋4邋'邐三^邐^邐Retrieval.邋New邋York,USA:ACM邋Press,2010:98-105.逡逑2.rfc邋_邐_邋_邋■W 邐[4]邐?£舉,周立柱.基于關(guān)鍵詞的深度萬(wàn)維網(wǎng)數(shù)據(jù)庫(kù)選逡逑」I邋函邋I邐,W丨W邐擇[J].計(jì)算機(jī)學(xué)報(bào),2011,34(邋10)邋:1797-1804.逡逑10邐15邐20邐[5]萬(wàn)常選,鄧松,劉德喜,等,面向混合類(lèi)型關(guān)鍵詞查逡逑?)SMDeepWebjK?ilg?l邐詢(xún)的非合作結(jié)構(gòu)化深網(wǎng)數(shù)據(jù)源選擇[J].計(jì)算機(jī)研究逡逑圖4各種選擇策略的重疊率比較(圖書(shū)領(lǐng)域)邐與發(fā)展,2014,51(4)邋:905-917.逡逑根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)-步分析以取,_2所示,[6:逡逑本文提出的Two-H數(shù)據(jù)源選擇方法的曲線,在初期邐Proceedings邋of邋the邋39th邋Imernaticmal邋Conference邋on逡逑的曲線非常陡,數(shù)據(jù)總量百分比隨著選擇數(shù)據(jù)源的邐Very邋Large邋Data邋Bases邋Endowment.邋Riva邋del邋Garda,逡逑增加增長(zhǎng)迅速,當(dāng)選擇15個(gè)數(shù)據(jù)源時(shí),數(shù)據(jù)總量百邐Trento:Springer,2013:37-48.逡逑分比已達(dá)到94%。而之后隨著選擇數(shù)據(jù)源的增加數(shù)[7]邐=邐數(shù)據(jù)獲取問(wèn)題研究[D]?濟(jì)南:逡逑據(jù)總里并沒(méi)有顯著增加。因此,對(duì)于A:有一個(gè)臨界[8邐]邐AboLlnaga邋A,Gebaly邋K邋E.邋pBE:邋User邋Guided邋Source逡逑值,當(dāng)(值到達(dá)臨界值后繼續(xù)增加,對(duì)數(shù)據(jù)總量的影邐Selection邋and邋Schema邋Mediation邋for邋Internet邋Scale邋Data逡逑響
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 唐懿芳 ,牛力 ,張師超;多數(shù)據(jù)源挖掘中的模式合成技術(shù)[J];菏澤師專(zhuān)學(xué)報(bào);2002年02期
2 蔡璇;田忠和;;多數(shù)據(jù)源查詢(xún)的幾種優(yōu)化方法[J];計(jì)算機(jī)與數(shù)字工程;2006年07期
3 王穎;;分布式空間數(shù)據(jù)源的聯(lián)合查詢(xún)[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年04期
4 胡鵬昱;趙朋朋;方巍;崔志明;;深網(wǎng)數(shù)據(jù)源質(zhì)量估計(jì)模型[J];計(jì)算機(jī)工程;2009年09期
5 孫宏旭;邢薇;馬立和;;動(dòng)態(tài)多數(shù)據(jù)源的研究與實(shí)現(xiàn)[J];電腦學(xué)習(xí);2010年03期
6 鄧松;萬(wàn)常選;劉喜平;廖國(guó)瓊;;基于用戶(hù)反饋的深網(wǎng)數(shù)據(jù)源選擇[J];小型微型計(jì)算機(jī)系統(tǒng);2012年11期
7 鄧松;萬(wàn)常選;吁亮;劉德喜;雷剛;王映龍;;非合作結(jié)構(gòu)化深網(wǎng)數(shù)據(jù)源摘要的動(dòng)態(tài)更新[J];微電子學(xué)與計(jì)算機(jī);2014年04期
8 陳彤兵,胡金化,汪保友,施伯樂(lè);分布式自治數(shù)據(jù)源的聯(lián)合查詢(xún)[J];計(jì)算機(jī)研究與發(fā)展;2004年04期
9 龐東升;;信息化過(guò)程中的數(shù)據(jù)源管理[J];中國(guó)高?萍寂c產(chǎn)業(yè)化(學(xué)術(shù)版);2006年S3期
10 黃克穎;高s,
本文編號(hào):2576419
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2576419.html