天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于分層抽樣的重疊深網(wǎng)數(shù)據(jù)源選擇

發(fā)布時(shí)間:2018-11-27 11:55
【摘要】:深網(wǎng)查詢?cè)赪eb上眾多的應(yīng)用,需要查詢大量的數(shù)據(jù)源才能獲得足夠的數(shù)據(jù),如多媒體數(shù)據(jù)搜索、團(tuán)購(gòu)網(wǎng)站信息聚合等.應(yīng)用的成功,取決于查詢多數(shù)據(jù)源的效率和效果.當(dāng)前研究側(cè)重查詢與數(shù)據(jù)源的相關(guān)性而忽略數(shù)據(jù)源之間的重疊關(guān)系,使得不同數(shù)據(jù)源上相同結(jié)果的數(shù)據(jù)被重復(fù)查詢,增加了查詢開銷及數(shù)據(jù)源的工作負(fù)載.為了提高深網(wǎng)查詢的效率,提出一種元組水平的分層抽樣方法來(lái)估計(jì)和利用查詢?cè)跀?shù)據(jù)源上的統(tǒng)計(jì)數(shù)據(jù),選擇高相關(guān)、低重疊的數(shù)據(jù)源.該方法分為兩個(gè)階段:離線階段,基于元組水平對(duì)數(shù)據(jù)源進(jìn)行分層抽樣,獲得樣本數(shù)據(jù);在線階段,基于樣本數(shù)據(jù)迭代地估計(jì)查詢?cè)跀?shù)據(jù)源上的覆蓋率和重疊率,并采用一種啟發(fā)式策略以高效地發(fā)現(xiàn)低重疊的數(shù)據(jù)源.實(shí)驗(yàn)結(jié)果表明,該方法能夠顯著提高重疊數(shù)據(jù)源選擇的精度和效率.
[Abstract]:In order to obtain enough data such as multimedia data search group purchase website information aggregation and so on it is necessary to query a large number of data sources in order to obtain enough data for many applications of Deep Web query on Web. The success of the application depends on the efficiency and effectiveness of querying multiple data sources. The current research focuses on the correlation between the query and the data source and neglects the overlapping relationship between the data sources, which makes the data with the same result on different data sources repeatedly queried, which increases the query overhead and the workload of the data sources. In order to improve the efficiency of deep network query, a hierarchical sampling method at the level of tuple is proposed to estimate and utilize the statistical data of query on the data source to select the data source with high correlation and low overlap. The method is divided into two stages: off-line stage, stratified sampling of data source based on tuple level to obtain sample data; In the online stage, the query coverage and overlap rate on the data source are estimated iteratively based on the sample data, and a heuristic strategy is adopted to find the low overlap data source efficiently. Experimental results show that this method can significantly improve the accuracy and efficiency of overlapping data source selection.
【作者單位】: 武漢大學(xué)計(jì)算機(jī)學(xué)院;軟件工程國(guó)家重點(diǎn)實(shí)驗(yàn)室(武漢大學(xué));
【基金】:國(guó)家自然科學(xué)基金(61232002,61202035) 湖北省科技支撐計(jì)劃(2015BAA127)~~
【分類號(hào)】:TP311

【參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 萬(wàn)常選;鄧松;劉喜平;廖國(guó)瓊;劉德喜;江騰蛟;;Web數(shù)據(jù)源選擇技術(shù)[J];軟件學(xué)報(bào);2013年04期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 鄭月鋒;張桂杰;江超;;本體理論在教學(xué)管理系統(tǒng)形成數(shù)據(jù)源中的應(yīng)用[J];通化師范學(xué)院學(xué)報(bào);2017年06期

2 鮮學(xué)豐;崔志明;方立剛;顧才東;孫遜;;面向Deep Web本地化數(shù)據(jù)集成的數(shù)據(jù)源兩層選擇模型[J];計(jì)算機(jī)工程;2017年03期

3 周國(guó)華;;XML層次信息搜索空間效率的改進(jìn)研究[J];信息技術(shù);2017年02期

4 鄧松;;實(shí)體信息集成檢索的深網(wǎng)數(shù)據(jù)源選擇[J];計(jì)算機(jī)工程;2016年10期

5 江俊彥;彭智勇;吳小瑩;彭承晨;王敏;;基于分層抽樣的重疊深網(wǎng)數(shù)據(jù)源選擇[J];軟件學(xué)報(bào);2017年05期

6 鄧松;;面向旅游人文信息集成的Web數(shù)據(jù)源選擇[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2016年03期

7 夏立新;楚林;王忠義;石義金;李京蔚;;基于網(wǎng)絡(luò)文本挖掘的就業(yè)知識(shí)需求關(guān)系構(gòu)建[J];圖書情報(bào)知識(shí);2016年01期

8 鄧松;陳輝;;面向醫(yī)學(xué)領(lǐng)域?qū)嶓w關(guān)聯(lián)檢索的深網(wǎng)數(shù)據(jù)源選擇[J];計(jì)算機(jī)工程與應(yīng)用;2016年10期

9 王繼奎;李少波;;基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法[J];浙江大學(xué)學(xué)報(bào)(工學(xué)版);2015年02期

10 姚瑤;王戰(zhàn)紅;石磊;;一種基于頁(yè)面聚類的Web概念化建模新方法[J];微電子學(xué)與計(jì)算機(jī);2015年01期

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前6條

1 鄧松;萬(wàn)常選;劉喜平;廖國(guó)瓊;;基于用戶反饋的深網(wǎng)數(shù)據(jù)源選擇[J];小型微型計(jì)算機(jī)系統(tǒng);2012年11期

2 朱冠勝;黃浩;楊衛(wèi)東;;XML關(guān)鍵字檢索系統(tǒng)的數(shù)據(jù)源選擇[J];小型微型計(jì)算機(jī)系統(tǒng);2012年06期

3 范舉;周立柱;;基于關(guān)鍵詞的深度萬(wàn)維網(wǎng)數(shù)據(jù)庫(kù)選擇[J];計(jì)算機(jī)學(xué)報(bào);2011年10期

4 余偉;李石君;文利娟;田建偉;;基于數(shù)據(jù)質(zhì)量的Deep Web數(shù)據(jù)源排序[J];小型微型計(jì)算機(jī)系統(tǒng);2010年04期

5 段青玲;楊仁剛;華松青;;基于動(dòng)態(tài)學(xué)習(xí)的Deep Web數(shù)據(jù)源選擇算法[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2010年01期

6 劉偉;孟小峰;孟衛(wèi)一;;Deep Web數(shù)據(jù)集成研究綜述[J];計(jì)算機(jī)學(xué)報(bào);2007年09期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 唐懿芳 ,牛力 ,張師超;多數(shù)據(jù)源挖掘中的模式合成技術(shù)[J];菏澤師專學(xué)報(bào);2002年02期

2 蔡璇;田忠和;;多數(shù)據(jù)源查詢的幾種優(yōu)化方法[J];計(jì)算機(jī)與數(shù)字工程;2006年07期

3 王穎;;分布式空間數(shù)據(jù)源的聯(lián)合查詢[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年04期

4 胡鵬昱;趙朋朋;方巍;崔志明;;深網(wǎng)數(shù)據(jù)源質(zhì)量估計(jì)模型[J];計(jì)算機(jī)工程;2009年09期

5 孫宏旭;邢薇;馬立和;;動(dòng)態(tài)多數(shù)據(jù)源的研究與實(shí)現(xiàn)[J];電腦學(xué)習(xí);2010年03期

6 鄧松;萬(wàn)常選;劉喜平;廖國(guó)瓊;;基于用戶反饋的深網(wǎng)數(shù)據(jù)源選擇[J];小型微型計(jì)算機(jī)系統(tǒng);2012年11期

7 鄧松;萬(wàn)常選;吁亮;劉德喜;雷剛;王映龍;;非合作結(jié)構(gòu)化深網(wǎng)數(shù)據(jù)源摘要的動(dòng)態(tài)更新[J];微電子學(xué)與計(jì)算機(jī);2014年04期

8 陳彤兵,胡金化,汪保友,施伯樂;分布式自治數(shù)據(jù)源的聯(lián)合查詢[J];計(jì)算機(jī)研究與發(fā)展;2004年04期

9 龐東升;;信息化過(guò)程中的數(shù)據(jù)源管理[J];中國(guó)高?萍寂c產(chǎn)業(yè)化(學(xué)術(shù)版);2006年S3期

10 黃克穎;高s,

本文編號(hào):2360663


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2360663.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dac0a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com