MTruths:Web信息多真值發(fā)現(xiàn)方法
本文關(guān)鍵詞:MTruths:Web信息多真值發(fā)現(xiàn)方法
更多相關(guān)文章: 真值發(fā)現(xiàn) 數(shù)據(jù)沖突 單值屬性 多值屬性 數(shù)據(jù)源質(zhì)量
【摘要】:Web已成為一個(gè)浩瀚的信息海洋,其信息分散在不同的數(shù)據(jù)源中.不同數(shù)據(jù)源常常為同一對象實(shí)體提供沖突的屬性值.如何從這些沖突屬性值中找到真值被稱為真值發(fā)現(xiàn)問題.根據(jù)屬性值數(shù)量可將對象屬性分為單值屬性和多值屬性,現(xiàn)有的多數(shù)真值發(fā)現(xiàn)算法對單值屬性的真值發(fā)現(xiàn)比較有效.針對多值屬性的真值發(fā)現(xiàn)問題,提出了一個(gè)多真值發(fā)現(xiàn)方法 MTruths,該方法將多真值發(fā)現(xiàn)問題轉(zhuǎn)化為一個(gè)最優(yōu)化問題,其目標(biāo)是:各對象的真值與各數(shù)據(jù)源提供的觀察值之間的相似性加權(quán)和達(dá)到最大.對象真值求解過程中,提出2種方法求真值列表的最優(yōu)解:基于枚舉的方法和貪心算法.與已有方法不同的是MTruths可以直接得到對象的多個(gè)真值.最后,通過圖書和電影2個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,MTruths的2種實(shí)現(xiàn)方法的準(zhǔn)確性以及貪心算法的效率優(yōu)于現(xiàn)有真值發(fā)現(xiàn)方法.
【作者單位】: 中國人民大學(xué)信息學(xué)院;首都師范大學(xué)教育技術(shù)系;北京服裝學(xué)院信息工程學(xué)院;
【基金】:國家自然科學(xué)基金項(xiàng)目(61379050,91224008,61502279) 國家“八六三”高技術(shù)研究發(fā)展計(jì)劃基金項(xiàng)目(2013AA013204) 高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金項(xiàng)目(20130004130001) 中國人民大學(xué)科學(xué)研究基金項(xiàng)目(11XNL010)~~
【分類號】:TP393.09
【正文快照】: 互聯(lián)網(wǎng)信息量正以驚人的速度急劇增長,儼然成為一個(gè)巨大的信息庫.Web已經(jīng)滲透到人們?nèi)粘Ia(chǎn)、生活的方方面面,逐漸成為人們獲取信息的重要來源.人們在享受來自Web豐富信息的同時(shí),也受到信息質(zhì)量問題的困擾,大量錯(cuò)誤、過時(shí)、不完整、虛假信息充斥于網(wǎng)絡(luò).其中,信息沖突問題尤為
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 龐東升;;信息化過程中的數(shù)據(jù)源管理[J];中國高校科技與產(chǎn)業(yè)化(學(xué)術(shù)版);2006年S3期
2 公劍;徐煒民;;基于網(wǎng)格的虛擬數(shù)據(jù)源的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2006年10期
3 關(guān)卿;王宏;;基于多數(shù)據(jù)源的網(wǎng)絡(luò)流量矩陣估計(jì)[J];計(jì)算機(jī)工程;2009年14期
4 戴青云;樊沛;李剛;董逸生;;Web-based多數(shù)據(jù)源集成系統(tǒng)的研究[J];計(jì)算機(jī)科學(xué);2002年09期
5 唐九陽;張維明;修保新;肖衛(wèi)東;;面向異構(gòu)數(shù)據(jù)集成的數(shù)據(jù)源能力描述框架[J];計(jì)算機(jī)科學(xué);2004年04期
6 成瑜,何潔月;基于本體的生物信息數(shù)據(jù)源的發(fā)現(xiàn)[J];微機(jī)發(fā)展;2005年01期
7 涂承勝;不同ADO數(shù)據(jù)源的連接技術(shù)分析[J];重慶三峽學(xué)院學(xué)報(bào);2002年03期
8 毛劍波;易茂祥;;一種JMF數(shù)據(jù)源多路應(yīng)用解決方案[J];現(xiàn)代電子技術(shù);2006年23期
9 鄧松;萬常選;劉喜平;;基于用戶反饋的Web多媒體數(shù)據(jù)源的選取[J];管理學(xué)報(bào);2011年12期
10 鮮學(xué)豐;方巍;趙朋朋;崔志明;胡鵬昱;;一種Deep Web數(shù)據(jù)源質(zhì)量評估模型[J];微電子學(xué)與計(jì)算機(jī);2008年10期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前2條
1 鮮學(xué)豐;方巍;趙朋朋;崔志明;胡鵬昱;;一種Deep Web數(shù)據(jù)源質(zhì)量評估模型[A];2008年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊)[C];2008年
2 岳昆;劉惟一;李維華;王曉玲;;基于多數(shù)據(jù)源查詢處理的Web服務(wù)合成[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
中國重要報(bào)紙全文數(shù)據(jù)庫 前5條
1 倪顯利;VB 6.0與大型數(shù)據(jù)庫的無“數(shù)據(jù)源”連接[N];計(jì)算機(jī)世界;2001年
2 博文 編譯 Duane Merrill;實(shí)施企業(yè)級的Mashup[N];計(jì)算機(jī)世界;2007年
3 PALADIN;編程沙龍[N];電腦報(bào);2003年
4 溫海濤、劉占山;給校園網(wǎng)做個(gè)留言版[N];中國電腦教育報(bào);2002年
5 丁望;IPsec及在VPN組網(wǎng)中的應(yīng)用[N];網(wǎng)絡(luò)世界;2001年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 鄧松;非合作結(jié)構(gòu)化深網(wǎng)數(shù)據(jù)源選擇技術(shù)研究[D];江西財(cái)經(jīng)大學(xué);2013年
2 賀金鑫;安全組通信中數(shù)據(jù)源認(rèn)證問題的研究[D];吉林大學(xué);2008年
3 方巍;基于本體的Deep Web信息集成關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 秦爭艷;基于采樣的Deep Web數(shù)據(jù)源選擇方法研究[D];上海師范大學(xué);2015年
2 胡代勇;一種改進(jìn)的深層網(wǎng)絡(luò)數(shù)據(jù)源描述方法[D];哈爾濱工程大學(xué);2012年
3 祝官文;基于表單特性的深層網(wǎng)絡(luò)數(shù)據(jù)源分類方法研究[D];哈爾濱工程大學(xué);2012年
4 周千威;Deep Web數(shù)據(jù)源分類及用戶滿意度評估研究[D];重慶大學(xué);2014年
5 李妹芳;Deep Web數(shù)據(jù)源發(fā)現(xiàn)和選擇研究[D];東北大學(xué);2008年
6 屈振東;Deep Web環(huán)境下數(shù)據(jù)源選擇和結(jié)果緩存的研究[D];東北大學(xué);2009年
7 李林;Deep Web數(shù)據(jù)源發(fā)現(xiàn)相關(guān)技術(shù)研究[D];蘇州大學(xué);2009年
8 胡鵬昱;Deep Web數(shù)據(jù)源質(zhì)量估計(jì)模型及應(yīng)用研究[D];蘇州大學(xué);2009年
9 趙娜;Deep Web數(shù)據(jù)源發(fā)現(xiàn)及選擇方法研究[D];山東大學(xué);2009年
10 王海龍;Deep Web數(shù)據(jù)源發(fā)現(xiàn)和分類研究[D];蘇州大學(xué);2011年
,本文編號:1244822
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1244822.html