大數(shù)據(jù)集成中確定數(shù)據(jù)準確屬性值的WR方法
本文選題:大數(shù)據(jù)集成 + 數(shù)據(jù)質(zhì)量。 參考:《計算機研究與發(fā)展》2016年02期
【摘要】:大數(shù)據(jù)集成是提供高質(zhì)量數(shù)據(jù)以進行決策的基礎(chǔ).集成的一個關(guān)鍵環(huán)節(jié)是根據(jù)實體在數(shù)據(jù)庫中的不同元組確定其準確屬性值.最新的R-topK方法在數(shù)據(jù)上實施人工設(shè)計的規(guī)則確定屬性值間的準確程度,得到了相對準確的屬性值.然而這種方法在處理多個可能的準確值或設(shè)計的規(guī)則存在沖突等情況下需要較多人工交互.為此提出基于權(quán)重規(guī)則的WR(weighted-rule)方法確定大數(shù)據(jù)集成中數(shù)據(jù)的準確屬性值.該方法為屬性值間準確程度的判斷規(guī)則擴充了權(quán)重,在準確值發(fā)生沖突時避免了R-topK方法中人工交互干預.基于追逐過程設(shè)計了約束條件推理算法,并證明它能夠在O(n2)內(nèi)推導出每對屬性值間的帶權(quán)重的準確程度,形成推導準確屬性值的約束條件.面對約束條件中可能的沖突,提出了目標求解算法,在O(n)時間內(nèi)從所有屬性值組合中搜索最可能的準確屬性值.在真實和合成數(shù)據(jù)集中進行了充分的實驗,驗證了WR方法的效果和效率.WR方法較R-topK方法在性能上提高了3~15倍,在效果上提升7%~80%.
[Abstract]:Big data integration is the basis for providing high-quality data for decision-making.A key step in integration is to determine the exact attribute values of entities according to their different tuples in the database.The newest R-topK method implements the rule of artificial design on the data to determine the degree of accuracy between the attribute values, and obtains the relatively accurate attribute value.However, this method requires more human interaction when dealing with multiple possible exact values or conflict of designed rules.This paper presents a WRRRweighted-rule method based on weight rules to determine the exact attribute value of data in big data integration.This method extends the weight of the rule for judging the degree of accuracy between attribute values, and avoids the human interaction in the R-topK method when the exact value conflicts.A constraint reasoning algorithm is designed based on the chase process, and it is proved that it can deduce the degree of accuracy of the weights between each pair of attribute values in ON2) and form the constraint conditions for deriving the exact attribute values.In the face of possible conflicts in constraint conditions, a target solving algorithm is proposed to search for the most likely exact attribute values from all attribute combinations in the time limit.Experiments in real and synthetic data sets show that the effect and efficiency of WR method. WR method has improved the performance by 3 ~ 15 times compared with R-topK method, and the effect of WR method has been improved by 70%.
【作者單位】: 中國電力科學研究院;中國人民大學信息學院;數(shù)據(jù)工程與知識工程教育部重點實驗室(中國人民大學);
【基金】:國家“九七三”重點基礎(chǔ)研究發(fā)展計劃基金項目(2014CB340403) 國家電網(wǎng)公司研究項目(EPRIPDKJ[2014]3763號)~~
【分類號】:TP311.13
【相似文獻】
相關(guān)期刊論文 前10條
1 ;第六章 多屬性索引法[J];計算機工程與應(yīng)用;1981年Z2期
2 程顯毅;施Oz;沈?qū)W華;田宇賀;;屬性和屬性值組合的概念模板[J];北京大學學報(自然科學版);2013年01期
3 黃康,柯尊忠,周方澤;AutoCAD的屬性塊及其應(yīng)用[J];機械與電子;2001年02期
4 葉春曉;吳中福;符云清;鐘將;馮永;;基于屬性的擴展委托模型[J];計算機研究與發(fā)展;2006年06期
5 潘興昌,上官文斌,富立新,黃敬利;Auto-CAD的屬性與細目表生成[J];機械設(shè)計與制造;1998年05期
6 杜曉明,于永利,胡暉;一種基于案例的多屬性綜合評價方法[J];系統(tǒng)工程與電子技術(shù);1999年09期
7 王衛(wèi)衛(wèi);;AutoCAD的屬性塊及其在電力繪圖中的應(yīng)用[J];長江工程職業(yè)技術(shù)學院學報;2008年03期
8 賈真;楊宇飛;何大可;劉勝久;尹紅風;;面向中文網(wǎng)絡(luò)百科的屬性和屬性值抽取[J];北京大學學報(自然科學版);2014年01期
9 亓呈明;崔守梅;;滑坡數(shù)據(jù)連續(xù)屬性值處理的研究[J];微計算機信息;2006年24期
10 朱顥東;鐘勇;;基于規(guī)則綜合質(zhì)量的屬性值約簡算法[J];計算機與數(shù)字工程;2009年02期
相關(guān)會議論文 前2條
1 王宇;方濱興;吳博;宋林海;郭巖;;結(jié)合屬性分布特征的模式匹配算法[A];第五屆全國信息檢索學術(shù)會議論文集[C];2009年
2 張亮;胡學鋼;;多層次屬性值下概念格的動態(tài)轉(zhuǎn)化[A];計算機技術(shù)與應(yīng)用進展——全國第17屆計算機科學與技術(shù)應(yīng)用(CACIS)學術(shù)會議論文集(上冊)[C];2006年
相關(guān)重要報紙文章 前2條
1 重慶 韓濤;中望CAD中塊屬性的制作[N];電腦報;2004年
2 7Star;教你做RM壓縮程序[N];電腦報;2003年
相關(guān)碩士學位論文 前4條
1 張朝勝;領(lǐng)域本體概念實例、屬性及屬性值提取研究[D];昆明理工大學;2011年
2 孫正;基于藥物屬性的中藥方劑組網(wǎng)及藥物社團發(fā)現(xiàn)研究[D];南京大學;2013年
3 張丙辰;基于結(jié)構(gòu)和屬性的圖挖掘技術(shù)應(yīng)用研究[D];哈爾濱工程大學;2012年
4 謝驚時;數(shù)據(jù)匹配問題中的記錄鏈接模型[D];天津財經(jīng)大學;2013年
,本文編號:1736655
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1736655.html