基于N-Gram算法的數(shù)據(jù)清洗技術
本文選題:相似度 切入點:相似重復記錄 出處:《沈陽工業(yè)大學學報》2017年01期
【摘要】:針對數(shù)據(jù)庫中存在的大量相似重復數(shù)據(jù),對相似重復記錄的屬性結構以及產(chǎn)生原因進行了分析,采用N-Gram算法對數(shù)據(jù)記錄進行計算,得到代表每條記錄屬性的鍵值,即N-Gram值.依據(jù)該鍵值將數(shù)據(jù)庫中的數(shù)據(jù)記錄進行排序處理,建立有序的數(shù)據(jù)庫,并對其中的數(shù)據(jù)記錄進行相似度計算.運用排列合并的清洗思想對識別出來的相似重復數(shù)據(jù)記錄進行清洗,實驗結果表明,N-Gram算法有效提高了相似重復數(shù)據(jù)記錄的查全率和查準率.
[Abstract]:In view of the large number of similar duplicate data in the database, this paper analyzes the attribute structure and the reason of the similar duplicate record, and calculates the data record by using N-Gram algorithm, and obtains the key value representing each record attribute, that is, the N-Gram value.According to the key value, the data records in the database are sorted, the ordered database is established, and the similarity of the data records is calculated.The method of sorting and merging is used to clean the identified similar repeated data records. The experimental results show that the N-Gram algorithm can effectively improve the recall and precision rate of the similar repeated data records.
【作者單位】: 沈陽農(nóng)業(yè)大學信息與電氣工程學院;沈陽理工大學自動化與電氣工程學院;
【基金】:遼寧省教育廳科學研究項目(LG201610)
【分類號】:TP311.13
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張武;劉波;;一種基于規(guī)則的交互式數(shù)據(jù)清洗框架的設計[J];微計算機應用;2009年10期
2 曹建軍;刁興春;陳爽;邵衍振;;數(shù)據(jù)清洗及其一般性系統(tǒng)框架[J];計算機科學;2012年S3期
3 田偉;殷淑娥;;淺析數(shù)據(jù)清洗[J];計算機光盤軟件與應用;2013年11期
4 郭志懋,周傲英;數(shù)據(jù)質量和數(shù)據(jù)清洗研究綜述[J];軟件學報;2002年11期
5 鄧中國,周奕辛;數(shù)據(jù)清洗技術研究[J];山東科技大學學報(自然科學版);2004年02期
6 唐懿芳,鐘達夫,張師超;數(shù)據(jù)清洗前的預處理方法[J];廣西科學;2005年02期
7 孟堅,董逸生,王永利;一種基于規(guī)則的交互式數(shù)據(jù)清洗技術[J];微機發(fā)展;2005年04期
8 包從劍;李星毅;施化吉;;可擴展和可交互的數(shù)據(jù)清洗系統(tǒng)[J];計算機技術與發(fā)展;2007年07期
9 王曰芬;章成志;張蓓蓓;吳婷婷;;數(shù)據(jù)清洗研究綜述[J];現(xiàn)代圖書情報技術;2007年12期
10 王詠梅;嵇曉;汪恒杰;馮安平;;面向多數(shù)據(jù)源的數(shù)據(jù)清洗關鍵技術的研究[J];科技資訊;2009年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 俞榮華;郭志懋;田增平;周傲英;;一個可擴展的數(shù)據(jù)清洗系統(tǒng)[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2001年
2 崔運釧;劉連忠;;一種可擴展的數(shù)據(jù)清洗系統(tǒng)的設計與實現(xiàn)[A];2006中國控制與決策學術年會論文集[C];2006年
3 汪愛民;;寶鋼全流程合同數(shù)據(jù)清洗與組織方案的設計和應用[A];全國冶金自動化信息網(wǎng)2014年會論文集[C];2014年
4 蔣勇青;楊奕虹;楊賀;;論數(shù)據(jù)清洗對信息檢索質量的影響及清洗方法[A];2011年中國索引學會年會暨成立二十周年慶典論文集[C];2011年
5 李智;宋杰;冷芳玲;王大玲;鮑玉斌;于戈;;一種基于構件擴展的數(shù)據(jù)清洗框架[A];第二十五屆中國數(shù)據(jù)庫學術會議論文集(一)[C];2008年
6 高淑娟;鮑玉斌;江志綱;王大玲;于戈;;一種基于最小風險貝葉斯決策的數(shù)據(jù)清洗策略[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2002年
7 王妍;石鑫;宋寶燕;;基于偽事件的RFID數(shù)據(jù)清洗方法[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年
8 李曉靜;谷峪;呂雁飛;王艷秋;于戈;;基于動態(tài)事件概率模型的高效RFID數(shù)據(jù)清洗算法[A];第二十五屆中國數(shù)據(jù)庫學術會議論文集(二)[C];2008年
9 肖英治;陳紅;;帶數(shù)據(jù)清洗功能的數(shù)據(jù)預處理系統(tǒng)PW-ETL的設計與實現(xiàn)[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年
10 趙之慧;;專利數(shù)據(jù)加工[A];2014年中華全國專利代理人協(xié)會年會第五屆知識產(chǎn)權論壇論文(第二部分)[C];2014年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 中國人民財產(chǎn)保險股份有限公司信息技術部副總經(jīng)理 鹿慧 編譯;在SOA中創(chuàng)建獨立的數(shù)據(jù)清洗服務[N];計算機世界;2009年
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 樊華;面向物聯(lián)網(wǎng)的RFID不確定數(shù)據(jù)清洗與存儲技術研究[D];國防科學技術大學;2013年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 高寶;不確定性RFID數(shù)據(jù)清洗算法研究[D];南京信息工程大學;2015年
2 葉晨;基于眾包的數(shù)據(jù)清洗關鍵技術的研究[D];哈爾濱工業(yè)大學;2015年
3 張曉東;基于業(yè)務模型的數(shù)據(jù)清洗與整合平臺的設計與實現(xiàn)[D];電子科技大學;2015年
4 艾超;針對在線產(chǎn)品支撐數(shù)據(jù)的過濾和分析系統(tǒng)的研究與設計[D];電子科技大學;2015年
5 金翰偉;基于Spark的大數(shù)據(jù)清洗框架設計與實現(xiàn)[D];浙江大學;2016年
6 王江;數(shù)據(jù)清洗技術研究及清洗框架的設計與實現(xiàn)[D];內蒙古大學;2016年
7 陳飛;基于MapReduce的數(shù)據(jù)清洗算法研究[D];昆明理工大學;2016年
8 李寧寧;大數(shù)據(jù)清洗系統(tǒng)中優(yōu)化技術的研究與實現(xiàn)[D];哈爾濱工業(yè)大學;2016年
9 盛丹丹;面向農(nóng)業(yè)領域知識庫構建的數(shù)據(jù)清洗方法優(yōu)化研究[D];中國農(nóng)業(yè)科學院;2016年
10 鄭紀玲;數(shù)據(jù)清洗在構建POI數(shù)據(jù)倉庫中的研究與應用[D];中國礦業(yè)大學;2016年
,本文編號:1728944
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1728944.html