一種客戶關(guān)系數(shù)據(jù)庫相似重復(fù)記錄清洗算法
本文選題:客戶關(guān)系 + 相似重復(fù)記錄; 參考:《衡水學院學報》2014年01期
【摘要】:客戶關(guān)系數(shù)據(jù)庫中擁有大量的客戶記錄,其中許多記錄構(gòu)成相似重復(fù)記錄,檢測、清洗進而合并相似重復(fù)記錄可以提高存儲空間的利用率,還可以加快記錄查詢的速度.在研究客戶記錄的基礎(chǔ)上,提出一種客戶關(guān)系數(shù)據(jù)庫相似重復(fù)記錄清洗算法,算法首先對記錄進行排序,設(shè)定屬性權(quán)重和記錄相似度閘值,通過計算相鄰記錄的相似度判定記錄是否相似重復(fù),最后對檢測到的相似重復(fù)記錄進行清洗與合并.
[Abstract]:There are a large number of customer records in the customer relationship database, many of which constitute similar duplicate records. Detecting, cleaning and merging the similar duplicate records can improve the utilization of storage space and speed up the query of records. Based on the study of customer records, a similar duplicate record cleaning algorithm for customer relational database is proposed. The algorithm first sorts the records, sets the attribute weight and the similarity gate value of the records. The similarity degree of adjacent records is calculated to determine whether the records are similar or not. Finally, the detected similar duplicate records are cleaned and merged.
【作者單位】: 福建江夏學院電子信息科學學院;
【基金】:福建省教育廳A類科技項目(JA12335)
【分類號】:TP311.13
【參考文獻】
相關(guān)期刊論文 前3條
1 程昌秀;于濱;;一種基于規(guī)則的模糊中文地址分詞匹配方法[J];地理與地理信息科學;2011年03期
2 張雪英;閭國年;李伯秋;陳文君;;基于規(guī)則的中文地址要素解析方法[J];地球信息科學學報;2010年01期
3 劉哲;夏秀峰;宋曉燕;林桐;;一種中文地址類相似重復(fù)信息的檢測方法[J];小型微型計算機系統(tǒng);2008年04期
【共引文獻】
相關(guān)期刊論文 前10條
1 張小平,馬垣;KDD中的數(shù)據(jù)清理技術(shù)研究[J];鞍山科技大學學報;2003年02期
2 陳偉,丁秋林;具有數(shù)據(jù)清理功能的交互式數(shù)據(jù)遷移及應(yīng)用[J];吉林大學學報(信息科學版);2004年02期
3 孫鐵民;于杰;尚程;田大新;張麗華;;基于無監(jiān)督學習的數(shù)據(jù)清洗算法[J];吉林大學學報(信息科學版);2008年06期
4 陸娟;蔣平;吳偉;;PGIS支持下的警務(wù)信息地圖位置采集方式探討[J];地理信息世界;2011年06期
5 陸娟;湯國安;蔣平;吳偉;;公安業(yè)務(wù)地理信息關(guān)聯(lián)采集方式的研究[J];地球信息科學學報;2010年05期
6 代昆玉;胡濱;;基于數(shù)據(jù)倉庫的數(shù)據(jù)清理技術(shù)概述[J];貴州大學學報(自然科學版);2007年03期
7 余明朗;明小娜;龍毅;張雪英;;GIS環(huán)境下中文命令的規(guī)則匹配與語義解析[J];地理與地理信息科學;2012年06期
8 湯廖文;;增城警用標準地址庫建設(shè)及管理[J];城市勘測;2013年03期
9 王曙;吉雷靜;張雪英;趙仁亮;陳曉丹;余浩;;面向網(wǎng)頁文本的地理要素變化檢測[J];地球信息科學學報;2013年05期
10 莊海東;張鴻恩;;基于規(guī)則的中文地址匹配系統(tǒng)[J];福建電腦;2013年09期
相關(guān)會議論文 前1條
1 陳X;李心科;;基于可擴展數(shù)據(jù)清理框架的元數(shù)據(jù)的研究[A];計算機技術(shù)與應(yīng)用進展·2007——全國第18屆計算機技術(shù)與應(yīng)用(CACIS)學術(shù)會議論文集[C];2007年
相關(guān)博士學位論文 前10條
1 潘鵬;Deep Web查詢中的不確定性問題研究[D];山東大學;2010年
2 黃莉;基于語義關(guān)聯(lián)的重復(fù)數(shù)據(jù)清理技術(shù)研究[D];華中科技大學;2011年
3 張小剛;關(guān)聯(lián)規(guī)則挖掘及其在復(fù)雜工業(yè)過程控制中的應(yīng)用研究[D];湖南大學;2002年
4 陳珉;分布式空間數(shù)據(jù)庫主動數(shù)據(jù)更新研究[D];武漢大學;2004年
5 陳偉;數(shù)據(jù)清理關(guān)鍵技術(shù)及其軟件平臺的研究與應(yīng)用[D];南京航空航天大學;2005年
6 劉亞波;關(guān)聯(lián)規(guī)則挖掘方法的研究及應(yīng)用[D];吉林大學;2005年
7 張瑞軍;基于信息鏈的智能信息處理關(guān)鍵技術(shù)研究[D];武漢理工大學;2007年
8 夏驕雄;數(shù)據(jù)資源聚類預(yù)處理及其應(yīng)用研究[D];上海大學;2007年
9 賈俊杰;空間數(shù)據(jù)挖掘中若干關(guān)鍵技術(shù)研究[D];長安大學;2009年
10 戴東波;序列數(shù)據(jù)的相似性查詢研究[D];復(fù)旦大學;2009年
相關(guān)碩士學位論文 前10條
1 侯佳奇;社保聯(lián)網(wǎng)審計中增量數(shù)據(jù)分布式處理的研究[D];哈爾濱工程大學;2010年
2 王爽;GIS與空間數(shù)據(jù)挖掘技術(shù)在環(huán)境污染事故應(yīng)急處理系統(tǒng)中的應(yīng)用研究[D];中國海洋大學;2010年
3 葉奇旺;數(shù)據(jù)挖掘技術(shù)在手機行業(yè)客戶關(guān)系管理中的應(yīng)用研究[D];東華大學;2011年
4 范曉燕;數(shù)據(jù)挖掘技術(shù)在新生兒數(shù)據(jù)分析中的應(yīng)用研究[D];東華大學;2011年
5 魏勤勤;在線交互與學習平臺中個性化信息挖掘研究[D];西安電子科技大學;2009年
6 王元;基于XML的異構(gòu)數(shù)據(jù)源管理的研究[D];吉林大學;2011年
7 崔文;基于柔性統(tǒng)計系統(tǒng)的港口企業(yè)多維度統(tǒng)計模式構(gòu)建[D];北京交通大學;2011年
8 趙飛國;面向數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理系統(tǒng)設(shè)計與實現(xiàn)[D];北京交通大學;2011年
9 周興強;RFID數(shù)據(jù)流清洗技術(shù)及其系統(tǒng)實現(xiàn)[D];大連海事大學;2011年
10 王婕;分布式網(wǎng)絡(luò)數(shù)據(jù)采集關(guān)鍵技術(shù)研究[D];中北大學;2011年
【二級參考文獻】
相關(guān)期刊論文 前10條
1 朱建偉,王澤民;地理編碼原理及其本地化解決方案[J];北京測繪;2004年02期
2 張鶴;孔令彥;陳倬;孫樂兵;;城市地址編碼發(fā)展歷史及現(xiàn)狀分析[J];測繪通報;2008年07期
3 張林曼;吳升;;地理編碼系統(tǒng)中地址匹配引擎的設(shè)計與實現(xiàn)[J];測繪信息與工程;2008年06期
4 高昭良;;城市地理空間字典——地理編碼[J];城市勘測;2008年02期
5 胡青;徐建華;王志海;;GIS數(shù)據(jù)庫中地址自動匹配方法研究[J];測繪與空間地理信息;2008年06期
6 江綿康;;上海市基礎(chǔ)地理要素編碼標準編制研究[J];地理與地理信息科學;2006年02期
7 高巍;;在大城市實現(xiàn)有線電視用戶地址標準化的設(shè)想[J];廣播與電視技術(shù);2007年10期
8 蔣景f,
本文編號:1891808
本文鏈接:http://sikaile.net/guanlilunwen/kehuguanxiguanli/1891808.html