基于屬性劃分信息增益的函數(shù)依賴挖掘算法研究
發(fā)布時(shí)間:2021-01-14 07:04
隨著互聯(lián)網(wǎng)時(shí)代的進(jìn)一步發(fā)展,數(shù)據(jù)成為了一種新興的生產(chǎn)資料。當(dāng)前,各行各業(yè)的信息系統(tǒng)中包含了大量的數(shù)據(jù),尤以關(guān)系型數(shù)據(jù)為主,這些數(shù)據(jù)往往存在錯(cuò)誤,難以有效利用。因此,人們希望能夠找到一些行之有效的策略對(duì)數(shù)據(jù)進(jìn)行修復(fù),而在關(guān)系型數(shù)據(jù)中,函數(shù)依賴扮演了數(shù)據(jù)修復(fù)的重要角色。函數(shù)依賴(Functional Dependency)是關(guān)系模型中的一個(gè)重要概念,可被用于模式泛化,數(shù)據(jù)清洗,數(shù)據(jù)修復(fù),數(shù)據(jù)整合等。關(guān)系數(shù)據(jù)下的函數(shù)依賴發(fā)現(xiàn)方法已經(jīng)被研究數(shù)十年,并提出了各種函數(shù)依賴挖掘方法,但是仍舊殘存了一些問題,例如挖掘?qū)傩詳?shù)目龐大的數(shù)據(jù)庫(kù)實(shí)例中的函數(shù)依賴時(shí),算法速度仍然不理想。近年來傳統(tǒng)的發(fā)現(xiàn)算法如深度優(yōu)先遍歷的DFD,其時(shí)間復(fù)雜度會(huì)呈現(xiàn)指數(shù)級(jí)上升。針對(duì)該問題,本文提出了屬性劃分信息增益這一概念,將原始DFD函數(shù)依賴發(fā)現(xiàn)算法和HYFD算法中的集中抽樣方法相結(jié)合。首選使用屬性劃分間的信息增益列表改進(jìn)原始DUCC算法中下一節(jié)點(diǎn)選擇的隨機(jī)游走備選策略,以此尋找唯一屬性組合MUC,再通過集中抽樣處理方法對(duì)數(shù)據(jù)集進(jìn)行抽樣計(jì)算得到非函數(shù)依賴,最后對(duì)單屬性主鍵節(jié)點(diǎn)、非單屬性主鍵、非函數(shù)依賴節(jié)點(diǎn)路線進(jìn)行剪枝,并參考信息...
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
adult數(shù)據(jù)集副本的具體錯(cuò)誤數(shù)據(jù)
訂正后的具體數(shù)據(jù)位置會(huì)被標(biāo)記為綠色。圖5.6 和圖 5.7 分別為被標(biāo)記的疑似錯(cuò)誤數(shù)據(jù)和被訂正的數(shù)據(jù)。表 5.3 為原始算法挖掘出的 FD 與插件挖掘出的 FD 的對(duì)比,數(shù)據(jù)中的第一個(gè)屬性設(shè)置為編號(hào) 1,第二個(gè)屬性設(shè)置為編號(hào) 2,以此類推。結(jié)果表明數(shù)據(jù)修訂插件能夠完全挖掘出正確的 FD。圖 5.6 插件標(biāo)記的疑似錯(cuò)誤數(shù)據(jù)圖 5.7 插件標(biāo)記的訂正數(shù)據(jù)
別為被標(biāo)記的疑似錯(cuò)誤數(shù)據(jù)和被訂正的數(shù)據(jù)。表 5.3 為原挖掘出的 FD 的對(duì)比,數(shù)據(jù)中的第一個(gè)屬性設(shè)置為編號(hào) 2,以此類推。結(jié)果表明數(shù)據(jù)修訂插件能夠完全挖掘出正圖 5.6 插件標(biāo)記的疑似錯(cuò)誤數(shù)據(jù)
本文編號(hào):2976455
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
adult數(shù)據(jù)集副本的具體錯(cuò)誤數(shù)據(jù)
訂正后的具體數(shù)據(jù)位置會(huì)被標(biāo)記為綠色。圖5.6 和圖 5.7 分別為被標(biāo)記的疑似錯(cuò)誤數(shù)據(jù)和被訂正的數(shù)據(jù)。表 5.3 為原始算法挖掘出的 FD 與插件挖掘出的 FD 的對(duì)比,數(shù)據(jù)中的第一個(gè)屬性設(shè)置為編號(hào) 1,第二個(gè)屬性設(shè)置為編號(hào) 2,以此類推。結(jié)果表明數(shù)據(jù)修訂插件能夠完全挖掘出正確的 FD。圖 5.6 插件標(biāo)記的疑似錯(cuò)誤數(shù)據(jù)圖 5.7 插件標(biāo)記的訂正數(shù)據(jù)
別為被標(biāo)記的疑似錯(cuò)誤數(shù)據(jù)和被訂正的數(shù)據(jù)。表 5.3 為原挖掘出的 FD 的對(duì)比,數(shù)據(jù)中的第一個(gè)屬性設(shè)置為編號(hào) 2,以此類推。結(jié)果表明數(shù)據(jù)修訂插件能夠完全挖掘出正圖 5.6 插件標(biāo)記的疑似錯(cuò)誤數(shù)據(jù)
本文編號(hào):2976455
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2976455.html
最近更新
教材專著