基于模糊聚類的數(shù)據(jù)庫空值估計研究
發(fā)布時間:2017-08-14 13:03
本文關(guān)鍵詞:基于模糊聚類的數(shù)據(jù)庫空值估計研究
更多相關(guān)文章: 關(guān)系數(shù)據(jù)庫 模糊聚類 空值 表間關(guān)聯(lián)信息 多元線性回歸
【摘要】:隨著數(shù)字時代的來臨,數(shù)據(jù)的存儲和處理工作越來越得到重視。數(shù)據(jù)挖掘技術(shù)作為一種數(shù)據(jù)處理方法需要對數(shù)據(jù)進(jìn)行有效的預(yù)處理,而預(yù)處理過程中對存儲在數(shù)據(jù)庫中的缺失數(shù)據(jù)進(jìn)行推導(dǎo)并填補(bǔ)已經(jīng)成為一個亟待解決的熱點(diǎn)研究問題。普通FCM算法仍然存在初始聚類中心的選擇具有隨機(jī)性以及收斂較慢等問題。針對初始聚類中心的選擇,結(jié)合k維樹和空間劃分樹,分別提出了改進(jìn)的FCM算法。該算法能夠有目的地找到一組優(yōu)化的初始聚類中心從而減少迭代次數(shù)和運(yùn)行時間。針對數(shù)據(jù)庫中的空值問題,給出一種基于FCM關(guān)系數(shù)據(jù)庫單空值估計方法。算法通過相關(guān)降維技術(shù)獲得一組較為客觀的空值屬性的依賴屬性。在此基礎(chǔ)上利用改進(jìn)的FCM算法對數(shù)據(jù)集進(jìn)行聚類。針對每一個聚類中情況的不同,分別使用多元線性回歸的方法得到一個近似的擬合函數(shù)。實(shí)驗(yàn)表明該方法能夠提高空值估計的準(zhǔn)確性,得出的估計值具有較高的準(zhǔn)確率。大多數(shù)空值估計方法僅僅基于空值所在數(shù)據(jù)表的信息,而忽視了關(guān)系數(shù)據(jù)庫中數(shù)據(jù)表之間的關(guān)聯(lián)關(guān)系。針對這一問題,利用數(shù)據(jù)表間的外鍵傳遞關(guān)系,引入多表間的關(guān)聯(lián)關(guān)系以擴(kuò)充空值所在數(shù)據(jù)表的信息。根據(jù)數(shù)據(jù)庫中空值所在表和其他表的關(guān)聯(lián)關(guān)系的不同模式,提出三種不同模式下擴(kuò)充空值所在數(shù)據(jù)表信息的方法。對數(shù)據(jù)表中多個屬性上同時存在的空值,以往常用的方法忽視了空值之間的依賴關(guān)系,更沒有注意到空值估計的順序問題。對此研究了表內(nèi)空值間的相關(guān)關(guān)系,給出了空值的選取與轉(zhuǎn)化方法以及空值的估計優(yōu)先級。在兩者基礎(chǔ)上提出一種基于多表關(guān)聯(lián)信息的數(shù)據(jù)庫多空值估計方法。實(shí)驗(yàn)表明該方法與本文提出的基于FCM的數(shù)據(jù)庫單空值估計方法以及其他常用的空值估計方法相比,具有更高的準(zhǔn)確率。
【關(guān)鍵詞】:關(guān)系數(shù)據(jù)庫 模糊聚類 空值 表間關(guān)聯(lián)信息 多元線性回歸
【學(xué)位授予單位】:南京航空航天大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要4-5
- ABSTRACT5-11
- 注釋表11-12
- 縮略詞12-13
- 第一章 緒論13-19
- 1.1 研究背景13-14
- 1.2 國內(nèi)外研究現(xiàn)狀14-17
- 1.3 本文的主要研究內(nèi)容17-18
- 1.4 文章組織結(jié)構(gòu)18-19
- 第二章 數(shù)據(jù)庫空值估計的相關(guān)技術(shù)19-28
- 2.1 空值估計的粗糙集方法19-22
- 2.1.1 粗糙集理論的基本概念19-21
- 2.1.2 基于粗糙集的空值估計方法21-22
- 2.2 空值估計的云模型方法22-25
- 2.2.1 云模型的基本概念22-23
- 2.2.2 云模型的分群算法23-24
- 2.2.3 利用云發(fā)生器生成空值的估計值24-25
- 2.3 基于優(yōu)化算法的空值估計方法25-27
- 2.3.1 遺傳算法相關(guān)概念25
- 2.3.2 遺傳算法基本流程25-26
- 2.3.3 基于遺傳算法的空值估計方法26-27
- 2.4 本章小結(jié)27-28
- 第三章 改進(jìn)的FCM算法28-48
- 3.1 常用聚類算法28-31
- 3.1.1 k-means聚類算法28-29
- 3.1.2 層次聚類算法29
- 3.1.3 FCM聚類算法29-31
- 3.2 基于k維的FCM算法(kdFCM)31-34
- 3.2.1 k維樹31-32
- 3.2.2 改進(jìn)的FCM算法(kdFCM)32-34
- 3.3 基于空間劃分樹的FCM算法(spFCM)34-39
- 3.3.1 空間劃分樹34-38
- 3.3.2 改進(jìn)的FCM算法(spFCM)38-39
- 3.4 kdFCM算法與spFCM算法時間復(fù)雜度分析39-41
- 3.4.1 kdFCM算法時間復(fù)雜度分析39-40
- 3.4.2 spFCM算法時間復(fù)雜度分析40-41
- 3.5 實(shí)驗(yàn)與分析41-46
- 3.5.1 實(shí)驗(yàn)數(shù)據(jù)集41-42
- 3.5.2 實(shí)驗(yàn)結(jié)果和分析42-46
- 3.6 本章小結(jié)46-48
- 第四章 基于FCM的數(shù)據(jù)庫空值估計48-59
- 4.1 相關(guān)定義48-51
- 4.1.1 多元線性回歸48-49
- 4.1.2 模糊集及相關(guān)運(yùn)算49-50
- 4.1.3 基于粗糙集的屬性約簡50-51
- 4.2 基于FCM的數(shù)據(jù)庫空值估計方法(SNEF)51-54
- 4.2.1 算法描述51-54
- 4.2.2 算法分析54
- 4.3 SNEF方法的實(shí)驗(yàn)結(jié)果和分析54-58
- 4.3.1 實(shí)驗(yàn)數(shù)據(jù)54-55
- 4.3.2 實(shí)驗(yàn)結(jié)果與分析55-58
- 4.4 本章小結(jié)58-59
- 第五章 基于多表關(guān)聯(lián)關(guān)系的關(guān)系數(shù)據(jù)庫多空值估計59-73
- 5.1 表間關(guān)聯(lián)關(guān)系及處理59-64
- 5.1.1 星型關(guān)系模式59-61
- 5.1.2 雪花型關(guān)系模式61-62
- 5.1.3 星座型關(guān)系模式62-64
- 5.2 空值間相關(guān)關(guān)系及處理64-66
- 5.2.1 空值的選取與轉(zhuǎn)化64-65
- 5.2.2 空值的估計優(yōu)先排序65-66
- 5.3 基于多表關(guān)聯(lián)關(guān)系的數(shù)據(jù)庫空值估計方法(MNEMT)66-68
- 5.3.1 算法描述66-68
- 5.3.2 算法分析68
- 5.4 MNEMT方法的實(shí)驗(yàn)和分析68-71
- 5.4.1 實(shí)驗(yàn)數(shù)據(jù)68-69
- 5.4.2 實(shí)驗(yàn)結(jié)果與分析69-71
- 5.5 本章小結(jié)71-73
- 第六章 總結(jié)與展望73-75
- 6.1 總結(jié)73-74
- 6.2 展望74-75
- 參考文獻(xiàn)75-79
- 致謝79-80
- 在學(xué)期間的研究成果及發(fā)表的學(xué)術(shù)論文80
本文編號:672778
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/672778.html
最近更新
教材專著