數(shù)據(jù)質(zhì)量檢測規(guī)則自動發(fā)現(xiàn)的研究與實現(xiàn)
發(fā)布時間:2021-01-20 03:56
數(shù)據(jù)如同產(chǎn)品,具有質(zhì)量這一概念,且其質(zhì)量的高低影響著目標數(shù)據(jù)被充分挖掘的程度和可靠性。由于在日常生產(chǎn)和生活中,數(shù)據(jù)的產(chǎn)生和加工過程可能伴隨臟數(shù)據(jù)的產(chǎn)生,使得對數(shù)據(jù)進行的分析工作具有可信度不高等特點。為了對數(shù)據(jù)的質(zhì)量情況進行檢測,需要配置一定的數(shù)據(jù)質(zhì)量檢測規(guī)則。然而現(xiàn)階段對于規(guī)則的配置多采用數(shù)據(jù)工程師手動配置的方式,導致工程師的工作量較大,工作效率較低,因此,對于如何從數(shù)據(jù)中自動發(fā)現(xiàn)數(shù)據(jù)質(zhì)量檢測規(guī)則的研究日漸活躍。由于條件函數(shù)依賴在表達屬性間關(guān)聯(lián)關(guān)系的同時還表達了具體的語義約束關(guān)系,因此目前對于數(shù)據(jù)質(zhì)量檢測規(guī)則自動發(fā)現(xiàn)的研究主要指的是對條件函數(shù)依賴自動發(fā)現(xiàn)的研究。又由于在實際應用中,數(shù)據(jù)存在缺失值會導致發(fā)現(xiàn)出的條件函數(shù)依賴數(shù)量較少,且已有研究工作較少關(guān)注條件函數(shù)依賴自動發(fā)現(xiàn)算法的剪枝優(yōu)化問題,因此,本文以數(shù)據(jù)質(zhì)量檢測規(guī)則的自動發(fā)現(xiàn)及其實現(xiàn)為研究課題,對缺失值填補方法和條件函數(shù)依賴自動發(fā)現(xiàn)方法進行了研究。主要研究內(nèi)容和成果如下:(1)針對數(shù)據(jù)集存在缺失值會減少從中發(fā)現(xiàn)出的條件函數(shù)依賴數(shù)量這一問題,提出了一種在數(shù)據(jù)預處理階段基于改進近鄰傳播聚類和改進K最近鄰來填補缺失值并提升缺失值填補準確性...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:88 頁
【學位級別】:碩士
【部分圖文】:
屬性包含格示意圖
第五章基于APTANEKNN-CCTANE的規(guī)則管理模塊設計與實現(xiàn)67擊“規(guī)則管理”模塊的“新增規(guī)則”按鈕,此時頁面如圖5-4所示,彈出的彈框包含了即將進行規(guī)則自動發(fā)現(xiàn)的數(shù)據(jù)集名稱、該數(shù)據(jù)集上的記錄數(shù),以及需要由用戶輸入的支持度參數(shù)。需要注意的是,此時的數(shù)據(jù)集名稱和該數(shù)據(jù)集上的記錄數(shù)為不可編輯狀態(tài)。此處顯示數(shù)據(jù)集記錄數(shù)的目的是為了限制用戶設置的支持度參數(shù)范圍,即支持度的取值范圍在0和數(shù)據(jù)集記錄數(shù)之間。當用戶設置好支持度參數(shù)后,即可點擊“確定”按鈕,傳遞頁面新增規(guī)則的請求,調(diào)用insert()方法進行缺失值的檢測、填補以及規(guī)則自動發(fā)現(xiàn)過程,同時頁面將顯示“規(guī)則正在生成,請耐心等待……”這一提示信息,當規(guī)則生成完畢后,頁面將顯示出生成的規(guī)則總數(shù)。另外,用戶可點擊“取消”按鈕來取消對規(guī)則的自動發(fā)現(xiàn)操作。圖5-4規(guī)則自動發(fā)現(xiàn)界面5.3.2.2規(guī)則管理界面規(guī)則管理界面如圖5-5所示,用戶在數(shù)據(jù)質(zhì)量檢測平臺根據(jù)數(shù)據(jù)源、業(yè)務分類選擇了具體的數(shù)據(jù)集之后,規(guī)則管理模塊會在頁面右側(cè)位置以列表的形式顯示出目標數(shù)據(jù)集上已配置的規(guī)則信息,包括規(guī)則名稱、規(guī)則的條件字段和結(jié)果字段,也就是CFDs中分別對應的左方集和右方集。另外,列表還會列出得到這條規(guī)則的支持度參數(shù),最后,用戶可以對選中的規(guī)則進行“查看詳情”、“編輯”和“刪除”操作。模塊中的“新增規(guī)則”指的是使用本文提出的CCTANE算法從目標數(shù)據(jù)集當中自動發(fā)現(xiàn)出數(shù)據(jù)質(zhì)量檢測規(guī)則。
電子科技大學碩士學位論文68圖5-5規(guī)則管理界面圖5-6展示了規(guī)則的“查看詳情”界面,用戶在該界面可以查看所選規(guī)則的詳細信息,包括規(guī)則名、條件字段、條件字段屬性值、結(jié)果字段、結(jié)果字段屬性值等,便于在后續(xù)數(shù)據(jù)質(zhì)量檢測環(huán)節(jié)根據(jù)規(guī)則信息設置適宜的權(quán)重進行數(shù)據(jù)質(zhì)量的檢測,但要注意的是,此時界面中的各輸入框均為不可編輯狀態(tài),只有在“編輯”操作時才可對輸入框中的內(nèi)容進行更新。圖5-6規(guī)則詳情界面5.4本章小結(jié)本章對實現(xiàn)數(shù)據(jù)質(zhì)量檢測規(guī)則統(tǒng)一管理和自動發(fā)現(xiàn)的規(guī)則管理模塊進行了詳細介紹,從模塊需求分析入手介紹了設計并實現(xiàn)這一模塊的原因以及要解決的問
本文編號:2988320
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:88 頁
【學位級別】:碩士
【部分圖文】:
屬性包含格示意圖
第五章基于APTANEKNN-CCTANE的規(guī)則管理模塊設計與實現(xiàn)67擊“規(guī)則管理”模塊的“新增規(guī)則”按鈕,此時頁面如圖5-4所示,彈出的彈框包含了即將進行規(guī)則自動發(fā)現(xiàn)的數(shù)據(jù)集名稱、該數(shù)據(jù)集上的記錄數(shù),以及需要由用戶輸入的支持度參數(shù)。需要注意的是,此時的數(shù)據(jù)集名稱和該數(shù)據(jù)集上的記錄數(shù)為不可編輯狀態(tài)。此處顯示數(shù)據(jù)集記錄數(shù)的目的是為了限制用戶設置的支持度參數(shù)范圍,即支持度的取值范圍在0和數(shù)據(jù)集記錄數(shù)之間。當用戶設置好支持度參數(shù)后,即可點擊“確定”按鈕,傳遞頁面新增規(guī)則的請求,調(diào)用insert()方法進行缺失值的檢測、填補以及規(guī)則自動發(fā)現(xiàn)過程,同時頁面將顯示“規(guī)則正在生成,請耐心等待……”這一提示信息,當規(guī)則生成完畢后,頁面將顯示出生成的規(guī)則總數(shù)。另外,用戶可點擊“取消”按鈕來取消對規(guī)則的自動發(fā)現(xiàn)操作。圖5-4規(guī)則自動發(fā)現(xiàn)界面5.3.2.2規(guī)則管理界面規(guī)則管理界面如圖5-5所示,用戶在數(shù)據(jù)質(zhì)量檢測平臺根據(jù)數(shù)據(jù)源、業(yè)務分類選擇了具體的數(shù)據(jù)集之后,規(guī)則管理模塊會在頁面右側(cè)位置以列表的形式顯示出目標數(shù)據(jù)集上已配置的規(guī)則信息,包括規(guī)則名稱、規(guī)則的條件字段和結(jié)果字段,也就是CFDs中分別對應的左方集和右方集。另外,列表還會列出得到這條規(guī)則的支持度參數(shù),最后,用戶可以對選中的規(guī)則進行“查看詳情”、“編輯”和“刪除”操作。模塊中的“新增規(guī)則”指的是使用本文提出的CCTANE算法從目標數(shù)據(jù)集當中自動發(fā)現(xiàn)出數(shù)據(jù)質(zhì)量檢測規(guī)則。
電子科技大學碩士學位論文68圖5-5規(guī)則管理界面圖5-6展示了規(guī)則的“查看詳情”界面,用戶在該界面可以查看所選規(guī)則的詳細信息,包括規(guī)則名、條件字段、條件字段屬性值、結(jié)果字段、結(jié)果字段屬性值等,便于在后續(xù)數(shù)據(jù)質(zhì)量檢測環(huán)節(jié)根據(jù)規(guī)則信息設置適宜的權(quán)重進行數(shù)據(jù)質(zhì)量的檢測,但要注意的是,此時界面中的各輸入框均為不可編輯狀態(tài),只有在“編輯”操作時才可對輸入框中的內(nèi)容進行更新。圖5-6規(guī)則詳情界面5.4本章小結(jié)本章對實現(xiàn)數(shù)據(jù)質(zhì)量檢測規(guī)則統(tǒng)一管理和自動發(fā)現(xiàn)的規(guī)則管理模塊進行了詳細介紹,從模塊需求分析入手介紹了設計并實現(xiàn)這一模塊的原因以及要解決的問
本文編號:2988320
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2988320.html
最近更新
教材專著