網(wǎng)絡(luò)表格中的外鍵檢測算法研究
發(fā)布時(shí)間:2021-05-09 13:57
隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)上涌現(xiàn)出越來越多的表格數(shù)據(jù)。這些結(jié)構(gòu)化的網(wǎng)絡(luò)表格覆蓋面廣且信息量大,因而備受人們關(guān)注。作為數(shù)據(jù)庫中最重要的約束之一,外鍵關(guān)系對數(shù)據(jù)分析與集成有著重要的意義。然而對于來自異構(gòu)數(shù)據(jù)源的大量的網(wǎng)絡(luò)表格來講,其外鍵關(guān)系并未顯式指定。因此,發(fā)現(xiàn)外鍵關(guān)系對于理解和利用網(wǎng)絡(luò)表格至關(guān)重要,F(xiàn)有的外鍵關(guān)系檢測算法存在一定的局限性:一方面,目前的外鍵關(guān)系檢測工作大部分針對傳統(tǒng)關(guān)系表,并依賴表中結(jié)構(gòu)信息進(jìn)行外鍵檢測,而網(wǎng)絡(luò)表格通常缺乏列名以及表名等模式信息,因此傳統(tǒng)方法對網(wǎng)絡(luò)表格并不適用。另一方面,現(xiàn)有的外鍵檢測算法只能保證屬性列間的語義相關(guān)性,卻并未考慮由于網(wǎng)絡(luò)表格的異構(gòu)性,以及外鍵關(guān)系所需滿足的屬性參照規(guī)則而產(chǎn)生的大量沖突外鍵。針對以上問題,本文對網(wǎng)絡(luò)表格中的外鍵關(guān)系檢測算法做了深入研究,具體工作如下:(1)提出基于分布擬合的網(wǎng)絡(luò)表格外鍵檢測算法,以解決網(wǎng)絡(luò)表格中的外鍵檢測問題。我們首先放松外鍵關(guān)系應(yīng)滿足的規(guī)則,通過定義擬合優(yōu)度來衡量兩種分布間擬合程度,以便評估候選對是否為真正的外鍵關(guān)系;此外,我們提出多遍劃分策略用于分區(qū)圖構(gòu)建,使得我們的算法可以更有效地檢測外鍵關(guān)系并可以擴(kuò)展到...
【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【文章目錄】:
致謝
摘要
ABSTRACT
1 引言
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 網(wǎng)絡(luò)表格的研究現(xiàn)狀
1.2.2 外鍵檢測的研究現(xiàn)狀
1.3 本文完成的工作
1.4 本文的組織結(jié)構(gòu)
2 網(wǎng)絡(luò)表格外鍵檢測的相關(guān)技術(shù)概述
2.1 外鍵檢測相關(guān)的數(shù)據(jù)源介紹
2.1.1 傳統(tǒng)關(guān)系型表格
2.1.2 網(wǎng)絡(luò)關(guān)系型表格
2.2 外鍵檢測的相關(guān)技術(shù)
2.2.1 相似度算法
2.2.2 包含依賴算法
2.2.3 分布檢驗(yàn)算法
2.3 本章小結(jié)
3 基于分布擬合的網(wǎng)絡(luò)表格外鍵檢測算法
3.1 問題引入
3.2 網(wǎng)絡(luò)表格外鍵檢測預(yù)處理
3.2.1 網(wǎng)絡(luò)表格
3.2.2 候選外鍵
3.3 基于分布擬合的外鍵檢測算法
3.3.1 方案概述
3.3.2 分布擬合
3.3.3 外鍵發(fā)現(xiàn)
3.4 實(shí)驗(yàn)結(jié)果與分析
3.4.1 分區(qū)大小選取
3.4.2 算法性能評估
3.4.3 可擴(kuò)展性評估
3.4.4 不同數(shù)據(jù)類型下算法的性能評估
3.5 本章小結(jié)
4 網(wǎng)絡(luò)表格中外鍵關(guān)系的沖突依賴消除
4.1 問題引入
4.2 問題模型
4.2.1 問題定義
4.2.2 系統(tǒng)框架
4.3 外鍵關(guān)系的沖突依賴消除
4.3.1 層結(jié)構(gòu)的構(gòu)建
4.3.2 外鍵關(guān)系評分
4.3.3 外鍵關(guān)系篩選
4.4 實(shí)驗(yàn)結(jié)果與分析
4.4.1 實(shí)驗(yàn)設(shè)置
4.4.2 實(shí)驗(yàn)方法
4.4.3 算法性能比較
4.4.4 運(yùn)行時(shí)間評估
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 研究工作總結(jié)
5.2 下一步工作與展望
參考文獻(xiàn)
作者簡歷及攻讀碩士學(xué)位期間取得的研究成果
學(xué)位論文數(shù)據(jù)集
【參考文獻(xiàn)】:
期刊論文
[1]Web表格的實(shí)體列發(fā)現(xiàn)算法[J]. 張麗方,王寧,齊飛. 計(jì)算機(jī)工程. 2017(12)
[2]基于列重合度的網(wǎng)絡(luò)表格一致性擴(kuò)展[J]. 齊飛,王寧,張麗方,孫偉娟. 計(jì)算機(jī)科學(xué). 2017(09)
[3]網(wǎng)絡(luò)表格間的快照關(guān)系發(fā)現(xiàn)[J]. 王寧,任紅偉. 計(jì)算機(jī)科學(xué). 2015(07)
碩士論文
[1]實(shí)體一致性擴(kuò)展技術(shù)研究[D]. 孫偉娟.北京交通大學(xué) 2018
[2]網(wǎng)絡(luò)表格擴(kuò)展技術(shù)研究[D]. 齊飛.北京交通大學(xué) 2017
[3]基于眾包的網(wǎng)絡(luò)表格語義恢復(fù)[D]. 劉華西.北京交通大學(xué) 2016
[4]網(wǎng)絡(luò)表格的實(shí)體列發(fā)現(xiàn)與標(biāo)識[D]. 任向冉.北京交通大學(xué) 2015
[5]網(wǎng)絡(luò)表格間的關(guān)聯(lián)關(guān)系發(fā)現(xiàn)[D]. 任紅偉.北京交通大學(xué) 2015
本文編號:3177426
【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【文章目錄】:
致謝
摘要
ABSTRACT
1 引言
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 網(wǎng)絡(luò)表格的研究現(xiàn)狀
1.2.2 外鍵檢測的研究現(xiàn)狀
1.3 本文完成的工作
1.4 本文的組織結(jié)構(gòu)
2 網(wǎng)絡(luò)表格外鍵檢測的相關(guān)技術(shù)概述
2.1 外鍵檢測相關(guān)的數(shù)據(jù)源介紹
2.1.1 傳統(tǒng)關(guān)系型表格
2.1.2 網(wǎng)絡(luò)關(guān)系型表格
2.2 外鍵檢測的相關(guān)技術(shù)
2.2.1 相似度算法
2.2.2 包含依賴算法
2.2.3 分布檢驗(yàn)算法
2.3 本章小結(jié)
3 基于分布擬合的網(wǎng)絡(luò)表格外鍵檢測算法
3.1 問題引入
3.2 網(wǎng)絡(luò)表格外鍵檢測預(yù)處理
3.2.1 網(wǎng)絡(luò)表格
3.2.2 候選外鍵
3.3 基于分布擬合的外鍵檢測算法
3.3.1 方案概述
3.3.2 分布擬合
3.3.3 外鍵發(fā)現(xiàn)
3.4 實(shí)驗(yàn)結(jié)果與分析
3.4.1 分區(qū)大小選取
3.4.2 算法性能評估
3.4.3 可擴(kuò)展性評估
3.4.4 不同數(shù)據(jù)類型下算法的性能評估
3.5 本章小結(jié)
4 網(wǎng)絡(luò)表格中外鍵關(guān)系的沖突依賴消除
4.1 問題引入
4.2 問題模型
4.2.1 問題定義
4.2.2 系統(tǒng)框架
4.3 外鍵關(guān)系的沖突依賴消除
4.3.1 層結(jié)構(gòu)的構(gòu)建
4.3.2 外鍵關(guān)系評分
4.3.3 外鍵關(guān)系篩選
4.4 實(shí)驗(yàn)結(jié)果與分析
4.4.1 實(shí)驗(yàn)設(shè)置
4.4.2 實(shí)驗(yàn)方法
4.4.3 算法性能比較
4.4.4 運(yùn)行時(shí)間評估
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 研究工作總結(jié)
5.2 下一步工作與展望
參考文獻(xiàn)
作者簡歷及攻讀碩士學(xué)位期間取得的研究成果
學(xué)位論文數(shù)據(jù)集
【參考文獻(xiàn)】:
期刊論文
[1]Web表格的實(shí)體列發(fā)現(xiàn)算法[J]. 張麗方,王寧,齊飛. 計(jì)算機(jī)工程. 2017(12)
[2]基于列重合度的網(wǎng)絡(luò)表格一致性擴(kuò)展[J]. 齊飛,王寧,張麗方,孫偉娟. 計(jì)算機(jī)科學(xué). 2017(09)
[3]網(wǎng)絡(luò)表格間的快照關(guān)系發(fā)現(xiàn)[J]. 王寧,任紅偉. 計(jì)算機(jī)科學(xué). 2015(07)
碩士論文
[1]實(shí)體一致性擴(kuò)展技術(shù)研究[D]. 孫偉娟.北京交通大學(xué) 2018
[2]網(wǎng)絡(luò)表格擴(kuò)展技術(shù)研究[D]. 齊飛.北京交通大學(xué) 2017
[3]基于眾包的網(wǎng)絡(luò)表格語義恢復(fù)[D]. 劉華西.北京交通大學(xué) 2016
[4]網(wǎng)絡(luò)表格的實(shí)體列發(fā)現(xiàn)與標(biāo)識[D]. 任向冉.北京交通大學(xué) 2015
[5]網(wǎng)絡(luò)表格間的關(guān)聯(lián)關(guān)系發(fā)現(xiàn)[D]. 任紅偉.北京交通大學(xué) 2015
本文編號:3177426
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3177426.html
最近更新
教材專著