劣質數(shù)據(jù)上真值發(fā)現(xiàn)關鍵技術研究
發(fā)布時間:2017-04-13 13:13
本文關鍵詞:劣質數(shù)據(jù)上真值發(fā)現(xiàn)關鍵技術研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著信息時代的迅速發(fā)展,互聯(lián)網(wǎng)已經(jīng)逐漸成為人們獲取數(shù)據(jù)的主要方式。乃至當今很多的數(shù)據(jù)管理應用已經(jīng)擴展到利用網(wǎng)絡數(shù)據(jù)源來集成數(shù)據(jù)。那么對于現(xiàn)實世界中的同一個實體,不同的數(shù)據(jù)源可能對其提供沖突的描述,那么如何從這些沖突的描述中找出所有真實的信息就是沖突消解問題,我們主要研究語義上的沖突消解,也稱之為真值發(fā)現(xiàn)過程。 當原始數(shù)據(jù)中混亂實體集的比例越來越大,現(xiàn)有的方法準確率也逐漸降低。針對這一問題,本文提出了一種基于信息熵的數(shù)據(jù)劃分方法,將原始數(shù)據(jù)劃分成常規(guī)數(shù)據(jù)集和混亂數(shù)據(jù)集。通過基于概率模型的方法對常規(guī)數(shù)據(jù)集進行消解,采用多維屬性對數(shù)據(jù)源進行評估,并且充分考慮數(shù)據(jù)源之間存在的依賴關系,消除數(shù)據(jù)拷貝所帶來的影響。 由于混亂實體集中的實體描述集過于混亂,現(xiàn)有的方法并不能有效的計算出真值。于是提出一種基于網(wǎng)絡模式的消解方法,通過搜索引擎獲取相應實體信息構造該實體的候選描述集,通過一種高效的候選集評估模型從候選集中找出真值,同時,候選集規(guī)模采用動態(tài)確定方式降低了計算量。 除了考慮結構化數(shù)據(jù)的沖突消解,我們把背景擴大至社交網(wǎng)絡中的話題討論,由于數(shù)據(jù)的提供者不再是傳統(tǒng)的數(shù)據(jù)源,而是人。通過網(wǎng)絡獲取話題相關描述,結合網(wǎng)絡數(shù)據(jù)并通過給定的五個特性從用戶提供的描述構建候選集。結合人應該具備的特性,對用戶進行領域劃分并通過劃分結果對候選集中元素進行驗證,,選取最真實的描述。 最后本文在真實數(shù)據(jù)集上的實驗充分證明了我們各個方法的準確性和高效性。
【關鍵詞】:數(shù)據(jù)質量 真值發(fā)現(xiàn) 數(shù)據(jù)集成 沖突消解
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要4-5
- Abstract5-8
- 第1章 緒論8-16
- 1.1 課題背景及研究的目的和意義8-9
- 1.2 沖突消解及相關領域的現(xiàn)狀研究9-13
- 1.2.1 數(shù)據(jù)質量10-11
- 1.2.2 數(shù)據(jù)集成11-12
- 1.2.3 沖突消解的現(xiàn)狀12-13
- 1.3 本文的主要研究內(nèi)容13-14
- 1.4 本文的組織結構14-16
- 第2章 基于概率模型的多數(shù)據(jù)源沖突消解16-31
- 2.1 問題描述16-19
- 2.1.1 問題形式化定義17-18
- 2.1.2 計算框架18-19
- 2.2 沖突消解概率模型19-24
- 2.2.1 基于信息熵的數(shù)據(jù)劃分20
- 2.2.2 描述的概率分布20-22
- 2.2.3 數(shù)據(jù)源真實性評估22-24
- 2.3 數(shù)據(jù)源依賴關系24-27
- 2.3.1 問題簡介24-25
- 2.3.2 貝葉斯分析模型25-27
- 2.4 綜合的沖突消解策略27-28
- 2.5 實驗結果及分析28-30
- 2.5.1 實驗環(huán)境28
- 2.5.2 實驗結果和分析28-30
- 2.6 本章小結30-31
- 第3章 基于網(wǎng)絡模式的多數(shù)據(jù)源沖突消解31-45
- 3.1 方法概述31-34
- 3.1.1 動機31-33
- 3.1.2 問題簡介33-34
- 3.2 候選集的獲取34-36
- 3.2.1 關鍵字生成34-36
- 3.3 候選值評估36-42
- 3.3.1 真值計算36-38
- 3.3.2 候選值得分38-40
- 3.3.3 候選集規(guī)模動態(tài)確定40-42
- 3.4 實驗結果和分析42-44
- 3.4.1 實驗環(huán)境42
- 3.4.2 實驗結果和分析42-44
- 3.5 本章小結44-45
- 第4章 社區(qū)網(wǎng)絡中話題的真值發(fā)現(xiàn)45-58
- 4.1 概述45-49
- 4.1.1 問題描述45-46
- 4.1.2 方法總述46-49
- 4.2 可選候選集獲取49-52
- 4.2.1 候選集元素屬性49-50
- 4.2.2 候選描述的特征分析50-52
- 4.3 候選集驗證階段52-55
- 4.4 實驗結果和分析55-56
- 4.4.1 實驗設置55
- 4.4.2 實驗結果和分析55-56
- 4.5 本章小結56-58
- 結論58-59
- 參考文獻59-63
- 攻讀碩士學位期間發(fā)表的論文63-65
- 致謝65
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 蔡國森;數(shù)據(jù)語義沖突的解決方法[J];北京工商大學學報(自然科學版);2005年03期
2 屈振新;唐勝群;;信息集成中沖突的語義解決方案[J];計算機科學;2010年01期
3 曹建軍;刁興春;汪挺;王芳瀟;;領域無關數(shù)據(jù)清洗研究綜述[J];計算機科學;2010年05期
4 張志強;劉麗霞;謝曉芹;潘海為;方一向;;基于數(shù)據(jù)源依賴關系的信息評價方法研究[J];計算機學報;2012年11期
5 宋敏;覃正;;國外數(shù)據(jù)質量管理研究綜述[J];情報雜志;2007年02期
本文關鍵詞:劣質數(shù)據(jù)上真值發(fā)現(xiàn)關鍵技術研究,由筆耕文化傳播整理發(fā)布。
本文編號:303674
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/303674.html
最近更新
教材專著