實(shí)體識(shí)別關(guān)鍵技術(shù)的研究
發(fā)布時(shí)間:2017-09-12 03:36
本文關(guān)鍵詞:實(shí)體識(shí)別關(guān)鍵技術(shù)的研究
更多相關(guān)文章: 實(shí)體識(shí)別 數(shù)據(jù)質(zhì)量 質(zhì)量評(píng)估 圖聚類 度量學(xué)習(xí)
【摘要】:實(shí)體識(shí)別在數(shù)據(jù)質(zhì)量管理中起著重要地位。它是數(shù)據(jù)質(zhì)量管理的重要研究方向。在一個(gè)或多個(gè)數(shù)據(jù)庫中,同一個(gè)現(xiàn)實(shí)世界實(shí)體可能具有多種描述方式。實(shí)體識(shí)別的目的是識(shí)別出數(shù)據(jù)集中描述同一真實(shí)世界實(shí)體的元組。實(shí)體識(shí)別的結(jié)果可以在數(shù)據(jù)質(zhì)量管理的其他階段,例如數(shù)據(jù)清洗階段和數(shù)據(jù)質(zhì)量評(píng)估階段,得到廣泛應(yīng)用。同一實(shí)體具有不同描述的問題在各種應(yīng)用領(lǐng)域的信息系統(tǒng)中普遍存在。由于實(shí)體識(shí)別在數(shù)據(jù)質(zhì)量管理中具有重要意義,人們已經(jīng)開始了實(shí)體識(shí)別的研究。盡管現(xiàn)有的方法能夠在很多應(yīng)用中有效的識(shí)別實(shí)體,但是還存在如下的不足:1.當(dāng)前的實(shí)體識(shí)別存在重名和異名的問題。重名是指描述現(xiàn)實(shí)世界不同實(shí)體的數(shù)據(jù)對(duì)象的名字相同,而異名是指描述現(xiàn)實(shí)世界中相同實(shí)體的數(shù)據(jù)對(duì)象的名字不同。目前實(shí)體識(shí)別的研究或是只解決了重名問題,即對(duì)名字相同的數(shù)據(jù)對(duì)象進(jìn)行實(shí)體劃分或是只解決了異名問題,即識(shí)別出名字不同但描述相同實(shí)體的對(duì)象集合,而缺少對(duì)一般情況(即重名和異名同時(shí)存在的情況)的考慮。2.傳統(tǒng)實(shí)體識(shí)別方法往往是基于元組的相似性比較來獲得結(jié)果的。它們假設(shè)數(shù)據(jù)集滿足緊湊集性質(zhì),即指代同一實(shí)體的元組的相似度比指代不同實(shí)體的元組對(duì)的相似度更高。然而,在某些情況下,這樣的性質(zhì)并不成立,則傳統(tǒng)的實(shí)體識(shí)別方法不能有效地識(shí)別實(shí)體。3.當(dāng)前實(shí)體識(shí)別方法中所采用的相似性度量并沒有考慮不同詞之間所具有的相關(guān)性以及某些描述實(shí)體重要特征的詞對(duì)識(shí)別實(shí)體的重要貢獻(xiàn);诋(dāng)前的相似性度量方法,往往不能得到有效的實(shí)體識(shí)別結(jié)果。4.目前的數(shù)據(jù)質(zhì)量評(píng)估只包括一致性,時(shí)效性,完整性和精確性。然而通過實(shí)體識(shí)別的結(jié)果可以評(píng)估另一類數(shù)據(jù)質(zhì)量問題,即指代同一真實(shí)世界中的實(shí)體的元組在各屬性上的值存在沖突的問題。我們將該問題稱為冗余數(shù)據(jù)上的實(shí)體描述沖突問題。當(dāng)前尚無任何評(píng)估實(shí)體描述沖突的方法提出。綜合上述分析,本文將以信息集成和互聯(lián)網(wǎng)搜索為背景,研究數(shù)據(jù)質(zhì)量管理中實(shí)體識(shí)別的關(guān)鍵技術(shù),以最大化實(shí)體識(shí)別結(jié)果精確度,最小化時(shí)間復(fù)雜性為目標(biāo),研究基于圖模型的實(shí)體識(shí)別框架、基于規(guī)則的實(shí)體識(shí)別算法、基于距離度量的實(shí)體識(shí)別算法和基于實(shí)體識(shí)別結(jié)果對(duì)數(shù)據(jù)質(zhì)量的評(píng)估。本文的主要研究成果如下:(1)提出了實(shí)體識(shí)別問題中的異名和重名同時(shí)存在的現(xiàn)象,據(jù)我們所知,這是首次在實(shí)體識(shí)別問題中考慮這兩類問題同時(shí)出現(xiàn)的情況。本文提出了一種普遍適用的實(shí)體識(shí)別技術(shù)框架EIF,該框架通過將元組之間的相似性關(guān)系轉(zhuǎn)化為圖模型,從而利用圖聚類算法解決實(shí)體識(shí)別問題;谒岢龅腅IF框架,本文設(shè)計(jì)了識(shí)別論文作者的算法。該算法有效地利用了作者名字和合作者信息來實(shí)現(xiàn)同時(shí)具有異名問題和重名問題的論文集合上的作者識(shí)別。實(shí)驗(yàn)結(jié)果表明基于EIF框架的作者識(shí)別算法的結(jié)果精確度優(yōu)于現(xiàn)有方法。(2)針對(duì)某些難以用元組相似性比較來識(shí)別實(shí)體的情況,提出了利用實(shí)體描述信息所建立的規(guī)則來識(shí)別指代相同實(shí)體的元組的方法。設(shè)計(jì)了實(shí)體識(shí)別規(guī)則的語法和語義,定義并分析了實(shí)體識(shí)別規(guī)則系統(tǒng)的獨(dú)立性,一致性,完整性和有效性。提出了一種有效的規(guī)則發(fā)現(xiàn)算法和基于規(guī)則的實(shí)體識(shí)別算法,并對(duì)算法的正確性和復(fù)雜度進(jìn)行了分析。最后提出了一個(gè)規(guī)則更新策略。在真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)對(duì)所提出的算法的效率和有效性進(jìn)行了驗(yàn)證。(3)以詞作為描述實(shí)體的特征,分別為元組對(duì)上的實(shí)體識(shí)別和元組集合上的實(shí)體識(shí)別提出了兩種基于詞特征的距離度量和距離度量的學(xué)習(xí)算法。在算法中,通過將訓(xùn)練集中的元組或元組對(duì)轉(zhuǎn)換成以詞為特征的向量,利用學(xué)習(xí)算法計(jì)算出基于詞特征的距離度量。在真實(shí)數(shù)據(jù)上的擴(kuò)展性實(shí)驗(yàn)對(duì)我們所提出的度量學(xué)習(xí)算法的有效性進(jìn)行了驗(yàn)證。(4)定義了實(shí)體描述沖突的數(shù)學(xué)模型。當(dāng)實(shí)體識(shí)別結(jié)果的精確性不是100%時(shí),提出了實(shí)體描述沖突的范圍計(jì)算問題。為了解決這個(gè)問題,提出了四個(gè)基本操作并證明了實(shí)體描述沖突范圍的計(jì)算問題是NP難并為四個(gè)基本操作提出四個(gè)近似算法,給出了近似比。提出了一個(gè)基于四個(gè)基本操作的計(jì)算實(shí)體描述沖突范圍的框架。在真實(shí)數(shù)據(jù)和合成數(shù)據(jù)上對(duì)所提出的算法的有效性和效率進(jìn)行了驗(yàn)證。
【關(guān)鍵詞】:實(shí)體識(shí)別 數(shù)據(jù)質(zhì)量 質(zhì)量評(píng)估 圖聚類 度量學(xué)習(xí)
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.13;TP391.41
【目錄】:
- 摘要4-6
- ABSTRACT6-15
- 第1章 緒論15-31
- 1.1 研究背景16
- 1.2 研究現(xiàn)狀及分析16-28
- 1.2.1 實(shí)體識(shí)別的索引技術(shù)17-20
- 1.2.2 元組對(duì)的比較技術(shù)20-24
- 1.2.3 實(shí)體識(shí)別分類技術(shù)24-27
- 1.2.4 現(xiàn)有工作的不足27-28
- 1.3 本文的研究內(nèi)容28-31
- 1.3.1 基于圖模型的實(shí)體識(shí)別29
- 1.3.2 基于規(guī)則的實(shí)體識(shí)別29
- 1.3.3 基于距離度量的實(shí)體識(shí)別29-30
- 1.3.4 實(shí)體描述信息沖突評(píng)估30-31
- 第2章 基于圖模型的實(shí)體識(shí)別31-44
- 2.1 引言31-32
- 2.2 基于圖模型的實(shí)體識(shí)別框架32-36
- 2.2.1 框架介紹33-34
- 2.2.2 局部的數(shù)據(jù)對(duì)象劃分算法34-35
- 2.2.3 EIF的例子35-36
- 2.3 基于EIF的作者識(shí)別算法36-38
- 2.3.1 作者名的歸類算法37-38
- 2.3.2 基于聚類技術(shù)的數(shù)據(jù)對(duì)象劃分38
- 2.4 實(shí)驗(yàn)評(píng)估38-43
- 2.4.1 實(shí)驗(yàn)設(shè)置38-39
- 2.4.2 在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果39-40
- 2.4.3 比較實(shí)驗(yàn)40-41
- 2.4.4 參數(shù)實(shí)驗(yàn)41-43
- 2.5 本章小結(jié)43-44
- 第3章 基于規(guī)則的實(shí)體識(shí)別44-74
- 3.1 引言44-47
- 3.2 實(shí)體識(shí)別規(guī)則47-51
- 3.2.1 實(shí)體識(shí)別規(guī)則的語法47-48
- 3.2.2 實(shí)體識(shí)別規(guī)則的語義48-49
- 3.2.3 ER規(guī)則集合的性質(zhì)49-51
- 3.3 實(shí)體識(shí)別規(guī)則的發(fā)現(xiàn)51-63
- 3.3.1 規(guī)則發(fā)現(xiàn)問題52-56
- 3.3.2 PR生成算法56-60
- 3.3.3 NR生成算法60-62
- 3.3.4 算法分析62-63
- 3.4 基于規(guī)則的實(shí)體識(shí)別63-66
- 3.5 規(guī)則的更新66-67
- 3.6 實(shí)驗(yàn)評(píng)估67-73
- 3.6.1 實(shí)驗(yàn)設(shè)置68-69
- 3.6.2 比較實(shí)驗(yàn)69-70
- 3.6.3 更新規(guī)則的作用70-71
- 3.6.4 訓(xùn)練集大小和閾值的影響71
- 3.6.5 效率和可擴(kuò)展性71-73
- 3.7 本章小結(jié)73-74
- 第4章 基于距離度量的實(shí)體識(shí)別74-91
- 4.1 引言74-76
- 4.2 背景介紹76-78
- 4.2.1 主成分分析法77-78
- 4.2.2 大間隔最近鄰學(xué)習(xí)算法78
- 4.3 實(shí)體識(shí)別的度量學(xué)習(xí)78-85
- 4.3.1 元組對(duì)上實(shí)體識(shí)別的度量學(xué)習(xí)79-82
- 4.3.2 元組集合上實(shí)體識(shí)別的度量學(xué)習(xí)82-85
- 4.4 基于距離度量的實(shí)體識(shí)別85-86
- 4.5 實(shí)驗(yàn)評(píng)估86-90
- 4.5.1 實(shí)驗(yàn)設(shè)置86-87
- 4.5.2 實(shí)驗(yàn)結(jié)果87-90
- 4.6 本章小結(jié)90-91
- 第5章 對(duì)冗余元組中實(shí)體描述的沖突評(píng)估91-112
- 5.1 引言91-93
- 5.2 實(shí)體描述沖突模型93-94
- 5.3 edc范圍計(jì)算問題94-97
- 5.3.1 四個(gè)基本運(yùn)算符94-96
- 5.3.2 計(jì)算復(fù)雜性96-97
- 5.4 edc范圍計(jì)算框架97-108
- 5.4.1 Max Dec算法98-100
- 5.4.2 Min Dec算法100
- 5.4.3 Max Inc算法100-105
- 5.4.4 Min Inc算法105-108
- 5.5 實(shí)驗(yàn)評(píng)估108-111
- 5.5.1 實(shí)驗(yàn)設(shè)置108-109
- 5.5.2 實(shí)驗(yàn)有效性109
- 5.5.3 參數(shù)的影響109-111
- 5.5.4 實(shí)驗(yàn)效率111
- 5.6 本章小結(jié)111-112
- 結(jié)論112-114
- 參考文獻(xiàn)114-126
- 攻讀博士學(xué)位期間發(fā)表的論文及其他成果126-128
- 致謝128-129
- 個(gè)人簡歷129
本文編號(hào):834871
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/834871.html
最近更新
教材專著