基于多種數(shù)據(jù)源的中文知識圖譜構(gòu)建方法研究
本文關(guān)鍵詞:基于多種數(shù)據(jù)源的中文知識圖譜構(gòu)建方法研究
更多相關(guān)文章: 知識圖譜構(gòu)建 本體學(xué)習(xí) 開放鏈接數(shù)據(jù) 實體 自監(jiān)督學(xué)習(xí)
【摘要】:自從語義網(wǎng)的概念提出以來,越來越多的開放鏈接數(shù)據(jù)和用戶生成內(nèi)容被發(fā)布于互聯(lián)網(wǎng)中,互聯(lián)網(wǎng)逐步從僅包含網(wǎng)頁與網(wǎng)頁之間超鏈接的文檔萬維網(wǎng)轉(zhuǎn)變?yōu)榘罅棵枋龈鞣N實體和實體之間豐富關(guān)系的數(shù)據(jù)萬維網(wǎng)。在此背景下,知識圖譜首先由Google提出,其目標在于描述真實世界中存在的各種實體和概念,以及這些實體、概念之間的關(guān)聯(lián)關(guān)系。知識圖譜在實體層面對本體進行了豐富和擴充;本體中突出和強調(diào)的是概念以及概念之間的關(guān)聯(lián)關(guān)系,描述了知識圖譜的數(shù)據(jù)模式;而知識圖譜則是在本體的基礎(chǔ)上,增加了更加豐富的關(guān)于實體的信息。知識圖譜在語義搜索、智能問答、知識工程、數(shù)據(jù)挖掘和數(shù)字圖書館等領(lǐng)域有著廣泛的應(yīng)用。 本文在現(xiàn)有知識圖譜及其本體構(gòu)建研究的基礎(chǔ)上,研究從多種數(shù)據(jù)源中構(gòu)建中文知識圖譜,在以下方面展開了研究工作: 1.充分利用互聯(lián)網(wǎng)中的各類結(jié)構(gòu)化或半結(jié)構(gòu)化的信息,包括各種開放鏈接數(shù)據(jù)、在線百科、行業(yè)網(wǎng)站等,這些數(shù)據(jù)在覆蓋范圍方面有較大的優(yōu)勢,更新速度也比較快。本文描述了從這些結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)源中抽取和學(xué)習(xí)知識的方法,利用這些數(shù)據(jù)在廣度上的優(yōu)勢保證所構(gòu)建的知識圖譜的質(zhì)量。 2.研究如何綜合使用多種數(shù)據(jù)源構(gòu)建中文知識圖譜,結(jié)合各種數(shù)據(jù)源的優(yōu)勢,包括關(guān)系數(shù)據(jù)庫中數(shù)據(jù)的準確性,互聯(lián)網(wǎng)中的開放鏈接數(shù)據(jù)和領(lǐng)域公開知識庫的廣度優(yōu)勢,行業(yè)數(shù)據(jù)的深度優(yōu)勢等。提出一種基于多種數(shù)據(jù)源的知識圖譜構(gòu)建方法,該方法綜合利用不同數(shù)據(jù)源的優(yōu)勢,相互輔助進行知識學(xué)習(xí);同時利用多種數(shù)據(jù)源之間的冗余數(shù)據(jù)對知識圖譜的準確性進行有效地保證。 3.研究如何從大規(guī)模的互聯(lián)網(wǎng)文本中抽取知識圖譜形式的知識,提出一種基于自監(jiān)督機器學(xué)習(xí)的開放中文關(guān)系抽取方法,用于抽取實體(概念)之間的同義關(guān)系、上下位關(guān)系和屬性關(guān)系。該方法的主要優(yōu)勢在于能夠使用從結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù)中得到的知識以及一些通用的啟發(fā)式規(guī)則,自動標注語料。對于網(wǎng)頁中文本內(nèi)容的抽取,提出了一種基于啟發(fā)式規(guī)則的網(wǎng)頁正文內(nèi)容抽取算法,自動識別網(wǎng)頁中的正文內(nèi)容。 4.對于行業(yè)知識圖譜的構(gòu)建,研究如何利用行業(yè)內(nèi)部的結(jié)構(gòu)化數(shù)據(jù),設(shè)計了一種易于使用的從關(guān)系型數(shù)據(jù)到知識圖譜語義數(shù)據(jù)的映射語言。同時研究如何自動地從互聯(lián)網(wǎng)中發(fā)現(xiàn)行業(yè)數(shù)據(jù),包括開放的知識庫和行業(yè)網(wǎng)站等,提出了一種從少數(shù)行業(yè)種子關(guān)鍵詞開始自動發(fā)現(xiàn)互聯(lián)網(wǎng)中行業(yè)數(shù)據(jù)源的算法。 5.研究如何提供在線協(xié)作編輯平臺以有效地利用公眾共享知識的積極性,以“眾包”的方式編輯和完善知識圖譜。構(gòu)建了一個知識圖譜在線編輯平臺,通過對學(xué)習(xí)算法進行配置以啟動自動學(xué)習(xí)過程,然后在自動學(xué)習(xí)的結(jié)果上進行知識圖譜的編輯。該平臺主要優(yōu)勢有:能夠支持大規(guī)模的用戶并發(fā)編輯;能夠與后臺的自動知識學(xué)習(xí)引擎結(jié)合。 最后,使用提出的知識圖譜構(gòu)建算法成功構(gòu)建了一個具備7,392,384實體和60,842,064事實的中文通用知識圖譜;與現(xiàn)有的知識庫和數(shù)據(jù)集進行對比表明本知識圖譜具備良好的覆蓋度;同時,評估結(jié)果表明該知識圖譜的平均準確率在95%以上。同時,本文還構(gòu)建了一個魚類知識圖譜,由于構(gòu)建時利用了多個現(xiàn)存的最完整的數(shù)據(jù)源,因此其覆蓋度非常高,包含了已知的32000余種魚類相關(guān)知識。
【關(guān)鍵詞】:知識圖譜構(gòu)建 本體學(xué)習(xí) 開放鏈接數(shù)據(jù) 實體 自監(jiān)督學(xué)習(xí)
【學(xué)位授予單位】:華東理工大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要5-7
- Abstract7-14
- 第1章 引言14-29
- 1.1 研究背景14-16
- 1.2 研究現(xiàn)狀和存在的問題16-24
- 1.2.1 本體構(gòu)建16-21
- 1.2.2 現(xiàn)有本體構(gòu)建方法的不足21-22
- 1.2.3 知識圖譜構(gòu)建22-23
- 1.2.4 知識圖譜相關(guān)研究存在的問題23-24
- 1.2.5 中文知識圖譜構(gòu)建的特殊性24
- 1.3 研究內(nèi)容及意義24-26
- 1.3.1 研究內(nèi)容24-25
- 1.3.2 主要研究貢獻25-26
- 1.4 本文的組織26-29
- 第2章 知識圖譜構(gòu)建過程29-35
- 2.1 知識圖譜的本體學(xué)習(xí)29-32
- 2.1.1 術(shù)語抽取29-30
- 2.1.2 同義關(guān)系抽取30
- 2.1.3 概念抽取30-31
- 2.1.4 分類學(xué)關(guān)系抽取31
- 2.1.5 非分類關(guān)系學(xué)習(xí)31-32
- 2.1.6 公理和規(guī)則學(xué)習(xí)32
- 2.2 實體層的學(xué)習(xí)32-33
- 2.2.1 實體學(xué)習(xí)32
- 2.2.2 實體數(shù)據(jù)填充32-33
- 2.2.3 實體對齊33
- 2.3 知識圖譜的數(shù)據(jù)更新33-34
- 2.3.1 數(shù)據(jù)模式層的更新33-34
- 2.3.2 數(shù)據(jù)層的更新34
- 2.4 通用知識圖譜和行業(yè)知識圖譜構(gòu)建的區(qū)別34
- 2.5 本章小結(jié)34-35
- 第3章 知識圖譜構(gòu)建的可用數(shù)據(jù)源分析35-54
- 3.1 數(shù)據(jù)源分析35-40
- 3.1.1 結(jié)構(gòu)化數(shù)據(jù)35
- 3.1.2 機器可讀的開放本體或辭典35-36
- 3.1.3 開放鏈接數(shù)據(jù)與開放知識庫36-38
- 3.1.4 行業(yè)知識庫和行業(yè)垂直網(wǎng)站38
- 3.1.5 在線百科38-40
- 3.1.6 文本40
- 3.2 數(shù)據(jù)源采集40-44
- 3.2.1 開放鏈接數(shù)據(jù)采集41
- 3.2.2 百科采集41-42
- 3.2.3 文本信息采集42-44
- 3.3 數(shù)據(jù)清洗44-53
- 3.3.1 常用的網(wǎng)頁內(nèi)容抽取方法44-45
- 3.3.2 基于啟發(fā)式規(guī)則的網(wǎng)頁正文內(nèi)容抽取方法45-50
- 3.3.3 網(wǎng)頁正文內(nèi)容抽取方法評估50-51
- 3.3.4 論壇內(nèi)容的抽取51-53
- 3.3.5 其它類型網(wǎng)頁中內(nèi)容的抽取53
- 3.4 本章小結(jié)53-54
- 第4章 基于多數(shù)據(jù)源的通用知識圖譜構(gòu)建54-92
- 4.1 概念和實體學(xué)習(xí)54-55
- 4.1.1 從開放鏈接數(shù)據(jù)集中抽取概念和實體54
- 4.1.2 從百科中抽取概念和實體54
- 4.1.3 同名多義概念或?qū)嶓w54-55
- 4.1.4 概念或?qū)嶓w的摘要信息55
- 4.2 實體對齊(同義關(guān)系學(xué)習(xí))55-72
- 4.2.1 從開放鏈接數(shù)據(jù)集中抽取同義關(guān)系55
- 4.2.2 基于百科結(jié)構(gòu)化數(shù)據(jù)的百科實體對齊55-56
- 4.2.3 基于SVM的自監(jiān)督百科實體對齊方法56-61
- 4.2.4 開放鏈接數(shù)據(jù)集與百科間的實體對齊61
- 4.2.5 基于語言學(xué)模式的方法61
- 4.2.6 基于CRF的開放同義關(guān)系學(xué)習(xí)61-72
- 4.3 上下位關(guān)系學(xué)習(xí)72-76
- 4.3.1 從開放鏈接數(shù)據(jù)集中抽取上下位關(guān)系72-73
- 4.3.2 從百科中抽取上下位關(guān)系73-74
- 4.3.3 基于語言學(xué)模式的上下位關(guān)系抽取方法74
- 4.3.4 基于CRF的開放上下位關(guān)系學(xué)習(xí)方法74-75
- 4.3.5 分類樹整合75-76
- 4.4 屬性學(xué)習(xí)76-79
- 4.4.1 概念的屬性學(xué)習(xí)(數(shù)據(jù)模式的學(xué)習(xí))76
- 4.4.2 從開放鏈接數(shù)據(jù)集中抽取概念屬性76
- 4.4.3 從百科中抽取實體屬性76-77
- 4.4.4 實體屬性升級成為概念屬性77-78
- 4.4.5 概念屬性的人工校驗78
- 4.4.6 實體屬性值的學(xué)習(xí)78-79
- 4.5 規(guī)則和公理學(xué)習(xí)79
- 4.6 學(xué)習(xí)過程中的沖突解決79-81
- 4.6.1 沖突發(fā)生點分析79-80
- 4.6.2 沖突檢測80
- 4.6.3 沖突解決方法80-81
- 4.7 知識圖譜的更新81-82
- 4.7.1 數(shù)據(jù)模式層的更新81
- 4.7.2 數(shù)據(jù)層的更新81-82
- 4.8 實驗與結(jié)果分析82-90
- 4.8.1 學(xué)習(xí)語料82
- 4.8.2 知識圖譜評估方法82
- 4.8.3 知識圖譜結(jié)果概覽82-83
- 4.8.4 概念評估83-84
- 4.8.5 實體評估84
- 4.8.6 實體對齊與同義關(guān)系評估84-85
- 4.8.7 基于SVM的自監(jiān)督百科實體對齊方法評估85
- 4.8.8 基于語言學(xué)模式的同義學(xué)習(xí)方法評估85-86
- 4.8.9 基于CRF的開放同義關(guān)系學(xué)習(xí)方法評估86-88
- 4.8.10 上下位關(guān)系學(xué)習(xí)結(jié)果評估88-89
- 4.8.11 屬性學(xué)習(xí)結(jié)果評估89
- 4.8.12 對比分析89-90
- 4.9 小結(jié)與討論90-92
- 4.9.1 本章小結(jié)90
- 4.9.2 知識圖譜構(gòu)建討論90-92
- 第5章 基于多數(shù)據(jù)源的行業(yè)知識圖譜構(gòu)建92-102
- 5.1 行業(yè)知識圖譜構(gòu)建92-93
- 5.2 從結(jié)構(gòu)化數(shù)據(jù)中學(xué)習(xí)知識93-94
- 5.2.1 D2R93
- 5.2.2 結(jié)構(gòu)化數(shù)據(jù)映射工具93-94
- 5.2.3 結(jié)構(gòu)化數(shù)據(jù)知識映射94
- 5.3 行業(yè)知識庫與行業(yè)網(wǎng)站的自動發(fā)現(xiàn)與抽取94-96
- 5.4 行業(yè)數(shù)據(jù)源解析96-98
- 5.5 從開放鏈接數(shù)據(jù)和在線百科中學(xué)習(xí)知識98
- 5.5.1 實體對齊98
- 5.5.2 實體的添加98
- 5.5.3 屬性知識的學(xué)習(xí)98
- 5.6 從文本中學(xué)習(xí)知識98-99
- 5.7 實驗與結(jié)果分析99-100
- 5.7.1 D2R分析99
- 5.7.2 行業(yè)知識庫和行業(yè)專業(yè)網(wǎng)站的自動發(fā)現(xiàn)99
- 5.7.3 行業(yè)數(shù)據(jù)源解析與抽取99-100
- 5.7.4 從百科中學(xué)習(xí)魚類知識圖譜100
- 5.7.5 從文本中學(xué)習(xí)魚類知識圖譜100
- 5.8 本章小結(jié)100-102
- 第6章 知識圖譜編輯與學(xué)習(xí)平臺102-116
- 6.1 現(xiàn)有的知識編輯工具102-104
- 6.2 知識圖譜協(xié)作編輯與學(xué)習(xí)平臺設(shè)計104-105
- 6.3 功能詳述105-109
- 6.3.1 知識學(xué)習(xí)配置106
- 6.3.2 數(shù)據(jù)模式定義106
- 6.3.3 基礎(chǔ)知識編輯106
- 6.3.4 知識圖譜的完整性和一致性106-107
- 6.3.5 并發(fā)協(xié)作編輯107
- 6.3.6 版本管理107
- 6.3.7 知識存儲107-108
- 6.3.8 數(shù)據(jù)備份108
- 6.3.9 用戶與權(quán)限管理108-109
- 6.4 編輯平臺與學(xué)習(xí)算法的銜接109
- 6.5 知識圖譜的應(yīng)用109-115
- 6.5.1 語義檢索109-112
- 6.5.2 知識導(dǎo)航112
- 6.5.3 決策支持112-114
- 6.5.4 知識圖譜在行業(yè)中的應(yīng)用114-115
- 6.6 本章小結(jié)115-116
- 第7章 總結(jié)和展望116-118
- 7.1 全文總結(jié)116
- 7.2 展望116-118
- 參考文獻118-128
- 致謝128-129
- 附錄1 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文129-130
- 附錄2 攻讀學(xué)位期間參加的科研項目130
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 毛海燕;;基于FrameNet的英漢詞匯語義對比模式探索——以英漢情感框架詞匯語義對比研究為例[J];外語學(xué)刊;2010年04期
2 夏曉;潘和平;;基于支持向量機的人民幣兌美元匯率實證研究[J];管理學(xué)家(學(xué)術(shù)版);2010年08期
3 熊思;魯靜;;基于TW SVMs的入侵檢測方法[J];湖北第二師范學(xué)院學(xué)報;2009年02期
4 羅向陽;劉粉林;楊春芳;王道順;;基于最優(yōu)小波包分解的圖像隱寫通用檢測[J];中國科學(xué):信息科學(xué);2010年02期
5 陳濤;謝陽群;;基于支持向量機的外貿(mào)企業(yè)客戶分類方法應(yīng)用研究[J];情報科學(xué);2006年07期
6 肖鈉;;我國信息生態(tài)理論研究綜述[J];情報科學(xué);2011年07期
7 秦春秀;趙捧未;劉懷亮;;詞語相似度計算研究[J];情報理論與實踐;2007年01期
8 宋倩倩;關(guān)婉湫;張淑君;張勤;羅志成;;自組織知識系統(tǒng)與他組織知識系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)比較分析[J];情報理論與實踐;2010年03期
9 谷俊;嚴明;王昊;;基于改進關(guān)聯(lián)規(guī)則的本體關(guān)系獲取研究[J];情報理論與實踐;2011年12期
10 劉平蘭;數(shù)字圖書館中基于關(guān)系圖的篇章分析方法研究[J];情報雜志;2003年12期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中國科學(xué)院地質(zhì)與地球物理研究所第11屆(2011年度)學(xué)術(shù)年會論文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六屆中國控制會議論文集[C];2007年
3 呂蓬;柳亦兵;馬強;魏于凡;;支持向量機在齒輪智能故障診斷中的應(yīng)用研究[A];第二十六屆中國控制會議論文集[C];2007年
4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七屆中國控制會議論文集[C];2008年
5 蔣少華;桂衛(wèi)華;陽春華;唐朝暉;蔣朝輝;;基于主元分析與支持向量機的方法及其在密閉鼓風(fēng)爐過程監(jiān)控診斷中的應(yīng)用[A];第二十七屆中國控制會議論文集[C];2008年
6 王海豐;李壯;任洪娥;趙鵬;;基于非下采樣Contourlet變換和SVM的紋理圖像分割算法[A];第二十九屆中國控制會議論文集[C];2010年
7 ;Image Classification with Ant Colony Based Support Vector Machine[A];中國自動化學(xué)會控制理論專業(yè)委員會A卷[C];2011年
8 晉朝勃;胡剛強;史廣智;李玉陽;;一種采用支持向量機的水中目標識別方法[A];中國聲學(xué)學(xué)會水聲學(xué)分會2011年全國水聲學(xué)學(xué)術(shù)會議論文集[C];2011年
9 劉英林;劉洪鵬;g竊,
本文編號:913546
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/913546.html