天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

基于多種數(shù)據(jù)源的中文知識圖譜構(gòu)建方法研究

發(fā)布時間:2017-09-24 21:25

  本文關(guān)鍵詞:基于多種數(shù)據(jù)源的中文知識圖譜構(gòu)建方法研究


  更多相關(guān)文章: 知識圖譜構(gòu)建 本體學(xué)習(xí) 開放鏈接數(shù)據(jù) 實體 自監(jiān)督學(xué)習(xí)


【摘要】:自從語義網(wǎng)的概念提出以來,越來越多的開放鏈接數(shù)據(jù)和用戶生成內(nèi)容被發(fā)布于互聯(lián)網(wǎng)中,互聯(lián)網(wǎng)逐步從僅包含網(wǎng)頁與網(wǎng)頁之間超鏈接的文檔萬維網(wǎng)轉(zhuǎn)變?yōu)榘罅棵枋龈鞣N實體和實體之間豐富關(guān)系的數(shù)據(jù)萬維網(wǎng)。在此背景下,知識圖譜首先由Google提出,其目標在于描述真實世界中存在的各種實體和概念,以及這些實體、概念之間的關(guān)聯(lián)關(guān)系。知識圖譜在實體層面對本體進行了豐富和擴充;本體中突出和強調(diào)的是概念以及概念之間的關(guān)聯(lián)關(guān)系,描述了知識圖譜的數(shù)據(jù)模式;而知識圖譜則是在本體的基礎(chǔ)上,增加了更加豐富的關(guān)于實體的信息。知識圖譜在語義搜索、智能問答、知識工程、數(shù)據(jù)挖掘和數(shù)字圖書館等領(lǐng)域有著廣泛的應(yīng)用。 本文在現(xiàn)有知識圖譜及其本體構(gòu)建研究的基礎(chǔ)上,研究從多種數(shù)據(jù)源中構(gòu)建中文知識圖譜,在以下方面展開了研究工作: 1.充分利用互聯(lián)網(wǎng)中的各類結(jié)構(gòu)化或半結(jié)構(gòu)化的信息,包括各種開放鏈接數(shù)據(jù)、在線百科、行業(yè)網(wǎng)站等,這些數(shù)據(jù)在覆蓋范圍方面有較大的優(yōu)勢,更新速度也比較快。本文描述了從這些結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)源中抽取和學(xué)習(xí)知識的方法,利用這些數(shù)據(jù)在廣度上的優(yōu)勢保證所構(gòu)建的知識圖譜的質(zhì)量。 2.研究如何綜合使用多種數(shù)據(jù)源構(gòu)建中文知識圖譜,結(jié)合各種數(shù)據(jù)源的優(yōu)勢,包括關(guān)系數(shù)據(jù)庫中數(shù)據(jù)的準確性,互聯(lián)網(wǎng)中的開放鏈接數(shù)據(jù)和領(lǐng)域公開知識庫的廣度優(yōu)勢,行業(yè)數(shù)據(jù)的深度優(yōu)勢等。提出一種基于多種數(shù)據(jù)源的知識圖譜構(gòu)建方法,該方法綜合利用不同數(shù)據(jù)源的優(yōu)勢,相互輔助進行知識學(xué)習(xí);同時利用多種數(shù)據(jù)源之間的冗余數(shù)據(jù)對知識圖譜的準確性進行有效地保證。 3.研究如何從大規(guī)模的互聯(lián)網(wǎng)文本中抽取知識圖譜形式的知識,提出一種基于自監(jiān)督機器學(xué)習(xí)的開放中文關(guān)系抽取方法,用于抽取實體(概念)之間的同義關(guān)系、上下位關(guān)系和屬性關(guān)系。該方法的主要優(yōu)勢在于能夠使用從結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù)中得到的知識以及一些通用的啟發(fā)式規(guī)則,自動標注語料。對于網(wǎng)頁中文本內(nèi)容的抽取,提出了一種基于啟發(fā)式規(guī)則的網(wǎng)頁正文內(nèi)容抽取算法,自動識別網(wǎng)頁中的正文內(nèi)容。 4.對于行業(yè)知識圖譜的構(gòu)建,研究如何利用行業(yè)內(nèi)部的結(jié)構(gòu)化數(shù)據(jù),設(shè)計了一種易于使用的從關(guān)系型數(shù)據(jù)到知識圖譜語義數(shù)據(jù)的映射語言。同時研究如何自動地從互聯(lián)網(wǎng)中發(fā)現(xiàn)行業(yè)數(shù)據(jù),包括開放的知識庫和行業(yè)網(wǎng)站等,提出了一種從少數(shù)行業(yè)種子關(guān)鍵詞開始自動發(fā)現(xiàn)互聯(lián)網(wǎng)中行業(yè)數(shù)據(jù)源的算法。 5.研究如何提供在線協(xié)作編輯平臺以有效地利用公眾共享知識的積極性,以“眾包”的方式編輯和完善知識圖譜。構(gòu)建了一個知識圖譜在線編輯平臺,通過對學(xué)習(xí)算法進行配置以啟動自動學(xué)習(xí)過程,然后在自動學(xué)習(xí)的結(jié)果上進行知識圖譜的編輯。該平臺主要優(yōu)勢有:能夠支持大規(guī)模的用戶并發(fā)編輯;能夠與后臺的自動知識學(xué)習(xí)引擎結(jié)合。 最后,使用提出的知識圖譜構(gòu)建算法成功構(gòu)建了一個具備7,392,384實體和60,842,064事實的中文通用知識圖譜;與現(xiàn)有的知識庫和數(shù)據(jù)集進行對比表明本知識圖譜具備良好的覆蓋度;同時,評估結(jié)果表明該知識圖譜的平均準確率在95%以上。同時,本文還構(gòu)建了一個魚類知識圖譜,由于構(gòu)建時利用了多個現(xiàn)存的最完整的數(shù)據(jù)源,因此其覆蓋度非常高,包含了已知的32000余種魚類相關(guān)知識。
【關(guān)鍵詞】:知識圖譜構(gòu)建 本體學(xué)習(xí) 開放鏈接數(shù)據(jù) 實體 自監(jiān)督學(xué)習(xí)
【學(xué)位授予單位】:華東理工大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要5-7
  • Abstract7-14
  • 第1章 引言14-29
  • 1.1 研究背景14-16
  • 1.2 研究現(xiàn)狀和存在的問題16-24
  • 1.2.1 本體構(gòu)建16-21
  • 1.2.2 現(xiàn)有本體構(gòu)建方法的不足21-22
  • 1.2.3 知識圖譜構(gòu)建22-23
  • 1.2.4 知識圖譜相關(guān)研究存在的問題23-24
  • 1.2.5 中文知識圖譜構(gòu)建的特殊性24
  • 1.3 研究內(nèi)容及意義24-26
  • 1.3.1 研究內(nèi)容24-25
  • 1.3.2 主要研究貢獻25-26
  • 1.4 本文的組織26-29
  • 第2章 知識圖譜構(gòu)建過程29-35
  • 2.1 知識圖譜的本體學(xué)習(xí)29-32
  • 2.1.1 術(shù)語抽取29-30
  • 2.1.2 同義關(guān)系抽取30
  • 2.1.3 概念抽取30-31
  • 2.1.4 分類學(xué)關(guān)系抽取31
  • 2.1.5 非分類關(guān)系學(xué)習(xí)31-32
  • 2.1.6 公理和規(guī)則學(xué)習(xí)32
  • 2.2 實體層的學(xué)習(xí)32-33
  • 2.2.1 實體學(xué)習(xí)32
  • 2.2.2 實體數(shù)據(jù)填充32-33
  • 2.2.3 實體對齊33
  • 2.3 知識圖譜的數(shù)據(jù)更新33-34
  • 2.3.1 數(shù)據(jù)模式層的更新33-34
  • 2.3.2 數(shù)據(jù)層的更新34
  • 2.4 通用知識圖譜和行業(yè)知識圖譜構(gòu)建的區(qū)別34
  • 2.5 本章小結(jié)34-35
  • 第3章 知識圖譜構(gòu)建的可用數(shù)據(jù)源分析35-54
  • 3.1 數(shù)據(jù)源分析35-40
  • 3.1.1 結(jié)構(gòu)化數(shù)據(jù)35
  • 3.1.2 機器可讀的開放本體或辭典35-36
  • 3.1.3 開放鏈接數(shù)據(jù)與開放知識庫36-38
  • 3.1.4 行業(yè)知識庫和行業(yè)垂直網(wǎng)站38
  • 3.1.5 在線百科38-40
  • 3.1.6 文本40
  • 3.2 數(shù)據(jù)源采集40-44
  • 3.2.1 開放鏈接數(shù)據(jù)采集41
  • 3.2.2 百科采集41-42
  • 3.2.3 文本信息采集42-44
  • 3.3 數(shù)據(jù)清洗44-53
  • 3.3.1 常用的網(wǎng)頁內(nèi)容抽取方法44-45
  • 3.3.2 基于啟發(fā)式規(guī)則的網(wǎng)頁正文內(nèi)容抽取方法45-50
  • 3.3.3 網(wǎng)頁正文內(nèi)容抽取方法評估50-51
  • 3.3.4 論壇內(nèi)容的抽取51-53
  • 3.3.5 其它類型網(wǎng)頁中內(nèi)容的抽取53
  • 3.4 本章小結(jié)53-54
  • 第4章 基于多數(shù)據(jù)源的通用知識圖譜構(gòu)建54-92
  • 4.1 概念和實體學(xué)習(xí)54-55
  • 4.1.1 從開放鏈接數(shù)據(jù)集中抽取概念和實體54
  • 4.1.2 從百科中抽取概念和實體54
  • 4.1.3 同名多義概念或?qū)嶓w54-55
  • 4.1.4 概念或?qū)嶓w的摘要信息55
  • 4.2 實體對齊(同義關(guān)系學(xué)習(xí))55-72
  • 4.2.1 從開放鏈接數(shù)據(jù)集中抽取同義關(guān)系55
  • 4.2.2 基于百科結(jié)構(gòu)化數(shù)據(jù)的百科實體對齊55-56
  • 4.2.3 基于SVM的自監(jiān)督百科實體對齊方法56-61
  • 4.2.4 開放鏈接數(shù)據(jù)集與百科間的實體對齊61
  • 4.2.5 基于語言學(xué)模式的方法61
  • 4.2.6 基于CRF的開放同義關(guān)系學(xué)習(xí)61-72
  • 4.3 上下位關(guān)系學(xué)習(xí)72-76
  • 4.3.1 從開放鏈接數(shù)據(jù)集中抽取上下位關(guān)系72-73
  • 4.3.2 從百科中抽取上下位關(guān)系73-74
  • 4.3.3 基于語言學(xué)模式的上下位關(guān)系抽取方法74
  • 4.3.4 基于CRF的開放上下位關(guān)系學(xué)習(xí)方法74-75
  • 4.3.5 分類樹整合75-76
  • 4.4 屬性學(xué)習(xí)76-79
  • 4.4.1 概念的屬性學(xué)習(xí)(數(shù)據(jù)模式的學(xué)習(xí))76
  • 4.4.2 從開放鏈接數(shù)據(jù)集中抽取概念屬性76
  • 4.4.3 從百科中抽取實體屬性76-77
  • 4.4.4 實體屬性升級成為概念屬性77-78
  • 4.4.5 概念屬性的人工校驗78
  • 4.4.6 實體屬性值的學(xué)習(xí)78-79
  • 4.5 規(guī)則和公理學(xué)習(xí)79
  • 4.6 學(xué)習(xí)過程中的沖突解決79-81
  • 4.6.1 沖突發(fā)生點分析79-80
  • 4.6.2 沖突檢測80
  • 4.6.3 沖突解決方法80-81
  • 4.7 知識圖譜的更新81-82
  • 4.7.1 數(shù)據(jù)模式層的更新81
  • 4.7.2 數(shù)據(jù)層的更新81-82
  • 4.8 實驗與結(jié)果分析82-90
  • 4.8.1 學(xué)習(xí)語料82
  • 4.8.2 知識圖譜評估方法82
  • 4.8.3 知識圖譜結(jié)果概覽82-83
  • 4.8.4 概念評估83-84
  • 4.8.5 實體評估84
  • 4.8.6 實體對齊與同義關(guān)系評估84-85
  • 4.8.7 基于SVM的自監(jiān)督百科實體對齊方法評估85
  • 4.8.8 基于語言學(xué)模式的同義學(xué)習(xí)方法評估85-86
  • 4.8.9 基于CRF的開放同義關(guān)系學(xué)習(xí)方法評估86-88
  • 4.8.10 上下位關(guān)系學(xué)習(xí)結(jié)果評估88-89
  • 4.8.11 屬性學(xué)習(xí)結(jié)果評估89
  • 4.8.12 對比分析89-90
  • 4.9 小結(jié)與討論90-92
  • 4.9.1 本章小結(jié)90
  • 4.9.2 知識圖譜構(gòu)建討論90-92
  • 第5章 基于多數(shù)據(jù)源的行業(yè)知識圖譜構(gòu)建92-102
  • 5.1 行業(yè)知識圖譜構(gòu)建92-93
  • 5.2 從結(jié)構(gòu)化數(shù)據(jù)中學(xué)習(xí)知識93-94
  • 5.2.1 D2R93
  • 5.2.2 結(jié)構(gòu)化數(shù)據(jù)映射工具93-94
  • 5.2.3 結(jié)構(gòu)化數(shù)據(jù)知識映射94
  • 5.3 行業(yè)知識庫與行業(yè)網(wǎng)站的自動發(fā)現(xiàn)與抽取94-96
  • 5.4 行業(yè)數(shù)據(jù)源解析96-98
  • 5.5 從開放鏈接數(shù)據(jù)和在線百科中學(xué)習(xí)知識98
  • 5.5.1 實體對齊98
  • 5.5.2 實體的添加98
  • 5.5.3 屬性知識的學(xué)習(xí)98
  • 5.6 從文本中學(xué)習(xí)知識98-99
  • 5.7 實驗與結(jié)果分析99-100
  • 5.7.1 D2R分析99
  • 5.7.2 行業(yè)知識庫和行業(yè)專業(yè)網(wǎng)站的自動發(fā)現(xiàn)99
  • 5.7.3 行業(yè)數(shù)據(jù)源解析與抽取99-100
  • 5.7.4 從百科中學(xué)習(xí)魚類知識圖譜100
  • 5.7.5 從文本中學(xué)習(xí)魚類知識圖譜100
  • 5.8 本章小結(jié)100-102
  • 第6章 知識圖譜編輯與學(xué)習(xí)平臺102-116
  • 6.1 現(xiàn)有的知識編輯工具102-104
  • 6.2 知識圖譜協(xié)作編輯與學(xué)習(xí)平臺設(shè)計104-105
  • 6.3 功能詳述105-109
  • 6.3.1 知識學(xué)習(xí)配置106
  • 6.3.2 數(shù)據(jù)模式定義106
  • 6.3.3 基礎(chǔ)知識編輯106
  • 6.3.4 知識圖譜的完整性和一致性106-107
  • 6.3.5 并發(fā)協(xié)作編輯107
  • 6.3.6 版本管理107
  • 6.3.7 知識存儲107-108
  • 6.3.8 數(shù)據(jù)備份108
  • 6.3.9 用戶與權(quán)限管理108-109
  • 6.4 編輯平臺與學(xué)習(xí)算法的銜接109
  • 6.5 知識圖譜的應(yīng)用109-115
  • 6.5.1 語義檢索109-112
  • 6.5.2 知識導(dǎo)航112
  • 6.5.3 決策支持112-114
  • 6.5.4 知識圖譜在行業(yè)中的應(yīng)用114-115
  • 6.6 本章小結(jié)115-116
  • 第7章 總結(jié)和展望116-118
  • 7.1 全文總結(jié)116
  • 7.2 展望116-118
  • 參考文獻118-128
  • 致謝128-129
  • 附錄1 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文129-130
  • 附錄2 攻讀學(xué)位期間參加的科研項目130

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 毛海燕;;基于FrameNet的英漢詞匯語義對比模式探索——以英漢情感框架詞匯語義對比研究為例[J];外語學(xué)刊;2010年04期

2 夏曉;潘和平;;基于支持向量機的人民幣兌美元匯率實證研究[J];管理學(xué)家(學(xué)術(shù)版);2010年08期

3 熊思;魯靜;;基于TW SVMs的入侵檢測方法[J];湖北第二師范學(xué)院學(xué)報;2009年02期

4 羅向陽;劉粉林;楊春芳;王道順;;基于最優(yōu)小波包分解的圖像隱寫通用檢測[J];中國科學(xué):信息科學(xué);2010年02期

5 陳濤;謝陽群;;基于支持向量機的外貿(mào)企業(yè)客戶分類方法應(yīng)用研究[J];情報科學(xué);2006年07期

6 肖鈉;;我國信息生態(tài)理論研究綜述[J];情報科學(xué);2011年07期

7 秦春秀;趙捧未;劉懷亮;;詞語相似度計算研究[J];情報理論與實踐;2007年01期

8 宋倩倩;關(guān)婉湫;張淑君;張勤;羅志成;;自組織知識系統(tǒng)與他組織知識系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)比較分析[J];情報理論與實踐;2010年03期

9 谷俊;嚴明;王昊;;基于改進關(guān)聯(lián)規(guī)則的本體關(guān)系獲取研究[J];情報理論與實踐;2011年12期

10 劉平蘭;數(shù)字圖書館中基于關(guān)系圖的篇章分析方法研究[J];情報雜志;2003年12期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中國科學(xué)院地質(zhì)與地球物理研究所第11屆(2011年度)學(xué)術(shù)年會論文集(下)[C];2012年

2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六屆中國控制會議論文集[C];2007年

3 呂蓬;柳亦兵;馬強;魏于凡;;支持向量機在齒輪智能故障診斷中的應(yīng)用研究[A];第二十六屆中國控制會議論文集[C];2007年

4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七屆中國控制會議論文集[C];2008年

5 蔣少華;桂衛(wèi)華;陽春華;唐朝暉;蔣朝輝;;基于主元分析與支持向量機的方法及其在密閉鼓風(fēng)爐過程監(jiān)控診斷中的應(yīng)用[A];第二十七屆中國控制會議論文集[C];2008年

6 王海豐;李壯;任洪娥;趙鵬;;基于非下采樣Contourlet變換和SVM的紋理圖像分割算法[A];第二十九屆中國控制會議論文集[C];2010年

7 ;Image Classification with Ant Colony Based Support Vector Machine[A];中國自動化學(xué)會控制理論專業(yè)委員會A卷[C];2011年

8 晉朝勃;胡剛強;史廣智;李玉陽;;一種采用支持向量機的水中目標識別方法[A];中國聲學(xué)學(xué)會水聲學(xué)分會2011年全國水聲學(xué)學(xué)術(shù)會議論文集[C];2011年

9 劉英林;劉洪鵬;g竊,

本文編號:913546


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/913546.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0a7d5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com