面向中文百科知識(shí)圖譜的實(shí)體細(xì)粒度分類技術(shù)的研究
發(fā)布時(shí)間:2021-02-08 07:10
實(shí)體分類任務(wù)是構(gòu)建知識(shí)圖譜的必要步驟。到目前為止,在實(shí)體分類方向已經(jīng)有了大量的研究工作,但是這些方法通常只能獲取實(shí)體的粗粒度概念信息,這對(duì)于知識(shí)圖譜的構(gòu)建還有基于知識(shí)圖譜的應(yīng)用來(lái)說(shuō)是遠(yuǎn)遠(yuǎn)不夠的。由于中英文的差異性,這種情況在中文實(shí)體分類任務(wù)中表現(xiàn)的更差。在本文中,我們提出了一個(gè)面向中文百科知識(shí)圖譜的實(shí)體細(xì)粒度分類算法。我們以百科詞條為實(shí)體,構(gòu)建了一個(gè)知識(shí)抽取框架,并從中抽取實(shí)體信息,然后通過(guò)數(shù)據(jù)清洗工作來(lái)獲取高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),最終將數(shù)據(jù)以三元組的形式存儲(chǔ)到知識(shí)圖譜中。為了獲取高質(zhì)量的實(shí)體細(xì)粒度概念,我們不僅從實(shí)體的標(biāo)題標(biāo)簽和信息框中挖掘出實(shí)體的高質(zhì)量、細(xì)粒度概念信息,而且將從摘要中抽取的概念信息和人工標(biāo)簽作為含有噪聲的候選細(xì)粒度概念集合。本文首先從標(biāo)題標(biāo)簽和信息框中獲得可靠的實(shí)體概念信息;然后將實(shí)體、屬性、屬性值和概念組織到一個(gè)信息圖中,并從圖中獲取每個(gè)候選(實(shí)體-概念)對(duì)之間的一些路徑信息;最終通過(guò)基于卷積神經(jīng)網(wǎng)絡(luò)的Path-CNN二分類模型識(shí)別出更多具有instance-of關(guān)系的(實(shí)體-概念)對(duì)。通過(guò)大量實(shí)驗(yàn),我們發(fā)現(xiàn)與以前的方法和DBpedia知識(shí)圖譜相比,本文提出的模型可以...
【文章來(lái)源】:蘇州大學(xué)江蘇省
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 課題背景及研究意義
1.2 課題研究?jī)?nèi)容
1.3 文章組織結(jié)構(gòu)
第二章 研究現(xiàn)狀及相關(guān)知識(shí)介紹
2.1 知識(shí)圖譜
2.2 實(shí)體分類
2.3 國(guó)內(nèi)外研究現(xiàn)狀
2.3.1 實(shí)體分類研究現(xiàn)狀
2.3.2 已有知識(shí)圖譜
2.4 相關(guān)技術(shù)
2.4.1 Skip-gram模型
2.4.2 Metapath2vec模型
2.4.3 卷積神經(jīng)網(wǎng)絡(luò)
2.5 本章小結(jié)
第三章 面向百度百科的中文知識(shí)圖譜構(gòu)建
3.1 知識(shí)抽取
3.1.1 百度百科頁(yè)面
3.1.2 知識(shí)抽取框架
3.2 數(shù)據(jù)清洗
3.2.1 屬性融合
3.2.2 數(shù)值屬性值歸一化
3.2.3 多個(gè)對(duì)象屬性值分割
3.3 本章小結(jié)
第四章 面向知識(shí)圖譜的實(shí)體細(xì)粒度分類算法
4.1 算法工作流程
4.2 Path-CNN模型
4.2.1 基于元路徑的節(jié)點(diǎn)嵌入
4.2.2 模型的輸入數(shù)據(jù)
4.2.3 Path-CNN模型的細(xì)節(jié)
4.3 實(shí)驗(yàn)結(jié)果及分析
4.3.1 參數(shù)設(shè)置
4.3.2 與現(xiàn)有方法比較
4.3.3 與DBpedia知識(shí)圖譜比較
4.4 本章小結(jié)
第五章 知識(shí)圖譜的可視化系統(tǒng)展示
5.1 系統(tǒng)開(kāi)發(fā)環(huán)境
5.2 系統(tǒng)整體架構(gòu)
5.2.1 數(shù)據(jù)存儲(chǔ)層
5.2.2 數(shù)據(jù)查詢層
5.2.3 數(shù)據(jù)可視化層
5.3 本章小結(jié)
第六章 總結(jié)與展望
6.1 全文總結(jié)
6.2 工作展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間的研究成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于知識(shí)圖譜和頻繁序列挖掘的旅游路線推薦[J]. 孫文平,常亮,賓辰忠,古天龍,孫彥鵬. 計(jì)算機(jī)科學(xué). 2019(02)
[2]知識(shí)圖譜在銀行業(yè)的應(yīng)用場(chǎng)景及可行性研究[J]. 陳大值. 中國(guó)金融電腦. 2019(02)
[3]基于EHR的醫(yī)療知識(shí)圖譜研究與應(yīng)用綜述[J]. 何霆,吳雅婷,王華珍,熊英杰,孫偲,徐漢川. 哈爾濱工業(yè)大學(xué)學(xué)報(bào). 2018(11)
[4]基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別方法[J]. 陳耀丹,王連明. 東北師大學(xué)報(bào)(自然科學(xué)版). 2016(02)
[5]命名實(shí)體識(shí)別研究進(jìn)展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書(shū)情報(bào)技術(shù). 2010(06)
碩士論文
[1]基于知識(shí)圖譜的搜索引擎技術(shù)研究與應(yīng)用[D]. 邵領(lǐng).電子科技大學(xué) 2016
本文編號(hào):3023556
【文章來(lái)源】:蘇州大學(xué)江蘇省
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 課題背景及研究意義
1.2 課題研究?jī)?nèi)容
1.3 文章組織結(jié)構(gòu)
第二章 研究現(xiàn)狀及相關(guān)知識(shí)介紹
2.1 知識(shí)圖譜
2.2 實(shí)體分類
2.3 國(guó)內(nèi)外研究現(xiàn)狀
2.3.1 實(shí)體分類研究現(xiàn)狀
2.3.2 已有知識(shí)圖譜
2.4 相關(guān)技術(shù)
2.4.1 Skip-gram模型
2.4.2 Metapath2vec模型
2.4.3 卷積神經(jīng)網(wǎng)絡(luò)
2.5 本章小結(jié)
第三章 面向百度百科的中文知識(shí)圖譜構(gòu)建
3.1 知識(shí)抽取
3.1.1 百度百科頁(yè)面
3.1.2 知識(shí)抽取框架
3.2 數(shù)據(jù)清洗
3.2.1 屬性融合
3.2.2 數(shù)值屬性值歸一化
3.2.3 多個(gè)對(duì)象屬性值分割
3.3 本章小結(jié)
第四章 面向知識(shí)圖譜的實(shí)體細(xì)粒度分類算法
4.1 算法工作流程
4.2 Path-CNN模型
4.2.1 基于元路徑的節(jié)點(diǎn)嵌入
4.2.2 模型的輸入數(shù)據(jù)
4.2.3 Path-CNN模型的細(xì)節(jié)
4.3 實(shí)驗(yàn)結(jié)果及分析
4.3.1 參數(shù)設(shè)置
4.3.2 與現(xiàn)有方法比較
4.3.3 與DBpedia知識(shí)圖譜比較
4.4 本章小結(jié)
第五章 知識(shí)圖譜的可視化系統(tǒng)展示
5.1 系統(tǒng)開(kāi)發(fā)環(huán)境
5.2 系統(tǒng)整體架構(gòu)
5.2.1 數(shù)據(jù)存儲(chǔ)層
5.2.2 數(shù)據(jù)查詢層
5.2.3 數(shù)據(jù)可視化層
5.3 本章小結(jié)
第六章 總結(jié)與展望
6.1 全文總結(jié)
6.2 工作展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間的研究成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于知識(shí)圖譜和頻繁序列挖掘的旅游路線推薦[J]. 孫文平,常亮,賓辰忠,古天龍,孫彥鵬. 計(jì)算機(jī)科學(xué). 2019(02)
[2]知識(shí)圖譜在銀行業(yè)的應(yīng)用場(chǎng)景及可行性研究[J]. 陳大值. 中國(guó)金融電腦. 2019(02)
[3]基于EHR的醫(yī)療知識(shí)圖譜研究與應(yīng)用綜述[J]. 何霆,吳雅婷,王華珍,熊英杰,孫偲,徐漢川. 哈爾濱工業(yè)大學(xué)學(xué)報(bào). 2018(11)
[4]基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別方法[J]. 陳耀丹,王連明. 東北師大學(xué)報(bào)(自然科學(xué)版). 2016(02)
[5]命名實(shí)體識(shí)別研究進(jìn)展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書(shū)情報(bào)技術(shù). 2010(06)
碩士論文
[1]基于知識(shí)圖譜的搜索引擎技術(shù)研究與應(yīng)用[D]. 邵領(lǐng).電子科技大學(xué) 2016
本文編號(hào):3023556
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3023556.html
最近更新
教材專著