基于深度學(xué)習(xí)的知識圖譜補(bǔ)全技術(shù)研究
發(fā)布時間:2021-11-04 14:25
知識圖譜是事實三元組的集合,也可以看成是實體和關(guān)系組成的語義網(wǎng)絡(luò)。隨著谷歌將知識圖譜用在搜索引擎中,諸如推薦系統(tǒng)、智能問答鄰域也開始大規(guī)模使用知識圖譜。然而現(xiàn)有的知識圖譜,通常都是不完備的,知識圖譜中缺失很多事實中存在的三元組。許多工作致力于知識圖譜補(bǔ)全任務(wù),即利用已有的三元組向知識圖譜中添加新的三元組。以TransE為代表的基于嵌入的知識圖譜補(bǔ)全模型將實體和關(guān)系映射到低維稠密的向量空間,在此基礎(chǔ)上構(gòu)造關(guān)于三元組的評分函數(shù)以衡量三元組的正確程度。這類知識圖譜補(bǔ)全模型通常被歸類為靜態(tài)知識圖譜補(bǔ)全任務(wù),即在測試階段出現(xiàn)的實體和關(guān)系都是在訓(xùn)練階段已經(jīng)見過的,模型有實體和關(guān)系的向量表示。Hamaguchi提出了OOKB(out of knowledge base)問題,在知識圖譜補(bǔ)全任務(wù)中測試階段會出現(xiàn)新的實體,我們把這些新的實體稱為OOKB實體。因為模型沒有見過OOKB實體,模型沒有OOKB實體的向量表示。OOKB問題屬于動態(tài)知識圖譜補(bǔ)全任務(wù)。為解決OOKB問題,Hamaguchi提出了傳播模型和輸出模型兩階段模型。近年來,以卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制為代表的深度學(xué)習(xí)技術(shù)在自然語...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
知識圖譜示例
第二章知識圖譜補(bǔ)全簡介9第二章知識圖譜補(bǔ)全簡介知識圖譜補(bǔ)全的研究已經(jīng)取得了一些進(jìn)展。本章首先對知識圖譜中的向量表示進(jìn)行介紹。其次對知識圖譜補(bǔ)全鄰域的一些經(jīng)典模型進(jìn)行回顧。然后,以TransE模型為例介紹知識圖譜補(bǔ)全模型的訓(xùn)練方法。最后,介紹了OOKB問題,并指出現(xiàn)有模型的一些不足,也是我們后面章節(jié)需要改進(jìn)的重點(diǎn)。2.1知識圖譜中的向量表示利用計算機(jī)研究文本時,我們要將單詞表達(dá)成適當(dāng)?shù)男问剑Q其為“詞嵌入”。如,“BASKETBALL”,通常表示成為一個向量。經(jīng)過詞嵌入過程得到單詞的向量表示后,我們就可以在向量上實施各種操作,解決具體的問題。而在知識圖譜中我們將實體和關(guān)系表示成向量。詞的向量表示的研究有很多,在這里我們將介紹兩種表示方式。2.1.1獨(dú)熱編碼用獨(dú)熱編碼也就是one-hot編碼表示單詞時,首先要創(chuàng)建一個詞表庫,并將每個詞按順序編號。如果詞庫表有n個單詞,那每個單詞的one-hot編碼就是一個n維的向量,其序號位置的元素是1,其它位置的元素是0。我們以這幾個城市為例,{北京,上海,廣州,深圳,武漢,杭州,成都},構(gòu)建one-hot編碼。城市列表一共有七個城市,所以one-hot編碼的維度為7。其中一種編碼如下如圖2-1所示。圖2-1圖的獨(dú)熱編碼示意圖
,同時造成了模型在計算上的困難;(3).詞的表示隨著數(shù)據(jù)集的變化而變化,這顯然是不合常理的。獨(dú)熱編碼的這些缺點(diǎn)限制了獨(dú)熱編碼在自然語言領(lǐng)域中的應(yīng)用場景。針對這些缺點(diǎn),研究人員提出了很多方法,嵌入表示是其運(yùn)用比較廣泛的一種。2.1.2嵌入表示詞嵌入是將單詞映射到固定維度的稠密低維向量空間,通常在幾十維到上百維之間。每一維度代表著一種特征,由于沒有具體含義稱其為隱特征。將其映射到稠密低維向量空間后,就可以在此基礎(chǔ)上進(jìn)行向量運(yùn)算。通常如果對象在現(xiàn)實世界中的語義越相似,那么他們在向量空間越接近。如圖2-2所示。圖2-2圖的嵌入表示示意圖典型的詞嵌入模型是Word2Vec[16],可以分為CBOW和Skip-gram。Skip-gram模型架構(gòu)如圖2-3所示,主要是通過中心單詞預(yù)測周圍單詞的分布,通過這種方式學(xué)習(xí)單詞的向量表示,由于篇幅限制這里就不做詳細(xì)展開。詞嵌入表示的思想來源于語言學(xué)中的假設(shè),在相同語境中出現(xiàn)的詞語具有相似的語義,也即是一個詞的含義由其周圍詞的分布決定。這種稠密的低維向量有兩個優(yōu)點(diǎn):一是計算方便,因為大多數(shù)神經(jīng)網(wǎng)絡(luò)在高維稀疏的向量空間上表現(xiàn)不好,而稠密的低維向量能夠彌補(bǔ)這樣的不足;二是提供了語義相關(guān)性,即可以通過計算嵌入向量之間的相似性,推導(dǎo)出詞與詞之間的語義相似性。知識圖譜嵌入表示與自然語言中詞的嵌入表示密切相關(guān)。知識圖譜可以類比為自然語言處理中的詞袋,相應(yīng)地,知識圖譜中的實體和關(guān)系就可以類比為詞袋中的詞。當(dāng)我們把嵌入表示應(yīng)用到知識圖譜中的實體和關(guān)系時,實際上是做出了假設(shè),即知識圖譜中實體或關(guān)系的語義取決于其周圍的分布。此外,通過知識圖譜嵌入表示,可以將實體和關(guān)系表示成稠密低維實值嵌入向量,從而將知識圖譜
【參考文獻(xiàn)】:
期刊論文
[1]知識圖譜補(bǔ)全算法綜述[J]. 丁建輝,賈維嘉. 信息通信技術(shù). 2018(01)
本文編號:3475912
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
知識圖譜示例
第二章知識圖譜補(bǔ)全簡介9第二章知識圖譜補(bǔ)全簡介知識圖譜補(bǔ)全的研究已經(jīng)取得了一些進(jìn)展。本章首先對知識圖譜中的向量表示進(jìn)行介紹。其次對知識圖譜補(bǔ)全鄰域的一些經(jīng)典模型進(jìn)行回顧。然后,以TransE模型為例介紹知識圖譜補(bǔ)全模型的訓(xùn)練方法。最后,介紹了OOKB問題,并指出現(xiàn)有模型的一些不足,也是我們后面章節(jié)需要改進(jìn)的重點(diǎn)。2.1知識圖譜中的向量表示利用計算機(jī)研究文本時,我們要將單詞表達(dá)成適當(dāng)?shù)男问剑Q其為“詞嵌入”。如,“BASKETBALL”,通常表示成為一個向量。經(jīng)過詞嵌入過程得到單詞的向量表示后,我們就可以在向量上實施各種操作,解決具體的問題。而在知識圖譜中我們將實體和關(guān)系表示成向量。詞的向量表示的研究有很多,在這里我們將介紹兩種表示方式。2.1.1獨(dú)熱編碼用獨(dú)熱編碼也就是one-hot編碼表示單詞時,首先要創(chuàng)建一個詞表庫,并將每個詞按順序編號。如果詞庫表有n個單詞,那每個單詞的one-hot編碼就是一個n維的向量,其序號位置的元素是1,其它位置的元素是0。我們以這幾個城市為例,{北京,上海,廣州,深圳,武漢,杭州,成都},構(gòu)建one-hot編碼。城市列表一共有七個城市,所以one-hot編碼的維度為7。其中一種編碼如下如圖2-1所示。圖2-1圖的獨(dú)熱編碼示意圖
,同時造成了模型在計算上的困難;(3).詞的表示隨著數(shù)據(jù)集的變化而變化,這顯然是不合常理的。獨(dú)熱編碼的這些缺點(diǎn)限制了獨(dú)熱編碼在自然語言領(lǐng)域中的應(yīng)用場景。針對這些缺點(diǎn),研究人員提出了很多方法,嵌入表示是其運(yùn)用比較廣泛的一種。2.1.2嵌入表示詞嵌入是將單詞映射到固定維度的稠密低維向量空間,通常在幾十維到上百維之間。每一維度代表著一種特征,由于沒有具體含義稱其為隱特征。將其映射到稠密低維向量空間后,就可以在此基礎(chǔ)上進(jìn)行向量運(yùn)算。通常如果對象在現(xiàn)實世界中的語義越相似,那么他們在向量空間越接近。如圖2-2所示。圖2-2圖的嵌入表示示意圖典型的詞嵌入模型是Word2Vec[16],可以分為CBOW和Skip-gram。Skip-gram模型架構(gòu)如圖2-3所示,主要是通過中心單詞預(yù)測周圍單詞的分布,通過這種方式學(xué)習(xí)單詞的向量表示,由于篇幅限制這里就不做詳細(xì)展開。詞嵌入表示的思想來源于語言學(xué)中的假設(shè),在相同語境中出現(xiàn)的詞語具有相似的語義,也即是一個詞的含義由其周圍詞的分布決定。這種稠密的低維向量有兩個優(yōu)點(diǎn):一是計算方便,因為大多數(shù)神經(jīng)網(wǎng)絡(luò)在高維稀疏的向量空間上表現(xiàn)不好,而稠密的低維向量能夠彌補(bǔ)這樣的不足;二是提供了語義相關(guān)性,即可以通過計算嵌入向量之間的相似性,推導(dǎo)出詞與詞之間的語義相似性。知識圖譜嵌入表示與自然語言中詞的嵌入表示密切相關(guān)。知識圖譜可以類比為自然語言處理中的詞袋,相應(yīng)地,知識圖譜中的實體和關(guān)系就可以類比為詞袋中的詞。當(dāng)我們把嵌入表示應(yīng)用到知識圖譜中的實體和關(guān)系時,實際上是做出了假設(shè),即知識圖譜中實體或關(guān)系的語義取決于其周圍的分布。此外,通過知識圖譜嵌入表示,可以將實體和關(guān)系表示成稠密低維實值嵌入向量,從而將知識圖譜
【參考文獻(xiàn)】:
期刊論文
[1]知識圖譜補(bǔ)全算法綜述[J]. 丁建輝,賈維嘉. 信息通信技術(shù). 2018(01)
本文編號:3475912
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3475912.html
最近更新
教材專著