基于自舉學(xué)習(xí)和多視角學(xué)習(xí)的跨語(yǔ)言實(shí)體對(duì)齊技術(shù)研究
發(fā)布時(shí)間:2021-01-25 00:11
多語(yǔ)言知識(shí)圖譜的構(gòu)建和應(yīng)用,推動(dòng)了許多人工智能相關(guān)的跨語(yǔ)言任務(wù)的發(fā)展?缯Z(yǔ)言實(shí)體對(duì)齊任務(wù)是指在多語(yǔ)言場(chǎng)景下,找到不同語(yǔ)言中的匹配實(shí)體對(duì)的任務(wù)。通過(guò)跨語(yǔ)言的實(shí)體對(duì)齊,可以連接和融合不同語(yǔ)言的知識(shí)圖譜,形成新的知識(shí),增加知識(shí)圖譜的信息密度,F(xiàn)有方法主要依賴于少量跨語(yǔ)言鏈接和三元組結(jié)構(gòu)編碼實(shí)體。隨著互聯(lián)網(wǎng)的發(fā)展、眾包技術(shù)的成熟,大量知識(shí)圖譜也為實(shí)體提供了豐富的實(shí)體描述,給文本信息的編碼提供了條件。針對(duì)結(jié)構(gòu)編碼優(yōu)化,文本編碼的引入,以及對(duì)齊數(shù)據(jù)稀少等問(wèn)題,本文研究并提出了相應(yīng)的跨語(yǔ)言實(shí)體對(duì)齊模型。本文的主要貢獻(xiàn)如下:(1)提出了基于TransD模型的自舉式跨語(yǔ)言實(shí)體對(duì)齊模型。利用TransD模型增加實(shí)體和關(guān)系之間的交互,編碼知識(shí)圖譜中的實(shí)體和關(guān)系,通過(guò)三元組損失優(yōu)化實(shí)體的向量表示。對(duì)于訓(xùn)練數(shù)據(jù)中對(duì)齊實(shí)體對(duì)不足的問(wèn)題,利用自舉法篩選訓(xùn)練中得到的新對(duì)齊實(shí)體對(duì),擴(kuò)充訓(xùn)練數(shù)據(jù)。在數(shù)據(jù)集DBP15K上證明了本文提出的模型在結(jié)構(gòu)編碼上的優(yōu)勢(shì)以及自舉式擴(kuò)充訓(xùn)練數(shù)據(jù)的有效性,并從而提升了跨語(yǔ)言實(shí)體對(duì)齊效果。(2)提出了使用圖卷積網(wǎng)絡(luò)編碼知識(shí)圖譜多視角信息的跨語(yǔ)言實(shí)體對(duì)齊模型。根據(jù)知識(shí)圖譜三元組和實(shí)體描述文本,...
【文章來(lái)源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:77 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
百度百科中“劉德華”詞條
浙江大學(xué)碩士學(xué)位論文第1章緒論3象。在信息抽娶知識(shí)融合階段都需要進(jìn)行實(shí)體對(duì)齊。對(duì)于原生知識(shí)庫(kù),即知識(shí)主要來(lái)源于相關(guān)專家學(xué)者或直接來(lái)源于廣大人群共同編輯維護(hù)的Wikipedia[2]、WordNet[3]、百度百科[4]等知識(shí)庫(kù),會(huì)存在同一個(gè)實(shí)體具有多種名稱的情況,需要進(jìn)行同源實(shí)體對(duì)齊,也稱為實(shí)體解析(EntityResolution),判斷多個(gè)指稱是否對(duì)應(yīng)同一且唯一的實(shí)體。對(duì)于融合知識(shí)庫(kù),即依靠從原生知識(shí)庫(kù)抽取結(jié)構(gòu)化信息,融合多個(gè)數(shù)據(jù)源而建成的知識(shí)庫(kù),如DBpedia[5]、Freebase[6]等來(lái)說(shuō),則需要判斷不同數(shù)據(jù)集中的實(shí)體是否指向同一個(gè)實(shí)體,通過(guò)實(shí)體對(duì)齊來(lái)合并數(shù)據(jù),去除重復(fù)。隨著知識(shí)圖譜的構(gòu)建以及相關(guān)應(yīng)用的驅(qū)動(dòng),單語(yǔ)言知識(shí)圖譜日趨成熟,其中的實(shí)體對(duì)齊問(wèn)題取得了很大的進(jìn)展,多語(yǔ)言知識(shí)圖譜(如DBpedia[5]、Yago[7]、BabelNet[8]、ConceptNet[9])也逐步建立了起來(lái),跨語(yǔ)言實(shí)體對(duì)齊——多語(yǔ)言知識(shí)圖譜中不同語(yǔ)言間的實(shí)體對(duì)齊任務(wù)也逐漸成為熱點(diǎn)。如圖1-3即為中文百度百科的“劉德華”詞條和英文維基百科的“劉德華”頁(yè)面中,相關(guān)結(jié)構(gòu)化信息跨語(yǔ)言對(duì)齊的簡(jiǎn)單示例。圖1-3百度百科與維基百科中“劉德華”實(shí)體屬性對(duì)齊實(shí)例
浙江大學(xué)碩士學(xué)位論文第2章實(shí)體對(duì)齊技術(shù)綜述151,其他維度均為0。這種表示方式結(jié)合稀疏存儲(chǔ)會(huì)非常簡(jiǎn)潔,但是也存在明顯缺陷:詞表通常很大,詞向量維度會(huì)非常大;詞和詞之間是獨(dú)立的,無(wú)法根據(jù)詞向量判斷兩個(gè)詞的關(guān)系。另一類更為常用的詞向量表示方式稱為分布式表示(DistributedRepresentation),將單詞表示為低維實(shí)值向量,通常小于1000維,解決了高維稀疏的問(wèn)題,且能夠讓語(yǔ)義相近的詞在空間中距離更接近。將詞分布式表示的過(guò)程也經(jīng)常被稱作詞嵌入(WordEmbedding)。一般自然語(yǔ)言處理任務(wù)關(guān)注單語(yǔ)言的詞向量表示,雙語(yǔ)言詞向量表示與單語(yǔ)言詞向量表示存在一定的不同之處。雙語(yǔ)言詞向量表示(此處也即跨語(yǔ)言表示)有三種主要方法。分別是:1、單語(yǔ)言各自訓(xùn)練后,學(xué)習(xí)語(yǔ)言之間的向量空間轉(zhuǎn)換;2、單語(yǔ)言各自訓(xùn)練后,共同轉(zhuǎn)換到一個(gè)統(tǒng)一的語(yǔ)義空間;3、聯(lián)合學(xué)習(xí),同時(shí)訓(xùn)練多語(yǔ)言的詞向量分布表示。接下來(lái)以具體工作說(shuō)明各類方法。單語(yǔ)訓(xùn)練,跨語(yǔ)言轉(zhuǎn)換單語(yǔ)言分別訓(xùn)練后,學(xué)習(xí)跨語(yǔ)言空間轉(zhuǎn)換的方式,以Mikolov等人[54]的工作為代表。Mikolov等人首先從大量的單語(yǔ)言語(yǔ)料中用Word2Vec[62]學(xué)習(xí)到每種語(yǔ)言中的詞向量表示,再依賴小型雙語(yǔ)語(yǔ)料學(xué)習(xí)跨語(yǔ)言的詞向量的線性映射關(guān)系。Word2Vec包含兩種訓(xùn)練詞向量分布表示的模型,CBOW(ContinuousBag-of-WordsModel)和Skip-gram。CBOW模型的思想是根據(jù)一個(gè)詞語(yǔ)的上下文相關(guān)詞語(yǔ)來(lái)預(yù)測(cè)該詞,而Skip-gram模型則相反,給定特定單詞,希望能夠輸出它的上下文詞語(yǔ)。它們的模型結(jié)構(gòu)如圖2-1所示。圖2-1CBOW和Skip-gram模型結(jié)構(gòu)圖
【參考文獻(xiàn)】:
期刊論文
[1]知識(shí)表示學(xué)習(xí)研究進(jìn)展[J]. 劉知遠(yuǎn),孫茂松,林衍凱,謝若冰. 計(jì)算機(jī)研究與發(fā)展. 2016(02)
[2]知識(shí)庫(kù)實(shí)體對(duì)齊技術(shù)綜述[J]. 莊嚴(yán),李國(guó)良,馮建華. 計(jì)算機(jī)研究與發(fā)展. 2016(01)
本文編號(hào):2998180
【文章來(lái)源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:77 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
百度百科中“劉德華”詞條
浙江大學(xué)碩士學(xué)位論文第1章緒論3象。在信息抽娶知識(shí)融合階段都需要進(jìn)行實(shí)體對(duì)齊。對(duì)于原生知識(shí)庫(kù),即知識(shí)主要來(lái)源于相關(guān)專家學(xué)者或直接來(lái)源于廣大人群共同編輯維護(hù)的Wikipedia[2]、WordNet[3]、百度百科[4]等知識(shí)庫(kù),會(huì)存在同一個(gè)實(shí)體具有多種名稱的情況,需要進(jìn)行同源實(shí)體對(duì)齊,也稱為實(shí)體解析(EntityResolution),判斷多個(gè)指稱是否對(duì)應(yīng)同一且唯一的實(shí)體。對(duì)于融合知識(shí)庫(kù),即依靠從原生知識(shí)庫(kù)抽取結(jié)構(gòu)化信息,融合多個(gè)數(shù)據(jù)源而建成的知識(shí)庫(kù),如DBpedia[5]、Freebase[6]等來(lái)說(shuō),則需要判斷不同數(shù)據(jù)集中的實(shí)體是否指向同一個(gè)實(shí)體,通過(guò)實(shí)體對(duì)齊來(lái)合并數(shù)據(jù),去除重復(fù)。隨著知識(shí)圖譜的構(gòu)建以及相關(guān)應(yīng)用的驅(qū)動(dòng),單語(yǔ)言知識(shí)圖譜日趨成熟,其中的實(shí)體對(duì)齊問(wèn)題取得了很大的進(jìn)展,多語(yǔ)言知識(shí)圖譜(如DBpedia[5]、Yago[7]、BabelNet[8]、ConceptNet[9])也逐步建立了起來(lái),跨語(yǔ)言實(shí)體對(duì)齊——多語(yǔ)言知識(shí)圖譜中不同語(yǔ)言間的實(shí)體對(duì)齊任務(wù)也逐漸成為熱點(diǎn)。如圖1-3即為中文百度百科的“劉德華”詞條和英文維基百科的“劉德華”頁(yè)面中,相關(guān)結(jié)構(gòu)化信息跨語(yǔ)言對(duì)齊的簡(jiǎn)單示例。圖1-3百度百科與維基百科中“劉德華”實(shí)體屬性對(duì)齊實(shí)例
浙江大學(xué)碩士學(xué)位論文第2章實(shí)體對(duì)齊技術(shù)綜述151,其他維度均為0。這種表示方式結(jié)合稀疏存儲(chǔ)會(huì)非常簡(jiǎn)潔,但是也存在明顯缺陷:詞表通常很大,詞向量維度會(huì)非常大;詞和詞之間是獨(dú)立的,無(wú)法根據(jù)詞向量判斷兩個(gè)詞的關(guān)系。另一類更為常用的詞向量表示方式稱為分布式表示(DistributedRepresentation),將單詞表示為低維實(shí)值向量,通常小于1000維,解決了高維稀疏的問(wèn)題,且能夠讓語(yǔ)義相近的詞在空間中距離更接近。將詞分布式表示的過(guò)程也經(jīng)常被稱作詞嵌入(WordEmbedding)。一般自然語(yǔ)言處理任務(wù)關(guān)注單語(yǔ)言的詞向量表示,雙語(yǔ)言詞向量表示與單語(yǔ)言詞向量表示存在一定的不同之處。雙語(yǔ)言詞向量表示(此處也即跨語(yǔ)言表示)有三種主要方法。分別是:1、單語(yǔ)言各自訓(xùn)練后,學(xué)習(xí)語(yǔ)言之間的向量空間轉(zhuǎn)換;2、單語(yǔ)言各自訓(xùn)練后,共同轉(zhuǎn)換到一個(gè)統(tǒng)一的語(yǔ)義空間;3、聯(lián)合學(xué)習(xí),同時(shí)訓(xùn)練多語(yǔ)言的詞向量分布表示。接下來(lái)以具體工作說(shuō)明各類方法。單語(yǔ)訓(xùn)練,跨語(yǔ)言轉(zhuǎn)換單語(yǔ)言分別訓(xùn)練后,學(xué)習(xí)跨語(yǔ)言空間轉(zhuǎn)換的方式,以Mikolov等人[54]的工作為代表。Mikolov等人首先從大量的單語(yǔ)言語(yǔ)料中用Word2Vec[62]學(xué)習(xí)到每種語(yǔ)言中的詞向量表示,再依賴小型雙語(yǔ)語(yǔ)料學(xué)習(xí)跨語(yǔ)言的詞向量的線性映射關(guān)系。Word2Vec包含兩種訓(xùn)練詞向量分布表示的模型,CBOW(ContinuousBag-of-WordsModel)和Skip-gram。CBOW模型的思想是根據(jù)一個(gè)詞語(yǔ)的上下文相關(guān)詞語(yǔ)來(lái)預(yù)測(cè)該詞,而Skip-gram模型則相反,給定特定單詞,希望能夠輸出它的上下文詞語(yǔ)。它們的模型結(jié)構(gòu)如圖2-1所示。圖2-1CBOW和Skip-gram模型結(jié)構(gòu)圖
【參考文獻(xiàn)】:
期刊論文
[1]知識(shí)表示學(xué)習(xí)研究進(jìn)展[J]. 劉知遠(yuǎn),孫茂松,林衍凱,謝若冰. 計(jì)算機(jī)研究與發(fā)展. 2016(02)
[2]知識(shí)庫(kù)實(shí)體對(duì)齊技術(shù)綜述[J]. 莊嚴(yán),李國(guó)良,馮建華. 計(jì)算機(jī)研究與發(fā)展. 2016(01)
本文編號(hào):2998180
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2998180.html
最近更新
教材專著