面向知識圖譜的學(xué)習(xí)算法研究與應(yīng)用
發(fā)布時間:2020-12-12 11:16
隨著認(rèn)知智能技術(shù)的深入發(fā)展,知識圖譜儼然成為了大數(shù)據(jù)時代的一種重要的知識表示形式。在多個垂直領(lǐng)域,以數(shù)據(jù)分析、智慧搜索、智能推薦、自然人機交互為主的實際應(yīng)用場景中,皆對知識圖譜提出了客觀的使用需求。與此同時,知識圖譜作為實現(xiàn)機器認(rèn)知智能的重要基石,同樣是現(xiàn)階段人工智能領(lǐng)域的熱門研究課題。本文面向知識圖譜構(gòu)建與智能應(yīng)用中的若干關(guān)鍵理論問題開展學(xué)習(xí)算法研究與實證分析。其中,從開放域環(huán)境中自動獲取關(guān)系實例是構(gòu)建大規(guī)模知識圖譜的基礎(chǔ),精準(zhǔn)地識別概念間的上下位關(guān)系是在縱向?qū)用嫔蠑U展知識層級體系結(jié)構(gòu)的關(guān)鍵,通過知識圖譜表示學(xué)習(xí)可實現(xiàn)知識圖譜數(shù)值化表示,得以讓機器更好地處理并應(yīng)用知識圖譜進行知識計算。立足于文本數(shù)據(jù),構(gòu)建一套完整的領(lǐng)域知識圖譜模型是一個極富挑戰(zhàn)性的任務(wù)。本文的研究內(nèi)容與主要貢獻可總結(jié)為:第一,針對開放域場景下的實體關(guān)系抽取問題,提出了一個基于句法分析的開放關(guān)系抽取模型。該模型采用一種規(guī)則增強的句法分析方法,提高了對句子結(jié)構(gòu)的分析能力,從而得到了更多具有高質(zhì)量關(guān)系短語的三元組。再者,通過一種關(guān)系強度度量方法,從中進一步篩選出顯著且有良好關(guān)系強度的三元組作為最終的抽取結(jié)果。我們在四個真實...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:155 頁
【學(xué)位級別】:博士
【部分圖文】:
基于谷歌知識圖譜搜索結(jié)果的示例片段首都,北京)和(北京市海淀區(qū),郵政編碼,100089)
電子科技大學(xué)博士學(xué)位論文圖3-3增強依存路徑的上下位關(guān)系預(yù)測模型。其中,每個候選下位詞X到其上位詞Y之間的依存路徑(PathLSTM)可表示它們所在句子對應(yīng)部分的lemma(詞性還原)、POS(詞性標(biāo)注)、dependencylabel(依存標(biāo)簽)和direction(方向)的嵌入表示。op為通過LSTM對X和Y之間的多條PathLSTM進行編碼后的結(jié)果,并經(jīng)過池化操作得到vxy。vwx和vwy分別表示候選上位詞和下位詞自身的嵌入表示。通過拼接vxy、vwx和vwy,傳遞給softmax層計算X和Y之間具有上下位關(guān)系的概率上下位概念自身的嵌入表示,以及它們之間的差值進行拼接,作為特征來訓(xùn)練一個基于SVM的上下位關(guān)系分類器。Shwartz等人[82]利用長短時記憶網(wǎng)絡(luò)(LongShortTermNetwork,LSTM)來編碼候選上下位概念的依存路徑,然后結(jié)合兩個概念的詞嵌入作為特征,協(xié)同訓(xùn)練混合神經(jīng)網(wǎng)絡(luò)對候選上下位關(guān)系進行分類,如圖3-3所示。該模型采用端對端的方式進行訓(xùn)練,訓(xùn)練過程中的所有嵌入表示都會得到更新。在分布式學(xué)習(xí)的框架下,通過對以上三種典型的神經(jīng)語言模型的深入分析,我們得到了以下啟發(fā):(1)傳統(tǒng)的兩階段建模方法存在一定的局限性,例如中間過程的錯誤傳播可能會導(dǎo)致模型總體性能的下降,而端對端的訓(xùn)練方式往往能夠更好地利用實驗數(shù)據(jù);(2)DDM模型與DWNN模型中的基于投影的學(xué)習(xí)方法值得我們進一步借鑒并拓展;(3)在對序列信息的建模與表示方面,應(yīng)充分利用LSTM模型等神經(jīng)網(wǎng)絡(luò)的性能優(yōu)勢。這些啟發(fā)將指導(dǎo)我們設(shè)計新的神經(jīng)網(wǎng)絡(luò)模型,在接下來的章節(jié)中,我們將對此給出詳細(xì)的說明。3.4概念定義驅(qū)動的上下位關(guān)系識別方法圖3-4給出了本章提出的上下位關(guān)系預(yù)測模型的總體結(jié)構(gòu),從中可以看出,該模型自底而上可分為語句輸入層、語句編碼層、交互層和上下位關(guān)系預(yù)
電子科技大學(xué)博士學(xué)位論文(a)用于主題關(guān)系實例分類任務(wù)的top-k個特征(b)(c)(d)圖5-3在新聞主題7中,主題關(guān)系實例分類任務(wù)的性能驗證以及不同置信度閾值下,TCTF算法在測試集上的學(xué)習(xí)曲線關(guān)的因果關(guān)系,其主要通過以下三元組進行表現(xiàn):(“aburgeoningrefugeecrisisinEurope”,“issparkedby”,“globalextremism”),(“currentrefugeeflow”,“isrelevantto”,“aburgeoningrefugeecrisisinEurope”),(“‘thecrisisinSyria”,“hasextended”,“currentrefugeeflow”)?紤]到另外一個例子,對于新聞主題13,即下一代搜索引擎,該概念知識圖譜中為我們扼要介紹下一代搜索引擎中的相關(guān)挑戰(zhàn)與機遇。它同樣指出了AI技術(shù)在其中所扮演的重要角色。表現(xiàn)上述內(nèi)容的三元組有:(“theincreasingchallengesandopportunities”,“areconsistof”,“enhancinguseraccess”),(“insightengine”,“analyzes”,“userspastcontentinthebackground”),(“AItechniques”,“arethecoreof”,“nextgenerationsearchengine”)。類似地,對于新聞主題15,即軟件倉庫管理,我們易于發(fā)現(xiàn)軟件倉庫和數(shù)據(jù)庫系統(tǒng)在其中的重要性,其相關(guān)的屬性與關(guān)系主要通過以下三元組進行表現(xiàn):(“softwarewarehouse”,“performs”,“sourcecodecontrolling”),(“database114
本文編號:2912452
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:155 頁
【學(xué)位級別】:博士
【部分圖文】:
基于谷歌知識圖譜搜索結(jié)果的示例片段首都,北京)和(北京市海淀區(qū),郵政編碼,100089)
電子科技大學(xué)博士學(xué)位論文圖3-3增強依存路徑的上下位關(guān)系預(yù)測模型。其中,每個候選下位詞X到其上位詞Y之間的依存路徑(PathLSTM)可表示它們所在句子對應(yīng)部分的lemma(詞性還原)、POS(詞性標(biāo)注)、dependencylabel(依存標(biāo)簽)和direction(方向)的嵌入表示。op為通過LSTM對X和Y之間的多條PathLSTM進行編碼后的結(jié)果,并經(jīng)過池化操作得到vxy。vwx和vwy分別表示候選上位詞和下位詞自身的嵌入表示。通過拼接vxy、vwx和vwy,傳遞給softmax層計算X和Y之間具有上下位關(guān)系的概率上下位概念自身的嵌入表示,以及它們之間的差值進行拼接,作為特征來訓(xùn)練一個基于SVM的上下位關(guān)系分類器。Shwartz等人[82]利用長短時記憶網(wǎng)絡(luò)(LongShortTermNetwork,LSTM)來編碼候選上下位概念的依存路徑,然后結(jié)合兩個概念的詞嵌入作為特征,協(xié)同訓(xùn)練混合神經(jīng)網(wǎng)絡(luò)對候選上下位關(guān)系進行分類,如圖3-3所示。該模型采用端對端的方式進行訓(xùn)練,訓(xùn)練過程中的所有嵌入表示都會得到更新。在分布式學(xué)習(xí)的框架下,通過對以上三種典型的神經(jīng)語言模型的深入分析,我們得到了以下啟發(fā):(1)傳統(tǒng)的兩階段建模方法存在一定的局限性,例如中間過程的錯誤傳播可能會導(dǎo)致模型總體性能的下降,而端對端的訓(xùn)練方式往往能夠更好地利用實驗數(shù)據(jù);(2)DDM模型與DWNN模型中的基于投影的學(xué)習(xí)方法值得我們進一步借鑒并拓展;(3)在對序列信息的建模與表示方面,應(yīng)充分利用LSTM模型等神經(jīng)網(wǎng)絡(luò)的性能優(yōu)勢。這些啟發(fā)將指導(dǎo)我們設(shè)計新的神經(jīng)網(wǎng)絡(luò)模型,在接下來的章節(jié)中,我們將對此給出詳細(xì)的說明。3.4概念定義驅(qū)動的上下位關(guān)系識別方法圖3-4給出了本章提出的上下位關(guān)系預(yù)測模型的總體結(jié)構(gòu),從中可以看出,該模型自底而上可分為語句輸入層、語句編碼層、交互層和上下位關(guān)系預(yù)
電子科技大學(xué)博士學(xué)位論文(a)用于主題關(guān)系實例分類任務(wù)的top-k個特征(b)(c)(d)圖5-3在新聞主題7中,主題關(guān)系實例分類任務(wù)的性能驗證以及不同置信度閾值下,TCTF算法在測試集上的學(xué)習(xí)曲線關(guān)的因果關(guān)系,其主要通過以下三元組進行表現(xiàn):(“aburgeoningrefugeecrisisinEurope”,“issparkedby”,“globalextremism”),(“currentrefugeeflow”,“isrelevantto”,“aburgeoningrefugeecrisisinEurope”),(“‘thecrisisinSyria”,“hasextended”,“currentrefugeeflow”)?紤]到另外一個例子,對于新聞主題13,即下一代搜索引擎,該概念知識圖譜中為我們扼要介紹下一代搜索引擎中的相關(guān)挑戰(zhàn)與機遇。它同樣指出了AI技術(shù)在其中所扮演的重要角色。表現(xiàn)上述內(nèi)容的三元組有:(“theincreasingchallengesandopportunities”,“areconsistof”,“enhancinguseraccess”),(“insightengine”,“analyzes”,“userspastcontentinthebackground”),(“AItechniques”,“arethecoreof”,“nextgenerationsearchengine”)。類似地,對于新聞主題15,即軟件倉庫管理,我們易于發(fā)現(xiàn)軟件倉庫和數(shù)據(jù)庫系統(tǒng)在其中的重要性,其相關(guān)的屬性與關(guān)系主要通過以下三元組進行表現(xiàn):(“softwarewarehouse”,“performs”,“sourcecodecontrolling”),(“database114
本文編號:2912452
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2912452.html
最近更新
教材專著