面向語義推理的多視角學(xué)術(shù)知識圖譜構(gòu)建方法研究與應(yīng)用
發(fā)布時(shí)間:2021-10-09 03:37
知識是人類創(chuàng)新的發(fā)展力。人們在實(shí)踐中發(fā)現(xiàn)、研究知識并且創(chuàng)新知識,人類通過知識不斷地改造社會(huì)。如今,網(wǎng)絡(luò)世界的信息紛繁復(fù)雜,許多冗余、重復(fù)的信息干擾了人們的視線,因此,讓學(xué)術(shù)人員快速、準(zhǔn)確地定位到其感興趣的知識是一項(xiàng)十分重要的任務(wù)。搜索與推薦可以幫助人們實(shí)現(xiàn)這一目標(biāo)。但是,以往的搜索與推薦一般只是從統(tǒng)計(jì)的角度出發(fā),經(jīng)常被點(diǎn)擊的項(xiàng)目具有更高的權(quán)重,而并不是從人類理解的角度出發(fā),真正得到語義相關(guān)的知識。知識圖譜的出現(xiàn)使這一問題迎刃而解。知識圖譜將網(wǎng)絡(luò)上的實(shí)體整合成一個(gè)語義網(wǎng)絡(luò),通過在知識圖譜上的路徑推理,系統(tǒng)可以將真正語義上有緊密聯(lián)系的實(shí)體展示出來。在學(xué)術(shù)研究領(lǐng)域,學(xué)術(shù)論文是人們獲取知識的中心來源,而學(xué)術(shù)論文以解決學(xué)術(shù)問題為宗旨。為了解決各種各樣的問題,創(chuàng)新性的方法也是論文的主要貢獻(xiàn)。由此可見,問題與方法都是理解論文的不同角度。從前,很少有人將論文的問題及方法抽取出來作為知識圖譜中的節(jié)點(diǎn),而如何從非結(jié)構(gòu)化文本中抽取出這兩種實(shí)體也是一個(gè)難點(diǎn)。與此同時(shí),一般的實(shí)體抽取算法需要大量標(biāo)注數(shù)據(jù),這在大數(shù)據(jù)量的情況下十分損耗人力物力。因此,本文的目標(biāo)是用少量標(biāo)注數(shù)據(jù)完成大數(shù)據(jù)量下的問題及方法抽取,并構(gòu)建...
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
學(xué)術(shù)知識圖譜
第2章相關(guān)工作及算法描述92.4.1基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識別方法命名實(shí)體抽取可理解為對文章中的關(guān)鍵詞進(jìn)行分類,也可理解為是一種序列標(biāo)注問題,即輸入一個(gè)句子,判斷每一個(gè)單詞其所屬標(biāo)簽及在標(biāo)簽當(dāng)中的位置;跈C(jī)器學(xué)習(xí)的方法包括:隱馬爾科夫模型(HiddenMarkovModel,HMM)[28]、條件隨機(jī)場模型(Conditionrandomfield,CRF)[29]、支持向量機(jī)(SupportVectorMachine,SVM)[30]等等。早期,有很多命名實(shí)體識別任務(wù)采用隱馬爾科夫模型和條件隨機(jī)場模型來解決。隱馬爾科夫模型中,有五個(gè)基本輸入{N,M,A,B,π}。其中,N表示每一個(gè)詞語的標(biāo)注,M表示每一個(gè)單詞本身,A是一個(gè)概率矩陣,表示從當(dāng)前標(biāo)注狀態(tài)轉(zhuǎn)到下一個(gè)標(biāo)注狀態(tài)的概率,B表示觀測概率矩陣,是指在某個(gè)特定的標(biāo)簽下生成某個(gè)單詞的概率,是初始概率矩陣,π表示每一個(gè)單詞被初始化標(biāo)注的概率。從語料庫中統(tǒng)計(jì)出這些數(shù)據(jù)矩陣,然后將上述信息輸入至維特比(viterbi)算法,就可以生成每個(gè)詞語所對應(yīng)的標(biāo)簽。與生成式概率圖模型HMM不同的是,條件隨機(jī)場模型是一種判別式概率圖模型。它的目標(biāo)是在給定一個(gè)輸入序列情況下求使目標(biāo)函數(shù)最大化的輸出序列。圖2.1條件隨機(jī)場模型給定一個(gè)序列X{…},假如序列Y{…}的條件概率PYtX滿足下列公式[29]的條件:PX……PtX····················(2.9)那么已知X的條件下Y的概率PYtX滿足條件隨機(jī)常條件隨機(jī)場能夠判別全局最優(yōu)解。基于統(tǒng)計(jì)的方法需要大量的語料庫做訓(xùn)練數(shù)據(jù),這制約了該類方法的性能。
第2章相關(guān)工作及算法描述102.4.2基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體抽取近年來,神經(jīng)網(wǎng)絡(luò)在各個(gè)學(xué)術(shù)領(lǐng)域大放異彩,在自然語言處理領(lǐng)域也有著顯著的表現(xiàn)。利用神經(jīng)網(wǎng)絡(luò)進(jìn)行序列標(biāo)注問題可以分為幾個(gè)步驟:(1)學(xué)習(xí)每一個(gè)單詞的向量表示。(2)將單詞序列的向量表示輸入到神經(jīng)網(wǎng)絡(luò)模型中,來學(xué)習(xí)句子的特征。(3)將神經(jīng)網(wǎng)絡(luò)模型得到的特征表示輸入到softmax函數(shù)中,得到每個(gè)單詞的預(yù)測標(biāo)簽。較早時(shí)期有研究使用神經(jīng)網(wǎng)絡(luò)進(jìn)行命名實(shí)體識別,采用不同的窗口大小來進(jìn)行預(yù)測,一種窗口是只包括當(dāng)前單詞的上下文,另一種窗口是整個(gè)句子,對每個(gè)單詞加入位置信息。然后使用卷積神經(jīng)網(wǎng)絡(luò)+條件隨機(jī)場來得到最終的特征,而針對單詞級別的窗口和句子級別的窗口分別使用兩種不同的預(yù)測函數(shù),取得了性能的提升。Lample等人結(jié)合長短期記憶網(wǎng)絡(luò)(LSTM)和條件隨機(jī)場(CRF)解決序列標(biāo)注的問題。由于LSTM有長期記憶的能力,所以將LSTM融入命名實(shí)體識別模型中會(huì)帶來性能的改善。首先將句子映射到低維向量空間中,使用雙向LSTM作為編碼器,編碼序列的長短期特征,得到每個(gè)單詞的序列特征,然后將其輸入到解碼器的條件隨機(jī)場模型中。已知編碼到的信息,通過條件隨機(jī)場預(yù)測隱藏狀態(tài)的序列信息,會(huì)得到比單獨(dú)應(yīng)用這兩種模型更強(qiáng)的效果[31]。模型如圖2.2所示。圖2.2基于圖神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識別模型
本文編號:3425557
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
學(xué)術(shù)知識圖譜
第2章相關(guān)工作及算法描述92.4.1基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識別方法命名實(shí)體抽取可理解為對文章中的關(guān)鍵詞進(jìn)行分類,也可理解為是一種序列標(biāo)注問題,即輸入一個(gè)句子,判斷每一個(gè)單詞其所屬標(biāo)簽及在標(biāo)簽當(dāng)中的位置;跈C(jī)器學(xué)習(xí)的方法包括:隱馬爾科夫模型(HiddenMarkovModel,HMM)[28]、條件隨機(jī)場模型(Conditionrandomfield,CRF)[29]、支持向量機(jī)(SupportVectorMachine,SVM)[30]等等。早期,有很多命名實(shí)體識別任務(wù)采用隱馬爾科夫模型和條件隨機(jī)場模型來解決。隱馬爾科夫模型中,有五個(gè)基本輸入{N,M,A,B,π}。其中,N表示每一個(gè)詞語的標(biāo)注,M表示每一個(gè)單詞本身,A是一個(gè)概率矩陣,表示從當(dāng)前標(biāo)注狀態(tài)轉(zhuǎn)到下一個(gè)標(biāo)注狀態(tài)的概率,B表示觀測概率矩陣,是指在某個(gè)特定的標(biāo)簽下生成某個(gè)單詞的概率,是初始概率矩陣,π表示每一個(gè)單詞被初始化標(biāo)注的概率。從語料庫中統(tǒng)計(jì)出這些數(shù)據(jù)矩陣,然后將上述信息輸入至維特比(viterbi)算法,就可以生成每個(gè)詞語所對應(yīng)的標(biāo)簽。與生成式概率圖模型HMM不同的是,條件隨機(jī)場模型是一種判別式概率圖模型。它的目標(biāo)是在給定一個(gè)輸入序列情況下求使目標(biāo)函數(shù)最大化的輸出序列。圖2.1條件隨機(jī)場模型給定一個(gè)序列X{…},假如序列Y{…}的條件概率PYtX滿足下列公式[29]的條件:PX……PtX····················(2.9)那么已知X的條件下Y的概率PYtX滿足條件隨機(jī)常條件隨機(jī)場能夠判別全局最優(yōu)解。基于統(tǒng)計(jì)的方法需要大量的語料庫做訓(xùn)練數(shù)據(jù),這制約了該類方法的性能。
第2章相關(guān)工作及算法描述102.4.2基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體抽取近年來,神經(jīng)網(wǎng)絡(luò)在各個(gè)學(xué)術(shù)領(lǐng)域大放異彩,在自然語言處理領(lǐng)域也有著顯著的表現(xiàn)。利用神經(jīng)網(wǎng)絡(luò)進(jìn)行序列標(biāo)注問題可以分為幾個(gè)步驟:(1)學(xué)習(xí)每一個(gè)單詞的向量表示。(2)將單詞序列的向量表示輸入到神經(jīng)網(wǎng)絡(luò)模型中,來學(xué)習(xí)句子的特征。(3)將神經(jīng)網(wǎng)絡(luò)模型得到的特征表示輸入到softmax函數(shù)中,得到每個(gè)單詞的預(yù)測標(biāo)簽。較早時(shí)期有研究使用神經(jīng)網(wǎng)絡(luò)進(jìn)行命名實(shí)體識別,采用不同的窗口大小來進(jìn)行預(yù)測,一種窗口是只包括當(dāng)前單詞的上下文,另一種窗口是整個(gè)句子,對每個(gè)單詞加入位置信息。然后使用卷積神經(jīng)網(wǎng)絡(luò)+條件隨機(jī)場來得到最終的特征,而針對單詞級別的窗口和句子級別的窗口分別使用兩種不同的預(yù)測函數(shù),取得了性能的提升。Lample等人結(jié)合長短期記憶網(wǎng)絡(luò)(LSTM)和條件隨機(jī)場(CRF)解決序列標(biāo)注的問題。由于LSTM有長期記憶的能力,所以將LSTM融入命名實(shí)體識別模型中會(huì)帶來性能的改善。首先將句子映射到低維向量空間中,使用雙向LSTM作為編碼器,編碼序列的長短期特征,得到每個(gè)單詞的序列特征,然后將其輸入到解碼器的條件隨機(jī)場模型中。已知編碼到的信息,通過條件隨機(jī)場預(yù)測隱藏狀態(tài)的序列信息,會(huì)得到比單獨(dú)應(yīng)用這兩種模型更強(qiáng)的效果[31]。模型如圖2.2所示。圖2.2基于圖神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識別模型
本文編號:3425557
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3425557.html
最近更新
教材專著