基于深度學習方法進行因果關系抽取的研究
發(fā)布時間:2021-08-11 04:36
在自然語言處理(NLP)中,因果關系抽取是信息提取和知識發(fā)現(xiàn)的重要任務。因果關系在問答、決策制定和知識發(fā)現(xiàn)等領域都有著廣泛的應用,人們可以從多個數(shù)據(jù)源,如網(wǎng)頁、在線期刊、電子病歷中抽取因果關系,建立相對應的因果鏈,為相關的研究提供參考。由于自然語言文本的模糊性和多樣性,因果關系抽取仍然是一個難以解決的NLP問題。傳統(tǒng)因果關系抽取方法是使用自然語言處理工具進行特征提取后依賴機器學習相關的分類器進行因果關系抽取。但是,這些方法嚴重依賴詞性標注、句法解析等自然語言處理方法提供的分類特征,同時也嚴重依賴知識庫。而自然語言處理標注工具往往存在大量錯誤;知識庫的完備性也不能達到完美。這將導致某些錯誤會在因果關系抽取系統(tǒng)中不斷傳遞和放大,最終影響因果關系抽取的效果。近些年來,深度學習在自然語言處理中得到了越來越廣泛的應用,由于卷積神經網(wǎng)絡和循環(huán)神經網(wǎng)絡能夠很好地從句子中提取到全局和局部的特征,所以在關系抽取,機器翻譯,句子分類等基礎任務中取得了很好的效果。因此本文主要利用卷積神經網(wǎng)絡(CNN)和循環(huán)神經網(wǎng)絡的改進版GRU(Gate Recurrent Unit)來進行因果關系抽取。本文的主要內容如下...
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【部分圖文】:
Word2vec兩種模型結構
吉林大學碩士學位論文8圖2.2基于分層softmax模型結構對于目標詞匯,記:1.表示由根節(jié)點通向目標詞匯的一條完整路徑。2.表示目標路徑上所有節(jié)點的個數(shù)。3.1,2,…,表示路徑中上對應的每個節(jié)點。4.2,…,表示詞的哈夫曼編碼,它由1位哈夫曼編碼構成,即為路徑上第個節(jié)點的哈夫曼編碼。5.1,…,1表示路徑上非葉子節(jié)點對應的向量;谝陨蠘擞洠浭怯奢斎雽忧蠛秃蟮碾[藏層向量。由sigmoid歸回函數(shù)可知,哈夫曼樹的正例樣本概率為:()=11+…………………………(2.2)
第2章相關技術方法11也可以指一個專有名詞:一個電腦品牌。而“一詞多義”的問題在word2vec模型中不能很好地解決,因為Word2vec模型所生成的詞向量是固定的,不能根據(jù)語境來進行動態(tài)變化。而ELMO模型很好的解決了這個問題。下面簡單介紹以下該模型框架結構。圖2.3基于ELMO的詞嵌入模型表示由圖2.3可知,ELMO模型是使用雙向的LSTM架構,由一個前向模型和一個后項模型組成。對以一個給定的句子(1,2,…)來說,我們構建的語言模型就是通過待預測詞的上下文去預測該詞的詞向量,所以記:正向LSTM結構(基于前k-1個詞預測第k個詞):(1,2,…)=∏(|1,…,1)=1……………(2.18)反向LSTM結構(基于后n-k個詞預測第k個詞):(1,2,…)=∏(|+1,…,)=1………………(2.19)所以基于極大似然估計的目標函數(shù):Γ=∑|1,…,1;,,+=1|1,…,1;,,…………………….(2.20)其中兩個方向的LSTM的參數(shù)并不共享,是輸入的初始化詞向量,
本文編號:3335467
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【部分圖文】:
Word2vec兩種模型結構
吉林大學碩士學位論文8圖2.2基于分層softmax模型結構對于目標詞匯,記:1.表示由根節(jié)點通向目標詞匯的一條完整路徑。2.表示目標路徑上所有節(jié)點的個數(shù)。3.1,2,…,表示路徑中上對應的每個節(jié)點。4.2,…,表示詞的哈夫曼編碼,它由1位哈夫曼編碼構成,即為路徑上第個節(jié)點的哈夫曼編碼。5.1,…,1表示路徑上非葉子節(jié)點對應的向量;谝陨蠘擞洠浭怯奢斎雽忧蠛秃蟮碾[藏層向量。由sigmoid歸回函數(shù)可知,哈夫曼樹的正例樣本概率為:()=11+…………………………(2.2)
第2章相關技術方法11也可以指一個專有名詞:一個電腦品牌。而“一詞多義”的問題在word2vec模型中不能很好地解決,因為Word2vec模型所生成的詞向量是固定的,不能根據(jù)語境來進行動態(tài)變化。而ELMO模型很好的解決了這個問題。下面簡單介紹以下該模型框架結構。圖2.3基于ELMO的詞嵌入模型表示由圖2.3可知,ELMO模型是使用雙向的LSTM架構,由一個前向模型和一個后項模型組成。對以一個給定的句子(1,2,…)來說,我們構建的語言模型就是通過待預測詞的上下文去預測該詞的詞向量,所以記:正向LSTM結構(基于前k-1個詞預測第k個詞):(1,2,…)=∏(|1,…,1)=1……………(2.18)反向LSTM結構(基于后n-k個詞預測第k個詞):(1,2,…)=∏(|+1,…,)=1………………(2.19)所以基于極大似然估計的目標函數(shù):Γ=∑|1,…,1;,,+=1|1,…,1;,,…………………….(2.20)其中兩個方向的LSTM的參數(shù)并不共享,是輸入的初始化詞向量,
本文編號:3335467
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3335467.html
最近更新
教材專著