基于集成深度學(xué)習(xí)的文本匹配研究
發(fā)布時間:2021-01-12 02:42
隨著我國信息化建設(shè)的逐漸完善,人們需要更智能和準(zhǔn)確的信息檢索和自動問答等人工智能領(lǐng)域的服務(wù)。為了不斷提高算法的性能來提供更高效和舒適的服務(wù),大量研究者投入到了自然語言處理的研究中。文本匹配是自然語言處理領(lǐng)域的核心和基礎(chǔ)問題,經(jīng)歷了從早期的基于統(tǒng)計的傳統(tǒng)文本匹配方法到近年來的深度文本匹配方法。本文研究了當(dāng)前流行的幾類深度學(xué)習(xí)文本匹配方法,包括單語義表達(dá)的文本匹配、多語義表達(dá)的文本匹配和注意力機制的文本匹配。在當(dāng)前廣泛使用的算法的基礎(chǔ)上提出了多通道匹配金字塔模型、循環(huán)注意力機制的文本匹配模型和動態(tài)參數(shù)的模型堆疊集成算法,本文的主要工作包括:首先,提出了多通道匹配金字塔模型(MCMP),MCMP模型屬于多語義表達(dá)的文本匹配模型,針對現(xiàn)有的多數(shù)基于表達(dá)的文本匹配模型在匹配過程中存在的信息丟失等問題,MCMP模型融合了多個通道,分別獲取詞語的匹配分?jǐn)?shù)、詞語重要性、上下文相關(guān)信息和位置信息。實驗結(jié)果表明,MCMP模型在兩組實驗數(shù)據(jù)的各項指標(biāo)上均優(yōu)于其它基于表達(dá)的文本匹配模型,證明融合多通道的文本匹配方法是有效的。其次,提出了循環(huán)注意力機制的文本匹配模型(RAMM),RAMM模型由多個結(jié)構(gòu)相同的匹配...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:80 頁
【學(xué)位級別】:碩士
【圖文】:
NNLM語言模型[63]
第二章深度文本匹配的相關(guān)技術(shù)理論11圖2-2Cbow語言模型[64]通過嵌入層將詞語映射成詞向量的計算過程如前面所介紹的公式(2-1)所示,嵌入層的參數(shù)為vkC,其中v表示詞匯集合的大小,k表示詞向量的維度。模型在訓(xùn)練時會設(shè)置一個上下文滑動窗口的大小,如圖2-2所示,滑動窗口的大小以2為例。目標(biāo)詞tw前后均選擇2個詞語t1w,t2w,t1w+,t2w+,并通過詞向量映射函數(shù)得到滑動窗口大小內(nèi)每個詞的詞向量t1x,t2x,t1x+,t2x+。然后,模型將這幾個詞向量直接相加,如公式(2-6)所示:t1t2t1t2xxxxx++=+++(2-6)求和得到的向量x作為隱藏層,并通過前饋神經(jīng)網(wǎng)絡(luò)得到概率向量y,如公式(2-7)所示,W和b為前饋神經(jīng)網(wǎng)絡(luò)的參數(shù)。y=b+Wx(2-7)為了保證每個詞語的概率和為1,輸出層會使用Softmax函數(shù)對概率向量進行歸一化,然后計算交叉熵,如公式(2-8)和(2-9)所示。()11()1(|,...,)ywtttntvywiiepwwwe+==(2-8)111log((|,...,))ttnttLpwwwT+=(2-9)T表示所有訓(xùn)練的樣本,L表示模型的損失,訓(xùn)練時使用梯度下降算法優(yōu)化損失。訓(xùn)練好之后,參數(shù)C則是所需要的詞向量?梢钥闯,Cbow語言模型在擬合的過程中,上下文接近的詞語會學(xué)到比較相近的詞表征。和前面介紹的NNLM語言模型相比,采取了詞向量直接相加的方式,減少了計算量。NNLM語言模型的
電子科技大學(xué)碩士學(xué)位論文12隱藏層是將詞向量合并成長向量,所以計算量和序列長度成正比,在訓(xùn)練時所設(shè)置的序列長度將會受到限制。Cbow語言模型雖然減小了計算量,但直接相加沒有考慮到詞語之間的順序。2.1.3Skip-gram語言模型Skip-gram語言模型的整體思想是通過中間詞語來預(yù)測前后詞語,模型的整體結(jié)構(gòu)如圖2-3所示,模型將中間的詞語映射到詞向量,直接將中間詞語的詞向量作為隱藏層,并接入多個前饋神經(jīng)網(wǎng)絡(luò)來預(yù)測前后多個詞語。圖2-3Skip-gram語言模型[64]通過嵌入層將詞語映射成詞向量的計算過程如前面所介紹的公式(2-1)所示,嵌入層的參數(shù)為vkC,其中v表示詞匯集合的大小,k表示詞向量的維度。模型在訓(xùn)練時會設(shè)置一個上下文滑動窗口的大小,以圖2-2的情況為例,滑動窗口的大小為2,則表示預(yù)測前后2個詞語。中間詞語tw映射后得到詞向量為tx作為隱藏層,后面接入4個前饋神經(jīng)網(wǎng)絡(luò),得到4個概率向量t2y、t1y、t1y+和t2y+,分別表示前后兩個詞語的概率向量。計算過程如公式(2-10)到公式(2-13)所示。t2t2t2tybWx=+(2-10)t1t1t1tybWx=+(2-11)t1t1t1tybWx+++=+(2-12)t2t2t2tybWx+++=+(2-13)然后通過Softmax函數(shù)對概率向量進行歸一化,并計算出損失。歸一化和損失
本文編號:2971980
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:80 頁
【學(xué)位級別】:碩士
【圖文】:
NNLM語言模型[63]
第二章深度文本匹配的相關(guān)技術(shù)理論11圖2-2Cbow語言模型[64]通過嵌入層將詞語映射成詞向量的計算過程如前面所介紹的公式(2-1)所示,嵌入層的參數(shù)為vkC,其中v表示詞匯集合的大小,k表示詞向量的維度。模型在訓(xùn)練時會設(shè)置一個上下文滑動窗口的大小,如圖2-2所示,滑動窗口的大小以2為例。目標(biāo)詞tw前后均選擇2個詞語t1w,t2w,t1w+,t2w+,并通過詞向量映射函數(shù)得到滑動窗口大小內(nèi)每個詞的詞向量t1x,t2x,t1x+,t2x+。然后,模型將這幾個詞向量直接相加,如公式(2-6)所示:t1t2t1t2xxxxx++=+++(2-6)求和得到的向量x作為隱藏層,并通過前饋神經(jīng)網(wǎng)絡(luò)得到概率向量y,如公式(2-7)所示,W和b為前饋神經(jīng)網(wǎng)絡(luò)的參數(shù)。y=b+Wx(2-7)為了保證每個詞語的概率和為1,輸出層會使用Softmax函數(shù)對概率向量進行歸一化,然后計算交叉熵,如公式(2-8)和(2-9)所示。()11()1(|,...,)ywtttntvywiiepwwwe+==(2-8)111log((|,...,))ttnttLpwwwT+=(2-9)T表示所有訓(xùn)練的樣本,L表示模型的損失,訓(xùn)練時使用梯度下降算法優(yōu)化損失。訓(xùn)練好之后,參數(shù)C則是所需要的詞向量?梢钥闯,Cbow語言模型在擬合的過程中,上下文接近的詞語會學(xué)到比較相近的詞表征。和前面介紹的NNLM語言模型相比,采取了詞向量直接相加的方式,減少了計算量。NNLM語言模型的
電子科技大學(xué)碩士學(xué)位論文12隱藏層是將詞向量合并成長向量,所以計算量和序列長度成正比,在訓(xùn)練時所設(shè)置的序列長度將會受到限制。Cbow語言模型雖然減小了計算量,但直接相加沒有考慮到詞語之間的順序。2.1.3Skip-gram語言模型Skip-gram語言模型的整體思想是通過中間詞語來預(yù)測前后詞語,模型的整體結(jié)構(gòu)如圖2-3所示,模型將中間的詞語映射到詞向量,直接將中間詞語的詞向量作為隱藏層,并接入多個前饋神經(jīng)網(wǎng)絡(luò)來預(yù)測前后多個詞語。圖2-3Skip-gram語言模型[64]通過嵌入層將詞語映射成詞向量的計算過程如前面所介紹的公式(2-1)所示,嵌入層的參數(shù)為vkC,其中v表示詞匯集合的大小,k表示詞向量的維度。模型在訓(xùn)練時會設(shè)置一個上下文滑動窗口的大小,以圖2-2的情況為例,滑動窗口的大小為2,則表示預(yù)測前后2個詞語。中間詞語tw映射后得到詞向量為tx作為隱藏層,后面接入4個前饋神經(jīng)網(wǎng)絡(luò),得到4個概率向量t2y、t1y、t1y+和t2y+,分別表示前后兩個詞語的概率向量。計算過程如公式(2-10)到公式(2-13)所示。t2t2t2tybWx=+(2-10)t1t1t1tybWx=+(2-11)t1t1t1tybWx+++=+(2-12)t2t2t2tybWx+++=+(2-13)然后通過Softmax函數(shù)對概率向量進行歸一化,并計算出損失。歸一化和損失
本文編號:2971980
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2971980.html
最近更新
教材專著