基于拼音特征與動(dòng)態(tài)嵌入向量的文本語(yǔ)義匹配方法研究
發(fā)布時(shí)間:2022-01-17 09:51
隨著互聯(lián)網(wǎng)和計(jì)算機(jī)科學(xué)技術(shù)的快速發(fā)展,人們對(duì)智能客服、機(jī)器翻譯等人工智能應(yīng)用的需求越來(lái)越多,對(duì)計(jì)算機(jī)處理人類(lèi)自然語(yǔ)言能力的要求也越來(lái)越高。文本語(yǔ)義匹配作為自然語(yǔ)言處理技術(shù)中的核心內(nèi)容之一,可將用戶輸入文本和計(jì)算機(jī)數(shù)據(jù)庫(kù)中已有文本進(jìn)行語(yǔ)義匹配,輔助計(jì)算機(jī)理解人類(lèi)自然語(yǔ)言。由于中文語(yǔ)料字詞表規(guī)模龐大,導(dǎo)致語(yǔ)料數(shù)據(jù)稀疏,字詞表中元素對(duì)應(yīng)的語(yǔ)義特征嵌入向量無(wú)法得到充分訓(xùn)練。同時(shí),傳統(tǒng)word2vec嵌入模型將字詞表中元素固定映射為單一語(yǔ)義特征嵌入向量,無(wú)法實(shí)現(xiàn)元素多義表征。針對(duì)以上問(wèn)題,本課題采用漢語(yǔ)拼音聲母、韻母和聲調(diào)作為字詞表基本單位,解決中文語(yǔ)料字詞表規(guī)模龐大的問(wèn)題。同時(shí),為實(shí)現(xiàn)拼音特征嵌入向量多義表征,本課題將拼音文本與基于Transformer的雙向編碼表示(BERT)嵌入模型相結(jié)合。通過(guò)多頭自注意力機(jī)制根據(jù)拼音文本中元素的前后文信息實(shí)現(xiàn)拼音特征嵌入向量動(dòng)態(tài)映射。另外,為提高嵌入向量的表征效果,本課題對(duì)現(xiàn)有BERT嵌入模型預(yù)訓(xùn)練方法進(jìn)行改進(jìn),提出一種適用于文本語(yǔ)義匹配任務(wù)的預(yù)訓(xùn)練方法,并在拼音語(yǔ)料上對(duì)BERT嵌入模型重新進(jìn)行預(yù)訓(xùn)練。實(shí)驗(yàn)結(jié)果顯示,所提出的文本語(yǔ)義匹配模型在大規(guī)模中文問(wèn)...
【文章來(lái)源】:哈爾濱理工大學(xué)黑龍江省
【文章頁(yè)數(shù)】:55 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
拼音序列表示示意圖
第3章文本語(yǔ)義匹配模型設(shè)計(jì)-25-圖3-7預(yù)訓(xùn)練語(yǔ)料格式Fig.3-7Pre-trainingcorpusformatSSP預(yù)訓(xùn)練方法通過(guò)對(duì)BERT嵌入模型進(jìn)行語(yǔ)句間同義語(yǔ)義關(guān)系的專項(xiàng)訓(xùn)練,能夠以較少的預(yù)訓(xùn)練數(shù)據(jù)完成對(duì)BERT嵌入模型的預(yù)訓(xùn)練,并在文本語(yǔ)義匹配任務(wù)上保證較好的模型效果。通過(guò)將SSP預(yù)訓(xùn)練方法和原有MLM預(yù)訓(xùn)練方法相結(jié)合對(duì)BERT嵌入模型進(jìn)行預(yù)訓(xùn)練,能夠在提高BERT嵌入模型對(duì)同義語(yǔ)句語(yǔ)義關(guān)系判斷能力的同時(shí),降低模型預(yù)訓(xùn)練所需的運(yùn)算量。3.4注意力池化層針對(duì)分類(lèi)任務(wù)的神經(jīng)網(wǎng)絡(luò)模型通常采用神經(jīng)網(wǎng)絡(luò)分類(lèi)器作為模型最后一層來(lái)輸出分類(lèi)結(jié)果。由于分類(lèi)層需要根據(jù)單個(gè)輸入向量(而不是一組向量)進(jìn)行分類(lèi),因此本課題采用池化方法將BERT嵌入模型提取到的語(yǔ)義特征嵌入向量序列E降維并聚合,得到包含兩個(gè)輸入待匹配文本1S和2S間語(yǔ)義匹配信息的語(yǔ)義匹配表征向量v,作為模型分類(lèi)層的輸入。池化方法起源于計(jì)算機(jī)視覺(jué)領(lǐng)域,其目的在于對(duì)輸入圖像的特征進(jìn)行壓縮,在降低特征維數(shù)的同時(shí)進(jìn)行特征篩選以得到有效特征。本課題對(duì)多種不同的序列池化方法效果進(jìn)行對(duì)比,包括全局最大池化(GlobalMaxPooling,GMP)、全局平均池化(GlobalAveragePooling,GAP)和注意力池化(AttentionPooling,AP)[44]。3.4.1全局最大池化與全局平均池化全局最大池化和全局平均池化示意圖如圖3-8所示。全局最大池化和全局平均池化分別通過(guò)求嵌入向量序列E中所有嵌入向量ie相同位置元素的最大和平均值,對(duì)嵌入向量序列E中包含的重要信息和全局信息進(jìn)行聚合,得到語(yǔ)義表征向量Mv和Av。全局最大池化和全局平均池化的計(jì)算公式為:H1n21M,...,maxiiiieeev(3-1)
第4章實(shí)驗(yàn)與結(jié)果分析-33-和100%。BERT嵌入模型預(yù)訓(xùn)練總體損失曲線如圖4-3所示。圖4-3BERT嵌入模型預(yù)訓(xùn)練損失曲線Fig.4-3Thelosscurveofpre-trainingBERTembeddingmodel可以看出,BERT模型在SSP+MLM預(yù)訓(xùn)練方法上的預(yù)訓(xùn)練過(guò)程共100萬(wàn)個(gè)訓(xùn)練步(每步包含16個(gè)預(yù)訓(xùn)練樣本)。在預(yù)訓(xùn)練初期,模型損失值迅速下降,ADAM優(yōu)化算法的搜索方向抵達(dá)損失函數(shù)的極小點(diǎn)附近。隨著ADAM優(yōu)化算法自適應(yīng)地降低模型學(xué)習(xí)率,模型損失值的下降逐漸平緩,使模型穩(wěn)定收斂。由于時(shí)間限制,本課題將預(yù)訓(xùn)練的終止步數(shù)設(shè)置為與BERT原文相同的100萬(wàn)步。本課題對(duì)BERT嵌入模型進(jìn)行充分的預(yù)訓(xùn)練,使BERT嵌入模型對(duì)語(yǔ)料字詞表中每個(gè)元素的語(yǔ)義信息和序列中各個(gè)元素之間的語(yǔ)義關(guān)系形成有效的提取能力。同時(shí),增強(qiáng)BERT嵌入模型對(duì)語(yǔ)句間同義關(guān)系的判斷能力。4.4.2文本語(yǔ)義匹配模型訓(xùn)練本課題將預(yù)訓(xùn)練后的BERT嵌入模型參數(shù)遷移到所提出的PY-BERT語(yǔ)義匹配模型嵌入層,以帶標(biāo)簽的有監(jiān)督訓(xùn)練方式在LCQMC訓(xùn)練集上對(duì)PY-BERT文本語(yǔ)義匹配模型進(jìn)行訓(xùn)練。設(shè)置最大序列長(zhǎng)度為128n,訓(xùn)練數(shù)據(jù)批大小為16batch_size,與預(yù)訓(xùn)
【參考文獻(xiàn)】:
期刊論文
[1]融合BERT語(yǔ)義加權(quán)與網(wǎng)絡(luò)圖的關(guān)鍵詞抽取方法[J]. 李俊,呂學(xué)強(qiáng). 計(jì)算機(jī)工程. 2020(09)
[2]基于對(duì)抗正則化的自然語(yǔ)言推理[J]. 劉廣燦,曹宇,許家銘,徐波. 自動(dòng)化學(xué)報(bào). 2019(08)
[3]基于BERT嵌入的中文命名實(shí)體識(shí)別方法[J]. 楊飄,董文永. 計(jì)算機(jī)工程. 2020(04)
[4]神經(jīng)機(jī)器翻譯綜述[J]. 李亞超,熊德意,張民. 計(jì)算機(jī)學(xué)報(bào). 2018(12)
[5]基于上下文的深度語(yǔ)義句子檢索模型[J]. 范意興,郭嘉豐,蘭艷艷,徐君,程學(xué)旗. 中文信息學(xué)報(bào). 2017(05)
[6]深度文本匹配綜述[J]. 龐亮,蘭艷艷,徐君,郭嘉豐,萬(wàn)圣賢,程學(xué)旗. 計(jì)算機(jī)學(xué)報(bào). 2017(04)
[7]中文分詞十年回顧[J]. 黃昌寧,趙海. 中文信息學(xué)報(bào). 2007(03)
[8]自動(dòng)問(wèn)答綜述[J]. 鄭實(shí)福,劉挺,秦兵,李生. 中文信息學(xué)報(bào). 2002(06)
碩士論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的文本匹配算法研究[D]. 李宏廣.中國(guó)科學(xué)技術(shù)大學(xué) 2019
[2]基于注意力池化機(jī)制和額外知識(shí)的事實(shí)型知識(shí)問(wèn)答研究[D]. 汪歡.浙江大學(xué) 2019
[3]基于LSTM的語(yǔ)義關(guān)系分類(lèi)研究[D]. 胡新辰.哈爾濱工業(yè)大學(xué) 2015
本文編號(hào):3594515
【文章來(lái)源】:哈爾濱理工大學(xué)黑龍江省
【文章頁(yè)數(shù)】:55 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
拼音序列表示示意圖
第3章文本語(yǔ)義匹配模型設(shè)計(jì)-25-圖3-7預(yù)訓(xùn)練語(yǔ)料格式Fig.3-7Pre-trainingcorpusformatSSP預(yù)訓(xùn)練方法通過(guò)對(duì)BERT嵌入模型進(jìn)行語(yǔ)句間同義語(yǔ)義關(guān)系的專項(xiàng)訓(xùn)練,能夠以較少的預(yù)訓(xùn)練數(shù)據(jù)完成對(duì)BERT嵌入模型的預(yù)訓(xùn)練,并在文本語(yǔ)義匹配任務(wù)上保證較好的模型效果。通過(guò)將SSP預(yù)訓(xùn)練方法和原有MLM預(yù)訓(xùn)練方法相結(jié)合對(duì)BERT嵌入模型進(jìn)行預(yù)訓(xùn)練,能夠在提高BERT嵌入模型對(duì)同義語(yǔ)句語(yǔ)義關(guān)系判斷能力的同時(shí),降低模型預(yù)訓(xùn)練所需的運(yùn)算量。3.4注意力池化層針對(duì)分類(lèi)任務(wù)的神經(jīng)網(wǎng)絡(luò)模型通常采用神經(jīng)網(wǎng)絡(luò)分類(lèi)器作為模型最后一層來(lái)輸出分類(lèi)結(jié)果。由于分類(lèi)層需要根據(jù)單個(gè)輸入向量(而不是一組向量)進(jìn)行分類(lèi),因此本課題采用池化方法將BERT嵌入模型提取到的語(yǔ)義特征嵌入向量序列E降維并聚合,得到包含兩個(gè)輸入待匹配文本1S和2S間語(yǔ)義匹配信息的語(yǔ)義匹配表征向量v,作為模型分類(lèi)層的輸入。池化方法起源于計(jì)算機(jī)視覺(jué)領(lǐng)域,其目的在于對(duì)輸入圖像的特征進(jìn)行壓縮,在降低特征維數(shù)的同時(shí)進(jìn)行特征篩選以得到有效特征。本課題對(duì)多種不同的序列池化方法效果進(jìn)行對(duì)比,包括全局最大池化(GlobalMaxPooling,GMP)、全局平均池化(GlobalAveragePooling,GAP)和注意力池化(AttentionPooling,AP)[44]。3.4.1全局最大池化與全局平均池化全局最大池化和全局平均池化示意圖如圖3-8所示。全局最大池化和全局平均池化分別通過(guò)求嵌入向量序列E中所有嵌入向量ie相同位置元素的最大和平均值,對(duì)嵌入向量序列E中包含的重要信息和全局信息進(jìn)行聚合,得到語(yǔ)義表征向量Mv和Av。全局最大池化和全局平均池化的計(jì)算公式為:H1n21M,...,maxiiiieeev(3-1)
第4章實(shí)驗(yàn)與結(jié)果分析-33-和100%。BERT嵌入模型預(yù)訓(xùn)練總體損失曲線如圖4-3所示。圖4-3BERT嵌入模型預(yù)訓(xùn)練損失曲線Fig.4-3Thelosscurveofpre-trainingBERTembeddingmodel可以看出,BERT模型在SSP+MLM預(yù)訓(xùn)練方法上的預(yù)訓(xùn)練過(guò)程共100萬(wàn)個(gè)訓(xùn)練步(每步包含16個(gè)預(yù)訓(xùn)練樣本)。在預(yù)訓(xùn)練初期,模型損失值迅速下降,ADAM優(yōu)化算法的搜索方向抵達(dá)損失函數(shù)的極小點(diǎn)附近。隨著ADAM優(yōu)化算法自適應(yīng)地降低模型學(xué)習(xí)率,模型損失值的下降逐漸平緩,使模型穩(wěn)定收斂。由于時(shí)間限制,本課題將預(yù)訓(xùn)練的終止步數(shù)設(shè)置為與BERT原文相同的100萬(wàn)步。本課題對(duì)BERT嵌入模型進(jìn)行充分的預(yù)訓(xùn)練,使BERT嵌入模型對(duì)語(yǔ)料字詞表中每個(gè)元素的語(yǔ)義信息和序列中各個(gè)元素之間的語(yǔ)義關(guān)系形成有效的提取能力。同時(shí),增強(qiáng)BERT嵌入模型對(duì)語(yǔ)句間同義關(guān)系的判斷能力。4.4.2文本語(yǔ)義匹配模型訓(xùn)練本課題將預(yù)訓(xùn)練后的BERT嵌入模型參數(shù)遷移到所提出的PY-BERT語(yǔ)義匹配模型嵌入層,以帶標(biāo)簽的有監(jiān)督訓(xùn)練方式在LCQMC訓(xùn)練集上對(duì)PY-BERT文本語(yǔ)義匹配模型進(jìn)行訓(xùn)練。設(shè)置最大序列長(zhǎng)度為128n,訓(xùn)練數(shù)據(jù)批大小為16batch_size,與預(yù)訓(xùn)
【參考文獻(xiàn)】:
期刊論文
[1]融合BERT語(yǔ)義加權(quán)與網(wǎng)絡(luò)圖的關(guān)鍵詞抽取方法[J]. 李俊,呂學(xué)強(qiáng). 計(jì)算機(jī)工程. 2020(09)
[2]基于對(duì)抗正則化的自然語(yǔ)言推理[J]. 劉廣燦,曹宇,許家銘,徐波. 自動(dòng)化學(xué)報(bào). 2019(08)
[3]基于BERT嵌入的中文命名實(shí)體識(shí)別方法[J]. 楊飄,董文永. 計(jì)算機(jī)工程. 2020(04)
[4]神經(jīng)機(jī)器翻譯綜述[J]. 李亞超,熊德意,張民. 計(jì)算機(jī)學(xué)報(bào). 2018(12)
[5]基于上下文的深度語(yǔ)義句子檢索模型[J]. 范意興,郭嘉豐,蘭艷艷,徐君,程學(xué)旗. 中文信息學(xué)報(bào). 2017(05)
[6]深度文本匹配綜述[J]. 龐亮,蘭艷艷,徐君,郭嘉豐,萬(wàn)圣賢,程學(xué)旗. 計(jì)算機(jī)學(xué)報(bào). 2017(04)
[7]中文分詞十年回顧[J]. 黃昌寧,趙海. 中文信息學(xué)報(bào). 2007(03)
[8]自動(dòng)問(wèn)答綜述[J]. 鄭實(shí)福,劉挺,秦兵,李生. 中文信息學(xué)報(bào). 2002(06)
碩士論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的文本匹配算法研究[D]. 李宏廣.中國(guó)科學(xué)技術(shù)大學(xué) 2019
[2]基于注意力池化機(jī)制和額外知識(shí)的事實(shí)型知識(shí)問(wèn)答研究[D]. 汪歡.浙江大學(xué) 2019
[3]基于LSTM的語(yǔ)義關(guān)系分類(lèi)研究[D]. 胡新辰.哈爾濱工業(yè)大學(xué) 2015
本文編號(hào):3594515
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3594515.html
最近更新
教材專著