天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于答案類型預測的視覺問答模型

發(fā)布時間:2021-01-24 00:50
  近些年,人工智能技術不斷發(fā)展,問答系統(tǒng)作為其重要組成部分,受到了業(yè)界廣泛的關注,如個人助理、智能客服等應用實例不僅提高了用戶粘性,而且有利于企業(yè)降低人工成本,為問答系統(tǒng)的研究打下了堅實的基礎。隨著計算機科學與技術的飛速發(fā)展,人們不再滿足于以文字、語音為載體的交流方式,多模態(tài)問答系統(tǒng)成為了新的研究熱點。視覺問答任務作為多模態(tài)問答系統(tǒng)的典型,受到了國內外研究學者的廣泛關注,該任務的主要目標為正確回答對相關圖片的提問,雖然目前的視覺問答模型已經有了良好的表現,但是在實際應用中仍然存在著答非所問的問題,如提問顏色,得到的回答卻是數量,該情況的發(fā)生嚴重降低了視覺問答模型的可靠性。本文以答案類型的預測作為切入點,首先根據提出的問題進行答案類型的預測,獲得相應的類別信息后,將其融合到視覺問答模型中,從而降低答非所問情況的發(fā)生,提高模型的可靠性,準確性。本文的主要研究工作有以下三點:(1)基于問題信息分析的答案類型預測研究。由于視覺問答數據集中的問答對類型差別明顯,且并未給出對應標簽,所以首先進行數據集標注。利用長短期記憶網絡等多種深度學習技術搭建答案類型預測模型,提取問題文本特征信息,并將其進行分類... 

【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校

【文章頁數】:63 頁

【學位級別】:碩士

【部分圖文】:

基于答案類型預測的視覺問答模型


CBOW模型

模型圖,模型,文本信息,單詞


哈爾濱工業(yè)大學工程碩士學位論文-14-圖2-2Skip-gram模型一般來說,由于詞表長度過長,導致在最后的softmax分類時會耗費大量時間和內存資源,所以,有研究學者引入了兩種優(yōu)化算法:負采樣(NegativeSampling)以及層次softmax(HierarchicalSoftmax),通過上述兩種算法,提高模型的運算速度,使其能夠真正的被廣泛使用。2.3.2長短時記憶網絡在自然語言處理領域,需要處理大量的文本信息,眾所周知,一段文本中某個單詞的含義不僅僅是本身所有的含義,而與上下文信息緊密相關,在處理當前單詞信息時需要結合前幾個單詞的信息甚至需要文章開頭的若干信息,RNN模型由此誕生。循環(huán)神經網絡(RNN)在很多自然語言處理任務中都表現出了很好的性能,與傳統(tǒng)神經網絡在處理輸入時都是相互獨立的這一特點不同的是,RNN模型能夠利用文本隱含的序列信息,序列信息往往在預測語句或產生文本整體特征時是非常具有幫助的。RNN在接受每一個輸入進行計算時,都會依賴于前一個隱狀態(tài),相當于之前的文本信息以隱狀態(tài)的形式參與本次時間步的計算,這就有了記憶功能,但是由于RNN結構相對簡單,只能記憶比較短的文本信息,而遠距離的文本信息會被迫遺忘。

狀態(tài)圖,單詞,段長,文本


哈爾濱工業(yè)大學工程碩士學位論文-15-循環(huán)神經網絡結構如圖2-3所示:圖2-3循環(huán)神經網絡如上圖所示,t為時間步,s為隱狀態(tài),對于一段長文本中每一個單詞的處理都是一個時間步,在進行當前單詞計算時不僅需要當前輸入xt,同時還需要上一個時間步的隱狀態(tài)st-1,相當于將之間的記憶融入到本次的計算中,如公式2-1所示:=(+1)(2-1)RNN雖然能夠將之前的信息進行保留,但是梯度消失和梯度爆炸情況的出現嚴重限制了其應用,而且RNN只能記憶比較近的文本信息,對于長距離文本信息容易遺忘,為了解決這個問題,研究者們發(fā)明了LSTM網絡。與RNN不同的是,LSTM在傳遞隱狀態(tài)的同時還傳遞了細胞狀態(tài)c,細胞狀態(tài)c用于記憶長期信息,本時刻輸入,上一時刻的隱狀態(tài)和細胞狀態(tài)同時參與計算本時刻的輸出,LSTM主干結構如圖2-4所示:圖2-4長短時記憶網絡


本文編號:2996241

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2996241.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶82839***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com