天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機應(yīng)用論文 >

基于Faster R-CNN和視覺注意的圖像描述生成研究

發(fā)布時間:2021-12-24 06:47
  在人工智能領(lǐng)域,圖像描述任務(wù)的目標(biāo)是將給定的一張圖像輸入機器中,機器能夠生成符合人類表達的自然、流暢的語言。這對人們來說是非常簡單的,但是對于機器而言卻是極其困難,它不僅僅需要機器能夠準(zhǔn)確識別圖像中所包含的目標(biāo),還需要捕捉目標(biāo)的屬性以及目標(biāo)間的動作關(guān)系。因此圖像描述任務(wù)一直也是計算機視覺和自然語言處理領(lǐng)域的研究熱點。近年來,受機器翻譯任務(wù)的啟發(fā),視覺注意力機制已經(jīng)被廣泛地應(yīng)用在圖像描述任務(wù)中。然而,對于背景復(fù)雜的圖像,大多數(shù)模型生成的描述語句質(zhì)量不高,甚至出現(xiàn)與圖像內(nèi)容毫不相關(guān)的問題。另外大多數(shù)方法都強制對生成的每個單詞進行主動的視覺注意,然而,解碼器可能不需要關(guān)注圖像中的任何視覺信息就可以生成非視覺單詞,比如“the”和“of”等非語義信息的單詞在圖像中并沒有與之對應(yīng)的區(qū)域,解碼器只需要依賴于語言模型就可以生成非語義單詞。最后傳統(tǒng)圖像描述任務(wù)中常常會面臨曝光偏差問題,同時大多數(shù)模型在訓(xùn)練時都是采用交叉熵損失,而在測試時采用自然語言處理領(lǐng)域中的評價機制來衡量模型,出現(xiàn)度量不一致的問題。本文主要的研究內(nèi)容如下:1、設(shè)計了一種結(jié)合自底向上和自上而下注意機制的圖像描述模型。在自底向上注意模型... 

【文章來源】:天津職業(yè)技術(shù)師范大學(xué)天津市

【文章頁數(shù)】:79 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于Faster R-CNN和視覺注意的圖像描述生成研究


生物神經(jīng)元結(jié)構(gòu)

模型圖,神經(jīng)元,模型


天津職業(yè)技術(shù)師范大學(xué)碩士學(xué)位論文6心理學(xué)家McCulloch和數(shù)學(xué)家Pitts兩人基于生物神經(jīng)元的工作原理提出了一種數(shù)學(xué)模型,稱為M-P模型。其結(jié)構(gòu)模型如圖2-2所示。M-P模型的基本思想是首先按照生物神經(jīng)元的結(jié)構(gòu)和工作原理構(gòu)造出人工神經(jīng)元作為模型中的輸入神經(jīng)元,在t時刻某一神經(jīng)元接受輸入神經(jīng)元傳遞的信號,然后將接收到信號根據(jù)權(quán)重累加整合得到總輸入值,最后將總輸入值與神經(jīng)元的閾值比較大小,只有當(dāng)總輸入值大于神經(jīng)元的閾值時,這個神經(jīng)元才會在t+1時刻被激活,最后再通過一個激活函數(shù)得到神經(jīng)元的輸出。圖2-2M-P神經(jīng)元模型M-P神經(jīng)元模型的輸出過程可以表示為:z=i=1n+b(2-1)其中凈輸入zR,表示一個神經(jīng)元對全部輸入信號的加權(quán)和,表示輸入信號,代表模型中不同的權(quán)重值。令X=[1,,,]表示輸入向量,令W=[1,w,,w]表示權(quán)重向量,則上式可以簡化為z=WTX+b(2-2)為了將凈輸入z轉(zhuǎn)換為非線性輸出,需要引入一個激活函數(shù)f(·),此時得到的神經(jīng)元活性值(Activation)α為α=f(2-3)M-P模型在很多方面都體現(xiàn)出生物神經(jīng)元重要的特性。M-P模型通過模擬單個神經(jīng)元的激活和抑制兩種狀態(tài),可以對單個神經(jīng)元執(zhí)行邏輯運算,這也開創(chuàng)了人工神經(jīng)網(wǎng)絡(luò)理論研究的新時代。學(xué)習(xí)機制對于人工智能的重要性是不言而喻的,但是M-P模型卻缺乏學(xué)習(xí)機制。心理學(xué)家Hebb認為神經(jīng)元之間的突觸連接強度不會是一個固定不變的常數(shù),而是會隨突觸前神經(jīng)元的活動而不斷變化。后來隨著人工神經(jīng)網(wǎng)絡(luò)的進一步發(fā)展,1957年康奈爾大學(xué)心理學(xué)教授FrankRosenblatt基于M-P模型提出了感知器模型。如圖2-3所示,它是由輸入層和輸出層兩層神經(jīng)元組成。這是首個通過人工算法模擬人類感知能力的神經(jīng)網(wǎng)絡(luò)模型。

網(wǎng)絡(luò)模型


天津職業(yè)技術(shù)師范大學(xué)碩士學(xué)位論文7圖2-3感知機網(wǎng)絡(luò)模型感知機模型定義為fx=signwx+b(2-4)其中x∈XR,表示從外界接受到的輸入信號,f(x)為模型的輸出。模型參數(shù)w∈Rn是網(wǎng)絡(luò)模型中神經(jīng)元之間的權(quán)值(weight),b∈R是偏置(bias)。sign是階躍函數(shù),又稱作符號函數(shù)。其函數(shù)表達式為sign(x)=+1,x≥01,x<0(2-5)模型最終的輸出值為0或1,實現(xiàn)了簡單的邏輯運算。感知機的訓(xùn)練過程如表2-1所示。表2-1感知機訓(xùn)練過程算法2-1感知機訓(xùn)練輸入:給定的訓(xùn)練數(shù)據(jù)集T={(x1,y1),(x,y),,(x,y)}和學(xué)習(xí)率η。輸出:f(x)=sign(wx+b)。步驟:(1)初始化權(quán)重w和b;(2)在訓(xùn)練集隨機選取數(shù)據(jù)(x,y);(3)如果有y(wx+b)≠0,則w=w+ηxb=b+ηy(4)重復(fù)步驟(2)和步驟(3),直至模型收斂。從訓(xùn)練過程中可以看出,每發(fā)現(xiàn)一個訓(xùn)練實例被錯誤分類,則會相應(yīng)的調(diào)整w和b的

【參考文獻】:
碩士論文
[1]基于生成對抗網(wǎng)絡(luò)的圖像自動文本標(biāo)注方法研究[D]. 呂凡.蘇州科技大學(xué) 2018
[2]基于遞歸網(wǎng)絡(luò)的圖文標(biāo)注算法研究[D]. 廖啟俊.華南理工大學(xué) 2017
[3]面向圖像描述的深度神經(jīng)網(wǎng)絡(luò)模型研究[D]. 陳強普.重慶大學(xué) 2017



本文編號:3550007

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3550007.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶73a84***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com