基于注意力機(jī)制的視頻摘要和行人屬性識(shí)別算法研究
發(fā)布時(shí)間:2022-02-08 15:57
日常生活中,人類(lèi)的大腦能夠利用有限的資源,快速地篩選出最具價(jià)值的信息,這種處理信息的手段被稱為注意力機(jī)制。最近,注意力機(jī)制在自然語(yǔ)言處理、語(yǔ)音識(shí)別、圖像識(shí)別等深度學(xué)習(xí)領(lǐng)域得到廣泛的應(yīng)用。向深度模型中引入注意力機(jī)制,能夠更加有效地利用模型的輸入輸出信息,從而提升模型的性能。本文首次將注意力機(jī)制引入視頻摘要領(lǐng)域,證明了注意力機(jī)制在視頻摘要任務(wù)中的可行性與有效性;進(jìn)一步研究基于注意力機(jī)制的行人屬性識(shí)別方法,研究能夠比較充分利用輸入輸出信息的行人屬性識(shí)別算法。一方面,隨著網(wǎng)絡(luò)視頻數(shù)量的日益增長(zhǎng),如何有效的存儲(chǔ)和處理視頻數(shù)據(jù)成為亟待解決的問(wèn)題。視頻摘要技術(shù)從原始的視頻中提取富含信息的視頻片段或視頻幀集,能夠快速總結(jié)視頻重要信息,從而緩解日益爆炸的視頻數(shù)量帶來(lái)的問(wèn)題。本文針對(duì)現(xiàn)有的視頻摘要算法忽略視頻幀之間的語(yǔ)義聯(lián)系的問(wèn)題,提出了一種基于注意力機(jī)制的視頻摘要算法,使用卷積神經(jīng)網(wǎng)絡(luò)編碼原始視頻,使用基于注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行解碼,充分探究視頻幀之間的相互聯(lián)系,從而生成富含信息的視頻摘要。在人工標(biāo)注的SumMe和TVSUM兩個(gè)主流數(shù)據(jù)集上,驗(yàn)證了所提模型的有效性。另一方面,廣布城市的監(jiān)控視頻網(wǎng)絡(luò)...
【文章來(lái)源】:天津大學(xué)天津市211工程院校985工程院校教育部直屬院校
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
人工神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元結(jié)構(gòu)圖
天津大學(xué)碩士學(xué)位論文10f()為非線性的激活函數(shù),例如sigmoid和relu等函數(shù),使神經(jīng)元的計(jì)算從線性轉(zhuǎn)換成非線性,拓展了神經(jīng)元的表達(dá)能力。圖2-1人工神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元結(jié)構(gòu)圖圖2-2三層人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖多個(gè)神經(jīng)元相互連接組成基本的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),又稱前饋網(wǎng)絡(luò)結(jié)構(gòu),一個(gè)簡(jiǎn)單的三層前饋網(wǎng)絡(luò)結(jié)構(gòu)如圖2-2所示,陰影圓圈代表隱藏層結(jié)構(gòu),上層神經(jīng)元與下層神經(jīng)元全部連接,構(gòu)成一個(gè)具有極強(qiáng)表示能力的網(wǎng)絡(luò)。從圖中可以直觀看出,單純使用全部連接的方式,一旦隱藏層神經(jīng)元數(shù)量增加或隱藏層數(shù)增加時(shí),計(jì)算量的上升是計(jì)算機(jī)無(wú)法承受的。卷積和池化的提出緩解了這個(gè)問(wèn)題。首先本文介紹圖像中的卷積操作。圖像中的卷積可看作是一個(gè)作用于矩陣的滑動(dòng)窗口函數(shù),滑動(dòng)窗口稱為卷積核,過(guò)濾器或特征檢測(cè)器。例如,本文可以使用3×3卷積核,將其元素值與原始矩陣相乘,然后將它們相加。為了獲得完整的卷積,本文通過(guò)在整個(gè)矩陣上滑動(dòng)濾波器來(lái)為每個(gè)元素執(zhí)行此操作。如圖2-3所示,左邊的矩陣可以看作是一張黑白的原圖,右邊則為卷積操作的結(jié)果:圖2-3圖像中的卷積操作
天津大學(xué)碩士學(xué)位論文10f()為非線性的激活函數(shù),例如sigmoid和relu等函數(shù),使神經(jīng)元的計(jì)算從線性轉(zhuǎn)換成非線性,拓展了神經(jīng)元的表達(dá)能力。圖2-1人工神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元結(jié)構(gòu)圖圖2-2三層人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖多個(gè)神經(jīng)元相互連接組成基本的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),又稱前饋網(wǎng)絡(luò)結(jié)構(gòu),一個(gè)簡(jiǎn)單的三層前饋網(wǎng)絡(luò)結(jié)構(gòu)如圖2-2所示,陰影圓圈代表隱藏層結(jié)構(gòu),上層神經(jīng)元與下層神經(jīng)元全部連接,構(gòu)成一個(gè)具有極強(qiáng)表示能力的網(wǎng)絡(luò)。從圖中可以直觀看出,單純使用全部連接的方式,一旦隱藏層神經(jīng)元數(shù)量增加或隱藏層數(shù)增加時(shí),計(jì)算量的上升是計(jì)算機(jī)無(wú)法承受的。卷積和池化的提出緩解了這個(gè)問(wèn)題。首先本文介紹圖像中的卷積操作。圖像中的卷積可看作是一個(gè)作用于矩陣的滑動(dòng)窗口函數(shù),滑動(dòng)窗口稱為卷積核,過(guò)濾器或特征檢測(cè)器。例如,本文可以使用3×3卷積核,將其元素值與原始矩陣相乘,然后將它們相加。為了獲得完整的卷積,本文通過(guò)在整個(gè)矩陣上滑動(dòng)濾波器來(lái)為每個(gè)元素執(zhí)行此操作。如圖2-3所示,左邊的矩陣可以看作是一張黑白的原圖,右邊則為卷積操作的結(jié)果:圖2-3圖像中的卷積操作
【參考文獻(xiàn)】:
期刊論文
[1]最大邊界重要和覆蓋的視頻摘要方法[J]. 冀中,馬亞茹,何宇清. 計(jì)算機(jī)科學(xué)與探索. 2018(08)
[2]基于超圖排序算法的視頻摘要[J]. 冀中,樊帥飛. 電子學(xué)報(bào). 2017(05)
[3]多視頻摘要技術(shù):方法、應(yīng)用及挑戰(zhàn)[J]. 冀中,蘇育挺,龐彥偉. 計(jì)算機(jī)工程與應(yīng)用. 2012(27)
本文編號(hào):3615342
【文章來(lái)源】:天津大學(xué)天津市211工程院校985工程院校教育部直屬院校
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
人工神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元結(jié)構(gòu)圖
天津大學(xué)碩士學(xué)位論文10f()為非線性的激活函數(shù),例如sigmoid和relu等函數(shù),使神經(jīng)元的計(jì)算從線性轉(zhuǎn)換成非線性,拓展了神經(jīng)元的表達(dá)能力。圖2-1人工神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元結(jié)構(gòu)圖圖2-2三層人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖多個(gè)神經(jīng)元相互連接組成基本的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),又稱前饋網(wǎng)絡(luò)結(jié)構(gòu),一個(gè)簡(jiǎn)單的三層前饋網(wǎng)絡(luò)結(jié)構(gòu)如圖2-2所示,陰影圓圈代表隱藏層結(jié)構(gòu),上層神經(jīng)元與下層神經(jīng)元全部連接,構(gòu)成一個(gè)具有極強(qiáng)表示能力的網(wǎng)絡(luò)。從圖中可以直觀看出,單純使用全部連接的方式,一旦隱藏層神經(jīng)元數(shù)量增加或隱藏層數(shù)增加時(shí),計(jì)算量的上升是計(jì)算機(jī)無(wú)法承受的。卷積和池化的提出緩解了這個(gè)問(wèn)題。首先本文介紹圖像中的卷積操作。圖像中的卷積可看作是一個(gè)作用于矩陣的滑動(dòng)窗口函數(shù),滑動(dòng)窗口稱為卷積核,過(guò)濾器或特征檢測(cè)器。例如,本文可以使用3×3卷積核,將其元素值與原始矩陣相乘,然后將它們相加。為了獲得完整的卷積,本文通過(guò)在整個(gè)矩陣上滑動(dòng)濾波器來(lái)為每個(gè)元素執(zhí)行此操作。如圖2-3所示,左邊的矩陣可以看作是一張黑白的原圖,右邊則為卷積操作的結(jié)果:圖2-3圖像中的卷積操作
天津大學(xué)碩士學(xué)位論文10f()為非線性的激活函數(shù),例如sigmoid和relu等函數(shù),使神經(jīng)元的計(jì)算從線性轉(zhuǎn)換成非線性,拓展了神經(jīng)元的表達(dá)能力。圖2-1人工神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元結(jié)構(gòu)圖圖2-2三層人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖多個(gè)神經(jīng)元相互連接組成基本的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),又稱前饋網(wǎng)絡(luò)結(jié)構(gòu),一個(gè)簡(jiǎn)單的三層前饋網(wǎng)絡(luò)結(jié)構(gòu)如圖2-2所示,陰影圓圈代表隱藏層結(jié)構(gòu),上層神經(jīng)元與下層神經(jīng)元全部連接,構(gòu)成一個(gè)具有極強(qiáng)表示能力的網(wǎng)絡(luò)。從圖中可以直觀看出,單純使用全部連接的方式,一旦隱藏層神經(jīng)元數(shù)量增加或隱藏層數(shù)增加時(shí),計(jì)算量的上升是計(jì)算機(jī)無(wú)法承受的。卷積和池化的提出緩解了這個(gè)問(wèn)題。首先本文介紹圖像中的卷積操作。圖像中的卷積可看作是一個(gè)作用于矩陣的滑動(dòng)窗口函數(shù),滑動(dòng)窗口稱為卷積核,過(guò)濾器或特征檢測(cè)器。例如,本文可以使用3×3卷積核,將其元素值與原始矩陣相乘,然后將它們相加。為了獲得完整的卷積,本文通過(guò)在整個(gè)矩陣上滑動(dòng)濾波器來(lái)為每個(gè)元素執(zhí)行此操作。如圖2-3所示,左邊的矩陣可以看作是一張黑白的原圖,右邊則為卷積操作的結(jié)果:圖2-3圖像中的卷積操作
【參考文獻(xiàn)】:
期刊論文
[1]最大邊界重要和覆蓋的視頻摘要方法[J]. 冀中,馬亞茹,何宇清. 計(jì)算機(jī)科學(xué)與探索. 2018(08)
[2]基于超圖排序算法的視頻摘要[J]. 冀中,樊帥飛. 電子學(xué)報(bào). 2017(05)
[3]多視頻摘要技術(shù):方法、應(yīng)用及挑戰(zhàn)[J]. 冀中,蘇育挺,龐彥偉. 計(jì)算機(jī)工程與應(yīng)用. 2012(27)
本文編號(hào):3615342
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3615342.html
最近更新
教材專(zhuān)著