基于深度學(xué)習(xí)的三維模型識別算法研究
發(fā)布時(shí)間:2021-11-18 05:15
三維模型的數(shù)量日漸增多,然而手動標(biāo)注三維模型需要占用額外的人力資源,效率較低;谌斯ぴO(shè)計(jì)特征的三維模型識別精度較低。雖然卷積網(wǎng)絡(luò)在圖像分類和目標(biāo)檢測等各種視覺應(yīng)用中有良好的表現(xiàn),但大量池化層的引入會導(dǎo)致特征空間信息丟失。而膠囊網(wǎng)絡(luò)(Capsnet)通過向量神經(jīng)元保存特征的空間屬性,對模型的變化具有更好的魯棒性,因此可將膠囊網(wǎng)絡(luò)應(yīng)用于三維模型識別中來學(xué)習(xí)三維模型的特征信息。本文主要研究內(nèi)容如下:(1)在三維模型識別任務(wù)中,針對池化層數(shù)量過多導(dǎo)致特征空間信息丟失的問題,依據(jù)膠囊網(wǎng)絡(luò)的特性,提出了一種用以識別三維模型的3DSPNCapsNet(3D Small Pooling No dense Capsule Networks)網(wǎng)絡(luò)模型。首先,將三維模型體素化為可以輸入網(wǎng)絡(luò)的數(shù)據(jù)類型;其次,使用新的網(wǎng)絡(luò)結(jié)構(gòu)提取更具代表性的特征;最后,提出基于動態(tài)路由算法(dynamic routing algorithm,DR)的DRL(dynamic routing-based algorithmwith length information)算法,優(yōu)化膠囊權(quán)重的迭代計(jì)算過程。在Model Net10上...
【文章來源】:山東理工大學(xué)山東省
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
激光雷達(dá)Fig.1.1LiDAR
山東理工大學(xué)碩士學(xué)位論文第一章緒論4圖1.2多視圖卷積神經(jīng)網(wǎng)絡(luò)[19]Fig.1.2Multi-viewConvolutionalNeuralNetwork[19]黃驥[20]提出了一種使用核線性分類分析來對三維模型特征進(jìn)行優(yōu)化的新方法,將低維空間下線性不可分的樣本映射到高維空間,在高維空間中利用線性分類分析將原有的三維模型特征投影到特定的子空間。該方法能夠在保持類間距離的基礎(chǔ)上得到具有鑒別信息的低維特征用于三維模型檢索,同時(shí)使用卷積神經(jīng)網(wǎng)絡(luò)來對三維模型深度圖進(jìn)行姿態(tài)估計(jì),通過監(jiān)督學(xué)習(xí)的方法訓(xùn)練合適的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),對三維模型深度圖像提取特征后進(jìn)行姿態(tài)參數(shù)的預(yù)測。實(shí)驗(yàn)結(jié)果表明,核線性分類分析方法的速度較快,可在秒級完成三維特征優(yōu)化。AsakoKanezaki[21]等提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型RotationNet,將對象的多視圖圖像作為輸入,以無監(jiān)督的方式學(xué)習(xí)視點(diǎn)標(biāo)簽并將其視為潛在變量,并共同估計(jì)其姿勢和對象類別,該方法在Modelnet10上的識別準(zhǔn)確率達(dá)到98%。YavartanooM[22]將三維模型進(jìn)行多角度二維投影,并使用卷積網(wǎng)絡(luò)估計(jì)對象類別,對卷積網(wǎng)絡(luò)提取到的進(jìn)行視圖集成,然后將每個(gè)集成對象的權(quán)值平均結(jié)果作為最終的打分,該方法在Modelnet10上取得97%的識別準(zhǔn)確率。(2)采用體素化方法對三維模型進(jìn)行預(yù)處理體素化算法利用三維模型與三維空間網(wǎng)格的相交關(guān)系,將其處理成0、1形式的體素化數(shù)據(jù),可以保留三維模型的空間分布信息,占用較少的計(jì)算機(jī)存儲空間。LengB等[23]使將用三維卷積神經(jīng)網(wǎng)絡(luò)3DCNN,利用隨機(jī)梯度下降(SGD)對卷積層進(jìn)行預(yù)處理,以及反向傳播算法對整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào)從而識別體素化三維模型。其網(wǎng)絡(luò)結(jié)構(gòu)如圖1.3:
山東理工大學(xué)碩士學(xué)位論文第一章緒論5圖1.3三維卷積神經(jīng)網(wǎng)絡(luò)[21]Fig.1.33DConvolutionalNeuralNetwork[21]柳偉[24]利用PCA矩陣進(jìn)行各向同性化,并采用了一種基于迭代策略的各向同性化方法,使三維模型表面達(dá)到充分同性化,并將三維模型體素化,使用基于區(qū)域熵的特征提取算法對三維模型進(jìn)行識別。鄧皓文[25]在神經(jīng)網(wǎng)絡(luò)中加入一個(gè)特殊的哈希層,直接提取類似于哈希碼的二值化特征,使用一種結(jié)合不同網(wǎng)絡(luò)層輸出信息的聯(lián)合特征方法,顯著增加特征中的有效信息量,提升最終的識別精度。HegdeV[26]等融合了基于體素的V-CNNI、V-CNNII以及基于視圖的MV-CNN,得到FusionNet,并在ModelNet10的識別中得到了93.1%的識別準(zhǔn)確率盡管在卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)中使用池化層在一定程度上增大了神經(jīng)元的感受野以及降低了樣本訓(xùn)練的開銷,但是大量池化層的使用會造成原始數(shù)據(jù)結(jié)構(gòu)信息的丟失,從而影響最終的識別結(jié)果。Hinton教授[27]于2017年提出的膠囊網(wǎng)絡(luò)創(chuàng)新地使用向量膠囊取代傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的標(biāo)量神經(jīng)元,并提出了動態(tài)路由算法更新膠囊之間的連接權(quán)重,從而較好的保留了特征的空間信息,在MINIST手寫數(shù)字識別上達(dá)到了99.2%識別準(zhǔn)確率。自膠囊網(wǎng)絡(luò)誕生之后,人們將其應(yīng)用到了很多領(lǐng)域,如人類行為識別[28]、人工聲音事件檢測[29]、乳腺癌識別[30][31]、網(wǎng)絡(luò)流量分類[32]和監(jiān)控場景下的車型識別等[33]。XixinWu[34]提出了CapsNets的循環(huán)連接,考慮頻譜圖中語音特征的空間關(guān)系,提供一種用于獲得話音全局特征的有效合并方法與基于基準(zhǔn)語料庫IEMOCAP上的CNN長短期記憶(CNN-LSTM)組合模型進(jìn)行比較,在加權(quán)準(zhǔn)確度(72.73%對68.8%)和未加權(quán)準(zhǔn)確度(59.71%對59.4%)方面均比基線系統(tǒng)取得了更好的結(jié)果。YiHuang[35]使用三維憶阻器交叉開關(guān)構(gòu)建一種架構(gòu)實(shí)現(xiàn)了膠囊網(wǎng)
本文編號:3502282
【文章來源】:山東理工大學(xué)山東省
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
激光雷達(dá)Fig.1.1LiDAR
山東理工大學(xué)碩士學(xué)位論文第一章緒論4圖1.2多視圖卷積神經(jīng)網(wǎng)絡(luò)[19]Fig.1.2Multi-viewConvolutionalNeuralNetwork[19]黃驥[20]提出了一種使用核線性分類分析來對三維模型特征進(jìn)行優(yōu)化的新方法,將低維空間下線性不可分的樣本映射到高維空間,在高維空間中利用線性分類分析將原有的三維模型特征投影到特定的子空間。該方法能夠在保持類間距離的基礎(chǔ)上得到具有鑒別信息的低維特征用于三維模型檢索,同時(shí)使用卷積神經(jīng)網(wǎng)絡(luò)來對三維模型深度圖進(jìn)行姿態(tài)估計(jì),通過監(jiān)督學(xué)習(xí)的方法訓(xùn)練合適的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),對三維模型深度圖像提取特征后進(jìn)行姿態(tài)參數(shù)的預(yù)測。實(shí)驗(yàn)結(jié)果表明,核線性分類分析方法的速度較快,可在秒級完成三維特征優(yōu)化。AsakoKanezaki[21]等提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型RotationNet,將對象的多視圖圖像作為輸入,以無監(jiān)督的方式學(xué)習(xí)視點(diǎn)標(biāo)簽并將其視為潛在變量,并共同估計(jì)其姿勢和對象類別,該方法在Modelnet10上的識別準(zhǔn)確率達(dá)到98%。YavartanooM[22]將三維模型進(jìn)行多角度二維投影,并使用卷積網(wǎng)絡(luò)估計(jì)對象類別,對卷積網(wǎng)絡(luò)提取到的進(jìn)行視圖集成,然后將每個(gè)集成對象的權(quán)值平均結(jié)果作為最終的打分,該方法在Modelnet10上取得97%的識別準(zhǔn)確率。(2)采用體素化方法對三維模型進(jìn)行預(yù)處理體素化算法利用三維模型與三維空間網(wǎng)格的相交關(guān)系,將其處理成0、1形式的體素化數(shù)據(jù),可以保留三維模型的空間分布信息,占用較少的計(jì)算機(jī)存儲空間。LengB等[23]使將用三維卷積神經(jīng)網(wǎng)絡(luò)3DCNN,利用隨機(jī)梯度下降(SGD)對卷積層進(jìn)行預(yù)處理,以及反向傳播算法對整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào)從而識別體素化三維模型。其網(wǎng)絡(luò)結(jié)構(gòu)如圖1.3:
山東理工大學(xué)碩士學(xué)位論文第一章緒論5圖1.3三維卷積神經(jīng)網(wǎng)絡(luò)[21]Fig.1.33DConvolutionalNeuralNetwork[21]柳偉[24]利用PCA矩陣進(jìn)行各向同性化,并采用了一種基于迭代策略的各向同性化方法,使三維模型表面達(dá)到充分同性化,并將三維模型體素化,使用基于區(qū)域熵的特征提取算法對三維模型進(jìn)行識別。鄧皓文[25]在神經(jīng)網(wǎng)絡(luò)中加入一個(gè)特殊的哈希層,直接提取類似于哈希碼的二值化特征,使用一種結(jié)合不同網(wǎng)絡(luò)層輸出信息的聯(lián)合特征方法,顯著增加特征中的有效信息量,提升最終的識別精度。HegdeV[26]等融合了基于體素的V-CNNI、V-CNNII以及基于視圖的MV-CNN,得到FusionNet,并在ModelNet10的識別中得到了93.1%的識別準(zhǔn)確率盡管在卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)中使用池化層在一定程度上增大了神經(jīng)元的感受野以及降低了樣本訓(xùn)練的開銷,但是大量池化層的使用會造成原始數(shù)據(jù)結(jié)構(gòu)信息的丟失,從而影響最終的識別結(jié)果。Hinton教授[27]于2017年提出的膠囊網(wǎng)絡(luò)創(chuàng)新地使用向量膠囊取代傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的標(biāo)量神經(jīng)元,并提出了動態(tài)路由算法更新膠囊之間的連接權(quán)重,從而較好的保留了特征的空間信息,在MINIST手寫數(shù)字識別上達(dá)到了99.2%識別準(zhǔn)確率。自膠囊網(wǎng)絡(luò)誕生之后,人們將其應(yīng)用到了很多領(lǐng)域,如人類行為識別[28]、人工聲音事件檢測[29]、乳腺癌識別[30][31]、網(wǎng)絡(luò)流量分類[32]和監(jiān)控場景下的車型識別等[33]。XixinWu[34]提出了CapsNets的循環(huán)連接,考慮頻譜圖中語音特征的空間關(guān)系,提供一種用于獲得話音全局特征的有效合并方法與基于基準(zhǔn)語料庫IEMOCAP上的CNN長短期記憶(CNN-LSTM)組合模型進(jìn)行比較,在加權(quán)準(zhǔn)確度(72.73%對68.8%)和未加權(quán)準(zhǔn)確度(59.71%對59.4%)方面均比基線系統(tǒng)取得了更好的結(jié)果。YiHuang[35]使用三維憶阻器交叉開關(guān)構(gòu)建一種架構(gòu)實(shí)現(xiàn)了膠囊網(wǎng)
本文編號:3502282
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3502282.html
最近更新
教材專著