基于自編碼器框架的草圖生成與分割方法研究
發(fā)布時間:2021-06-02 22:57
隨著科技的發(fā)展與進步,人們身邊出現(xiàn)了越來越多的智能設(shè)備,這些智能設(shè)備其中很大一部分是帶有觸摸屏的設(shè)備,包括平板電腦、智能手機。這些智能設(shè)備深度參與了人類的生活,也很大程度上改變了人類的交流方式。在這個快節(jié)奏的社會,人們傾向于使用草圖這種既簡潔又蘊含豐富信息的信息載體來進行交流,這也促使了大批草圖相關(guān)的應(yīng)用領(lǐng)域的產(chǎn)生,包括草圖生成、草圖檢索、草圖識別等。與此同時,隨著深度學(xué)習(xí)的蓬勃發(fā)展,其在自然圖像的相關(guān)領(lǐng)域,包括圖像識別、圖像生成、圖像分割等都取得了巨大的成功。然而,由相機獲得的二維自然圖像通常都是現(xiàn)實世界的完美拷貝,手繪草圖不同,它是通過人類大腦加工過的產(chǎn)物,具有很強的主觀性。在視覺領(lǐng)域,手繪草圖是一個特殊的模態(tài),這也決定了將自然圖像領(lǐng)域的方法直接套搬到草圖領(lǐng)域是不合適的,手繪草圖領(lǐng)域的方法需要有特殊的設(shè)計和思想。為了方便計算,在計算機中手繪草圖通常會被存儲為二維的像素圖片,然而,這種存儲方式會獲得一個高度稀疏的矩陣。人類繪畫草圖的過程是一個動態(tài)的過程,像表示自然圖像那樣表示草圖,雖然可以保留很多草圖視覺形狀上的信息,但也必然會丟失很多繪畫時的動態(tài)信息。用矢量形式表示草圖的優(yōu)勢就是可...
【文章來源】:安徽大學(xué)安徽省 211工程院校
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
象形文字圖示
第一章緒論2圖1.2表情包圖示Fig1.2TheillustrationsofEmoji隨著互聯(lián)網(wǎng)上出現(xiàn)的草圖數(shù)據(jù)越來越多,以及面向草圖的應(yīng)用越來越受歡迎。都促使了學(xué)術(shù)界和工業(yè)界開始更廣泛地研究手繪草圖。與此同時,深度學(xué)習(xí)技術(shù)也在迅速發(fā)展,并在各種人工智能任務(wù)中達到了最先進的水平,這一切都使得手繪草圖的研究出現(xiàn)了前所未有的繁榮,但是充滿機遇的同時,也處處都是挑戰(zhàn)。特別是近年來,盡管已經(jīng)針對手繪草圖提出了大量的深度學(xué)習(xí)模型,但仍有許多問題有待探究和解決。在視覺領(lǐng)域,手繪草圖是一種獨特的模態(tài)。它具有很多這個模態(tài)特有的性質(zhì),手繪草圖領(lǐng)域具有的獨特挑戰(zhàn)可以總結(jié)歸納為以下幾點:(1)高度抽象化。當(dāng)人類決定使用草圖去描繪一個物體或一個場景時,大腦會首先對特定的物體或場景的輪廓進行抽象概括。一般人都會尋求使用盡可能少的筆畫數(shù),來描繪符合他們腦中所概括的物體或場景的抽象輪廓。這就意味著這些筆畫都是由人腦預(yù)先處理的。如圖1.3所示,金字塔可以在草圖中描繪為簡單的三角形,而寥寥幾筆便可以描繪了一個精美的手提包。這種高度抽象化的結(jié)果對草圖相關(guān)的模型來說是一個很大的挑戰(zhàn)。(2)高度多樣化。草圖是由人類繪畫出來的,然而,不同的個體具有不同的繪畫風(fēng)格,例如夸張的,藝術(shù)的。并且,不同個體之間的繪畫能力是有差異的。如圖1.3所示,在給定特定類別“貓”以及參考圖像的情況下,人們?nèi)匀粫嫵鲇?無身體的各種貓。這種高度多樣化性質(zhì)的存在,會使得模型很難學(xué)習(xí)到一個特定具有的一般模式。(3)高噪聲。一方面,人們在繪畫草圖的過程中總是會帶有一些多余的和嘈雜的筆
視覺相似性,例如,狗和豬。有時候,由于類內(nèi)樣本的多樣性以及類間樣本的相似性,“狗”類具有的噪聲會使得其在模型中更像“豬”。(4)高度稀疏性。如果像自然圖像那樣,在像素空間中表示手繪草圖,會使得表示結(jié)果是一種高度稀疏的信號。這種高度稀疏性的存在,會使草圖的建模具有很高的挑戰(zhàn)性。如果使用CNN對草圖進行建模,則通過卷積運算會涉及許多不必要的零,而實際具有數(shù)值的像素點所占比例非常少。這就涉及到如何尋求一種高效的表示方式的問題,如果數(shù)據(jù)表示方式高效合理,則會使模型的學(xué)習(xí)達到事半功倍的效果。圖1.3草圖領(lǐng)域獨特挑戰(zhàn)圖示Fig1.3Theillustrationsofdomain-uniquechallengesoffree-handsketches上述固有特征和領(lǐng)域特有的挑戰(zhàn)決定了手繪草圖問題需要有特定的設(shè)計和思想。此外,收集草圖時還存在一些獨特的挑戰(zhàn)。對于單模式草圖任務(wù),QuickDraw數(shù)據(jù)集是目前最大的數(shù)據(jù)集,包含超過5000萬個草圖樣本。但是,QuickDraw數(shù)據(jù)集中的草圖樣本通常非常抽象且嘈雜,這是因為QuickDraw在線游戲僅允許玩家使用20秒來繪制草圖。另一方面,僅提供了類標簽,而沒有其他任何細粒度的注釋(即屬性,分組),因此,對于單模式任務(wù),QuickDraw數(shù)據(jù)集主要用于草圖識別或預(yù)訓(xùn)練。1.2國內(nèi)外研究現(xiàn)狀近幾年來,手繪草圖領(lǐng)域經(jīng)歷了飛速的發(fā)展,涌現(xiàn)出一大批里程碑式的工作。這些工作包含很多方面,有面向深度學(xué)習(xí)的任務(wù),推動整個領(lǐng)域進步的數(shù)據(jù)集,創(chuàng)新的網(wǎng)絡(luò)結(jié)構(gòu)等。2015年,SketchX實驗室提出了Sketch-a-Net[1]模型。Sketch-a-Net是第一個被設(shè)計用來解決手繪草圖問題的深度卷積神經(jīng)網(wǎng)絡(luò),并且首次實現(xiàn)了在草圖識別任務(wù)上的識別精度打敗了人類。這一具有啟發(fā)性的工作證明了卷積神經(jīng)網(wǎng)絡(luò)在草圖分析上的能力,
本文編號:3210908
【文章來源】:安徽大學(xué)安徽省 211工程院校
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
象形文字圖示
第一章緒論2圖1.2表情包圖示Fig1.2TheillustrationsofEmoji隨著互聯(lián)網(wǎng)上出現(xiàn)的草圖數(shù)據(jù)越來越多,以及面向草圖的應(yīng)用越來越受歡迎。都促使了學(xué)術(shù)界和工業(yè)界開始更廣泛地研究手繪草圖。與此同時,深度學(xué)習(xí)技術(shù)也在迅速發(fā)展,并在各種人工智能任務(wù)中達到了最先進的水平,這一切都使得手繪草圖的研究出現(xiàn)了前所未有的繁榮,但是充滿機遇的同時,也處處都是挑戰(zhàn)。特別是近年來,盡管已經(jīng)針對手繪草圖提出了大量的深度學(xué)習(xí)模型,但仍有許多問題有待探究和解決。在視覺領(lǐng)域,手繪草圖是一種獨特的模態(tài)。它具有很多這個模態(tài)特有的性質(zhì),手繪草圖領(lǐng)域具有的獨特挑戰(zhàn)可以總結(jié)歸納為以下幾點:(1)高度抽象化。當(dāng)人類決定使用草圖去描繪一個物體或一個場景時,大腦會首先對特定的物體或場景的輪廓進行抽象概括。一般人都會尋求使用盡可能少的筆畫數(shù),來描繪符合他們腦中所概括的物體或場景的抽象輪廓。這就意味著這些筆畫都是由人腦預(yù)先處理的。如圖1.3所示,金字塔可以在草圖中描繪為簡單的三角形,而寥寥幾筆便可以描繪了一個精美的手提包。這種高度抽象化的結(jié)果對草圖相關(guān)的模型來說是一個很大的挑戰(zhàn)。(2)高度多樣化。草圖是由人類繪畫出來的,然而,不同的個體具有不同的繪畫風(fēng)格,例如夸張的,藝術(shù)的。并且,不同個體之間的繪畫能力是有差異的。如圖1.3所示,在給定特定類別“貓”以及參考圖像的情況下,人們?nèi)匀粫嫵鲇?無身體的各種貓。這種高度多樣化性質(zhì)的存在,會使得模型很難學(xué)習(xí)到一個特定具有的一般模式。(3)高噪聲。一方面,人們在繪畫草圖的過程中總是會帶有一些多余的和嘈雜的筆
視覺相似性,例如,狗和豬。有時候,由于類內(nèi)樣本的多樣性以及類間樣本的相似性,“狗”類具有的噪聲會使得其在模型中更像“豬”。(4)高度稀疏性。如果像自然圖像那樣,在像素空間中表示手繪草圖,會使得表示結(jié)果是一種高度稀疏的信號。這種高度稀疏性的存在,會使草圖的建模具有很高的挑戰(zhàn)性。如果使用CNN對草圖進行建模,則通過卷積運算會涉及許多不必要的零,而實際具有數(shù)值的像素點所占比例非常少。這就涉及到如何尋求一種高效的表示方式的問題,如果數(shù)據(jù)表示方式高效合理,則會使模型的學(xué)習(xí)達到事半功倍的效果。圖1.3草圖領(lǐng)域獨特挑戰(zhàn)圖示Fig1.3Theillustrationsofdomain-uniquechallengesoffree-handsketches上述固有特征和領(lǐng)域特有的挑戰(zhàn)決定了手繪草圖問題需要有特定的設(shè)計和思想。此外,收集草圖時還存在一些獨特的挑戰(zhàn)。對于單模式草圖任務(wù),QuickDraw數(shù)據(jù)集是目前最大的數(shù)據(jù)集,包含超過5000萬個草圖樣本。但是,QuickDraw數(shù)據(jù)集中的草圖樣本通常非常抽象且嘈雜,這是因為QuickDraw在線游戲僅允許玩家使用20秒來繪制草圖。另一方面,僅提供了類標簽,而沒有其他任何細粒度的注釋(即屬性,分組),因此,對于單模式任務(wù),QuickDraw數(shù)據(jù)集主要用于草圖識別或預(yù)訓(xùn)練。1.2國內(nèi)外研究現(xiàn)狀近幾年來,手繪草圖領(lǐng)域經(jīng)歷了飛速的發(fā)展,涌現(xiàn)出一大批里程碑式的工作。這些工作包含很多方面,有面向深度學(xué)習(xí)的任務(wù),推動整個領(lǐng)域進步的數(shù)據(jù)集,創(chuàng)新的網(wǎng)絡(luò)結(jié)構(gòu)等。2015年,SketchX實驗室提出了Sketch-a-Net[1]模型。Sketch-a-Net是第一個被設(shè)計用來解決手繪草圖問題的深度卷積神經(jīng)網(wǎng)絡(luò),并且首次實現(xiàn)了在草圖識別任務(wù)上的識別精度打敗了人類。這一具有啟發(fā)性的工作證明了卷積神經(jīng)網(wǎng)絡(luò)在草圖分析上的能力,
本文編號:3210908
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3210908.html
最近更新
教材專著