大規(guī)模圖像數(shù)據(jù)中相似圖像的快速搜索
發(fā)布時間:2020-08-31 15:07
大規(guī)模圖像數(shù)據(jù)中的相似圖像搜索是計算機視覺研究中的經(jīng)典內(nèi)容,也是近年來有著廣泛應用的一個課題。相似圖像搜索所要解決的問題是,給定一個查詢圖像,需要從圖像數(shù)據(jù)庫中檢索到與之內(nèi)容相同或相似的圖像。當數(shù)據(jù)庫中圖像的數(shù)據(jù)規(guī)模很大時,一個相似圖像搜索系統(tǒng)面臨著搜索速度、存儲代價、返回結果準確性等諸方面的問題。其中,搜索的實時性往往是大規(guī)模圖像搜索中的關鍵問題。本文圍繞在大規(guī)模圖像數(shù)據(jù)中快速搜索相似圖像這一問題,首先介紹了目前在圖像表達上的主流圖像特征,然后介紹了作者所做的三個方面的研究工作。第一方面是圖像數(shù)據(jù)集的高效創(chuàng)建。目前常用的深層圖像特征,需要使用大量的圖像數(shù)據(jù)進行訓練。作者基于自動編碼器中數(shù)據(jù)的重建誤差對數(shù)據(jù)是否為雜質(zhì)的指示性作用,提出了可以使重建誤差具有更強的指示性的算法。用該算法可以自動去除圖像集合中的雜質(zhì),得到干凈的數(shù)據(jù)集用于深度學習的訓練。另一方面是關于圖像特征的倒排索引,作者提出了一種聯(lián)合倒排索引方法。在傳統(tǒng)的倒排索引方法中,對圖像特征空間的多次劃分都是隨機的或獨立的。而在聯(lián)合倒排索引中,作者考慮了圖像特征空間多次劃分之間的互補性,并對之進行優(yōu)化。通過聯(lián)合倒排索引,從上億圖像中單機搜索出相似圖像候選集僅需毫秒量級時間,并且返回結果的準確性較目前主流算法大大提高。還有一方面是在圖像特征的快速排序中,作者提出了稀疏投影編碼算法。在圖像特征的快速排序的研究中,近年來主流的做法是將圖像的特征進行哈希編碼,通過計算哈希碼之間的漢明距離來對候選圖像進行排序。由于哈希碼存儲空間小并且漢明距離可以快速計算,因此這種方法被廣泛采用。但是,在進行哈希編碼時,目前主流方法均引入了一個稠密的正交矩陣對圖像的特征進行投影,使得編碼步驟耗費大量時間。尤其是當圖像特征維度變大時,稠密投影將耗費更多時間。本文提出采用稀疏矩陣進行投影以減小計算代價,這樣不僅可以加快哈希編碼的速度,而且可以在一定程度上緩解優(yōu)化模型中的過擬合問題。在以最小化編碼誤差為目標求解這個稀疏投影矩陣時,作者采用了分離變量法:引入輔助變量并懲罰該輔助變量與真實變量之間的差異。采用迭代法優(yōu)化這個問題,最終求得一個稀疏的矩陣用于圖像特征的投影和編碼。作者在多個數(shù)據(jù)集上進行了各種定量實驗,實驗結果證明了以上工作相對于目前主流算法的優(yōu)越性。另外,基于所提出的聯(lián)合倒排索引算法和稀疏投影編碼的算法,作者在大規(guī)模的圖像數(shù)據(jù)上實現(xiàn)了一個相似圖像搜索系統(tǒng)。在該系統(tǒng)上的定性實驗的也證明了本文所提出算法的有效性和可行性。
【學位單位】:中國科學技術大學
【學位級別】:博士
【學位年份】:2015
【中圖分類】:TP391.41
【部分圖文】:
顏色空間的數(shù)值大小。當圖像被進行拉伸、旋轉、加濾鏡等變化后,一個點的逡逑像素值會產(chǎn)生巨大的變化。而且,通過一些獨立的像素點并不能描述圖像的全逡逑局甚至局部。因此,圖像的像素值并不具有語義區(qū)分性(如圖2.1(a)所示)。逡逑實際上,圖像可W被認為是由許多因素非線性結合而構成的。比如一副包逡逑含狗的圖像,可認為它是由一只狗、狗的姿態(tài)、當前的光照、所在場景等因逡逑素共同構成。如果想要區(qū)分包含狗和貓的圖像,就需要用來描述圖像的特征具逡逑有區(qū)分里面所包含物體的能力,也就是具有非線性抽象的能力。對于送個狗和逡逑貓的例子,假如有一種圖像特征的每個維度分別能區(qū)分狗和貓的不同特性,(如逡逑圖2.1(b),兩個維度分別能表示耳朵的尖銳程度和鼻子的相對大小),那么該特逡逑征便是一種在區(qū)分狗和貓的圖像上有區(qū)分性的特征。逡逑S冒返耐枷皴濉ǖ耐枷皴義細齦鰣義蠠a邐令逡逑媻邐A邐K邋\邐▲逡逑▲邐?邐衣邋\邋▲邋A逡逑?邐巧邐\逡逑▲邐中邐\邐▲逡逑?邐?邐恤邋1:邐?邐\逡逑A邋?邐?邐▲逡逑S緬危苠義喜五濉?逦\辶x希垮澹苠義舷袼劐味浼餿穸儒義希ǎ幔┪耷中緣耐枷裉卣麇危ǎ猓┯星中緣耐枷裉卣麇義賢跡玻蓖枷裉卣魘欠窬哂杏鏌邇中緣氖疽饌煎義先綰文艽油枷裰刑崛∮杏鏌邇中緣奶卣髂?纂E鮮蘭湍┲兩瘢芯空咼清義咸岢雋爍髦址椒ɡ瓷杓坪脫巴枷裉卣鰲8萜淥弒傅姆竅咝猿橄竽芰
本文編號:2808971
【學位單位】:中國科學技術大學
【學位級別】:博士
【學位年份】:2015
【中圖分類】:TP391.41
【部分圖文】:
顏色空間的數(shù)值大小。當圖像被進行拉伸、旋轉、加濾鏡等變化后,一個點的逡逑像素值會產(chǎn)生巨大的變化。而且,通過一些獨立的像素點并不能描述圖像的全逡逑局甚至局部。因此,圖像的像素值并不具有語義區(qū)分性(如圖2.1(a)所示)。逡逑實際上,圖像可W被認為是由許多因素非線性結合而構成的。比如一副包逡逑含狗的圖像,可認為它是由一只狗、狗的姿態(tài)、當前的光照、所在場景等因逡逑素共同構成。如果想要區(qū)分包含狗和貓的圖像,就需要用來描述圖像的特征具逡逑有區(qū)分里面所包含物體的能力,也就是具有非線性抽象的能力。對于送個狗和逡逑貓的例子,假如有一種圖像特征的每個維度分別能區(qū)分狗和貓的不同特性,(如逡逑圖2.1(b),兩個維度分別能表示耳朵的尖銳程度和鼻子的相對大小),那么該特逡逑征便是一種在區(qū)分狗和貓的圖像上有區(qū)分性的特征。逡逑S冒返耐枷皴濉ǖ耐枷皴義細齦鰣義蠠a邐令逡逑媻邐A邐K邋\邐▲逡逑▲邐?邐衣邋\邋▲邋A逡逑?邐巧邐\逡逑▲邐中邐\邐▲逡逑?邐?邐恤邋1:邐?邐\逡逑A邋?邐?邐▲逡逑S緬危苠義喜五濉?逦\辶x希垮澹苠義舷袼劐味浼餿穸儒義希ǎ幔┪耷中緣耐枷裉卣麇危ǎ猓┯星中緣耐枷裉卣麇義賢跡玻蓖枷裉卣魘欠窬哂杏鏌邇中緣氖疽饌煎義先綰文艽油枷裰刑崛∮杏鏌邇中緣奶卣髂?纂E鮮蘭湍┲兩瘢芯空咼清義咸岢雋爍髦址椒ɡ瓷杓坪脫巴枷裉卣鰲8萜淥弒傅姆竅咝猿橄竽芰
本文編號:2808971
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2808971.html
最近更新
教材專著