跨媒體檢索中近鄰關系可逆性問題的研究
【摘要】 信息技術的發(fā)展日新月異,每時每刻都有大數(shù)量、多種類的數(shù)字媒體數(shù)據(jù)在互聯(lián)網(wǎng)上產(chǎn)生和傳播。如何在浩如煙海的數(shù)據(jù)中找到所需要的媒體數(shù)據(jù),以方便人們的生產(chǎn)和生活,是數(shù)字媒體檢索的研究意義。在實際的媒體檢索實踐中,可以觀察到普遍存在一種近鄰關系非可逆的現(xiàn)象:假設媒體對象i在媒體對象j的檢索結果中,但媒體對象j并不一定存在于媒體對象i的檢索結果中。然而,如果兩個媒體對象各自存在于對方的檢索結果中,也就是兩個媒體對象滿足近鄰關系可逆性,那么這兩個媒體對象很有可能是真正相似的。于是就可以利用近鄰關系可逆性來幫助提高檢索精度。近鄰關系非可逆的現(xiàn)象在檢索結果中普遍存在,但并沒有引起學術界太多的關注,針對于近鄰關系可逆性問題的研究工作可以說在國際上都屈指可數(shù)。本文針對這種媒體檢索中出現(xiàn)的近鄰關系可逆性問題進行了深入研究,分析了近鄰關系可逆性對于近鄰數(shù)量選擇的敏感性,并分別針對圖像檢索和跨媒體檢索分別提出了學習近鄰關系可逆性的相關算法。本文的主要研究工作包括:(1)針對圖像檢索領域中近鄰可逆性,提出了兩種基于近鄰關系可逆性驗證的圖像重排序算法,包括硬重排序算法和軟重排序算法。通過離線的為每一個數(shù)據(jù)庫圖像計算一個近鄰距離,這兩種算法可以避免高計算復雜度,高效、有效的提高圖像檢索系統(tǒng)的檢索精度。(2)針對圖像檢索中近鄰關系對于近鄰數(shù)量的敏感性,提出了一種自適應近鄰數(shù)量選擇算法。該算法可以自動的為數(shù)據(jù)庫中的每個圖像選擇一個合適的近鄰數(shù)量,從而避免算法對不同類型圖像數(shù)據(jù)庫的差異性,提高了近鄰關系可逆性學習算法的魯棒性。(3)針對跨媒體檢索,將近鄰關系可逆性引入到跨媒體相似性矩陣的計算中,提高了跨媒體語義關聯(lián)的準確性。通過分析一種利用近鄰關系建立的跨媒體檢索框架,為該框架引入近鄰可逆性關系,從而提高了跨媒體特征空間在體現(xiàn)跨媒體語義關聯(lián)的準確性。實驗結果表明本文提出的改進方案成功提高了原跨媒體檢索框架的檢索精度。
1緒論
1.1引言
隨著信息技術的飛速發(fā)展,信息采集設備(如照相機、攝像機、掃描儀、錄音機、攝像頭等)被廣泛使用,各種規(guī)模的處理器的計算能力遵循摩爾定律快速提高,信息存儲介質的容量持續(xù)增大并且價格又大大降低,網(wǎng)絡帶寬持續(xù)增長,互聯(lián)網(wǎng)在全世界范圍內廣泛普及。媒體作為傳播信息的媒介,其種類和數(shù)量都大大增加,人們不再僅僅滿足于只使用文本來傳輸信息,圖片、音視頻等多種媒體都成為了人們廣泛使用的媒體形式,F(xiàn)如今,在互聯(lián)網(wǎng)上每時每刻都有數(shù)以億計的多媒體數(shù)據(jù)在產(chǎn)生和傳播。
多媒體數(shù)據(jù)的快速發(fā)展在方便人們生產(chǎn)和生活的同時,也給多媒體技術提出了巨大挑戰(zhàn),如何高效地存儲、管理、傳播、利用多媒體數(shù)據(jù),是多媒體數(shù)據(jù)研究的主要內容。尤其是多媒體數(shù)據(jù)的檢索,能夠讓人們快速找到所需要的媒體數(shù)據(jù),是多媒體研究的重點問題。多媒體數(shù)據(jù)具有數(shù)量大、種類多、應用廣的特點。如今人們處在信息時代,任何一個多媒體釆集設備和多媒體制作軟件就是一個產(chǎn)生多媒體數(shù)據(jù)的數(shù)據(jù)源,每時每刻都會產(chǎn)生數(shù)以億計的多媒體數(shù)據(jù)。而目前,包括文本、圖像、音頻、視頻、三維視頻、動畫等在內多種媒體數(shù)據(jù)已經(jīng)成為互聯(lián)網(wǎng)上大量傳播的主要信息載體。多媒體數(shù)據(jù)在工業(yè)生產(chǎn)、科研教育、醫(yī)療衛(wèi)生、商業(yè)娛樂等等多個領域得到了廣泛應用,極大促進了人類文明的發(fā)展和人們生活水平的提高。
另外,多媒體發(fā)展的另一重要趨勢是多種類型的多媒體數(shù)據(jù)經(jīng)常會組織在一起共同表達信息。簡單的文字描述或單一的圖像描繪等常常無法準確全面地表達傳播者要傳播的信息和目的,多種媒體形式的共同表達成為了人們廣泛使用的方式。比如在瀏覽新聞網(wǎng)頁時,一條新聞常常包括文字、圖像和視頻多種媒體形式,這種傳播新聞的形式更有助于人們準確全面直觀的獲取新聞內容。還有常用的幻燈片也是多種媒體形式共同表達語義的經(jīng)典范例,一張幻燈片里常常包含文字、圖像、聲音、動畫甚至視頻等多種多媒體數(shù)據(jù),這樣更加方便演講者把自己要表達的信息傳達給聽眾。
1.2本文研究的主要問題和貢獻
在日常的檢索實踐中,經(jīng)?梢园l(fā)現(xiàn)多媒體檢索存在一種相似關系(近鄰關系)非可逆問題。即假設媒體對象f在媒體對象的檢索結果中,但媒體對象J并不一定存在于媒體對象i的檢索結果中。而如果兩個媒體對象各自存在于對方的檢索結果中,這兩個媒體對象很有可能是真正相似的。也就是說,相似關系如果可逆,那么有很大的把握這兩個媒體對象是確實相似的。這種現(xiàn)象引起了我們的重視,如何利用這種相似關系的可逆性來幫助提高檢索系統(tǒng)的精度,就是本文著力研究的問題。
這種在基于內容的媒體檢索中出現(xiàn)的近鄰關系非可逆現(xiàn)象沒有引起很多的關注,目前在學術領域并沒有很多工作是針對這種近鄰關系可逆性問題的研究。本文從圖像檢索中的近鄰關系不可逆現(xiàn)象入手,挖掘近鄰關系可逆性與圖像間相似性的密切關系,針對圖像檢索和跨媒體檢索,筆耕文化傳播,提出了若干個學習近鄰關系可逆性的算法,以求能夠提高媒體檢索系統(tǒng)的檢索質量。本文的主要研究成果如下:
(1)對于圖像檢索,提出了基于近鄰關系可逆性驗證的重排序算法,包括硬排序算法、軟排序算法和自適應選擇近鄰數(shù)量的算法。本算法是首先利用離線階段對每張圖片的近鄰信息進行存儲,然后在檢索階段對檢索結果與查詢的近鄰關系可逆性進行驗證,根據(jù)驗證結果對檢索結果進行硬重排序或軟重排序,成功提高了檢索系統(tǒng)的檢索精度。通過這樣的方式有效避免了在在線階段再進行額外的檢索,保證了實時檢索的效率。
(2)本文分析了圖像檢索中近鄰關系可逆性對于近鄰數(shù)量選擇的敏感性,并針對這種敏感性提出了一種自適應近鄰數(shù)量選擇算法。該算法可以自動的為數(shù)據(jù)庫中的每個圖像選擇一個合適的近鄰數(shù)量,從而避免算法對不同類型圖像數(shù)據(jù)庫的差異性,提高了近鄰關系可逆性學習算法的魯棒性。
2圖像檢索的研究綜述
本節(jié)將試圖對圖像檢索研究進行全面的總結。首先簡單介紹圖像檢索技術的發(fā)展歷史。然后對基于內容圖像檢索中的關鍵技術——圖像特征的提取與表示和圖像檢索框架進行介紹,其中著重介紹較為常見的圖像局部特征描述子SIFT描述子以及廣泛使用的以詞包(Bag-of-words)思想為基礎的檢索框架及其相關擴展技術。
2.1圖像檢索技術的發(fā)展歷史
近年來,隨著互聯(lián)網(wǎng)和多媒體技術的飛速發(fā)展,圖像成為了被廣泛使用的信息載體之一。圖像相比于文本和聲音具有更加直觀、信息量更大等特點。大量圖像在互聯(lián)網(wǎng)上出現(xiàn),如何科學的利用計算機對圖像進行表示,如何系統(tǒng)的對圖像進行管理和索引等問題成為了信息技術發(fā)展中遇到的新課題,而圖像檢索已經(jīng)逐漸成為人們日常工作和生活的基本需求,也是研究機構和數(shù)字多M體行業(yè)關注的重點。
圖像檢索的歷史,可以追溯到上個世紀七十年代,當時的圖像檢索主要是基于文本的圖像檢索(Text-based Image Retrieval)。這種技術需要在離線階段由人工對圖像進行標注,利用每幅圖像對應的文本標注進行圖像檢索。很多的圖書管理、檔案管理、藝術繪畫管理等系統(tǒng)都是使用的這種基于文本標注的圖像管理方式。比如 Getty 研究所的 Art & Architecture Thesaurus? Online 系統(tǒng)就使用了近 133000個術語對藝術、建筑等方面的圖像進行描述,通過30多個等級目錄和7方面的屬性特征來對圖像進行分類。但這種方法具有很大的局限性,首先它不適于海量圖像的檢索,人工標注的進度遠遠趕不上互聯(lián)網(wǎng)上圖像數(shù)量的增長,時效性較差;另外人工標注具有較大的主觀性和錯誤率,很多情況下很難用恰當?shù)奈谋緛韺δ承﹫D像進行標注,而有限的文本也難以對圖像的所有內容進行準確而全面的描述。從檢索技術上來說,基于文本的圖像檢索實際上是文本檢索技術的一種擴展,但直到現(xiàn)在,基于文本的圖像檢索技術仍然廣泛應用在科研和商業(yè)領域,各大搜索弓丨擎的圖像檢索功能在很大程度上仍然利用了基于文本的圖像檢索技術,通過機器學習、自然語言處理等技術,圖像標注變得更加便利和準確,越來越多的基于文本的圖像檢索系統(tǒng)不再需要人工標注。另外,使用文本作為檢索關鍵字進行圖像搜索仍然是大部分用戶經(jīng)常習慣使用的圖像檢索方式,這也給基于內容的圖像檢索技術的持續(xù)發(fā)展提供了需求和動力。
2.2圖像特征的提取與表示
基于內容的圖像檢索技術是利用計算機對圖像特征進行合理的數(shù)學表示,然后利用這樣的特征信息對圖像進行檢索;趦热莸膱D像檢索主要分為以下幾個步驟:特征提取,圖像索引,查找匹配,返回結果和性能評價等。其中,特征提取這一步至關重要,它是將圖像內容轉化為若干個計算機能夠處理的幾何向量,在高維空間中,每個幾何向量對應空間中的一個點,于是圖像之間的相似程度就轉化為高維空間中的多個點之間的距離。距離遠,則表示對應的圖像不相似;距離近,意味著對應圖像相似。
對圖像提取特征主要有全局特征和局部特征兩種。全局特征主要包括顏色特征、紋理特征、形狀特征和空間關系特征等。而比較常用的局部特征描述子有Harris角點, SIFT[7】和SURF等,其中SIFT是最常用的局部圖像描述子,本文在實驗階段也是使用這種描述子。本節(jié)將對圖像特征的提取與表示方法做出總結。
2.2.1 全局特征
對圖像提取的全局特征主要包括顏色特征、紋理特征、形狀特征和空間關系特征等。本小節(jié)將對這幾種全局特征做一簡要介紹。
顏色特征:通常情況下,顏色特征由顏色直方圖來表示,而最常用的是1991年提出的顏色直方圖相交方法丨。在多媒體技術中,最常使用的是RGB色度空間,將圖像中每一個像素顏色用R (紅)G (綠)B (藍)三原色來表示,每一種顏色都有對應的一個色度空間值,顏色直方圖就是表示落在每一個色度空間值上的像素數(shù)量。每一幅圖像都由一個對應的顏色分布直方圖,對其進行向量表示即可形成該圖像的顏色特征索引,由此可構成數(shù)據(jù)庫中所有圖像的顏色特征索引。根據(jù)直方圖相差顏色索引(Ll-metric)算法,通過比較落到每個顏色上的像素數(shù)量差,利用排序可以得到相似圖像。
除了以上基本的顏色直方圖作為顏色特征表征圖像內容,還有使用顏色矩(ColorMoments)來表示圖像的顏色分布。這種方法可以將圖像中任何一種顏色分布都可使用它的矩來表示,對三原色的每個顏色分量只需要使用一階矩(mean)、二階矩(variance)、三階矩(skewness)三個低階矩就可表達圖像的顏色分布特征,所以共只需九個分量即可表示圖像的顏色特征。
另外,顏色集(Color Sets) 也是常見的圖像顏色表示。它的思想是構建一個二進制的顏色索弓I集來加快檢索速度。首先把HSV顏色空間量化為若干個子塊,然后將圖像根據(jù)色彩分割成若干個區(qū)域,每個區(qū)域用量化后的顏色子塊來索引。在檢索階段,通過不同顏色索引集之間距離和不同色彩區(qū)域空間關系的比較,來得出搜索結果。
顏色聚合向量(Color coherence vector) 很好地解決了顏色直方圖和顏色矩無法體現(xiàn)顏色空間分布的問題。它將每個子塊中的像素分為兩部分,一種是占據(jù)連續(xù)區(qū)域的像素,一種是相對獨立的像素,這樣將空間分布特征加入到了顏色直方圖中,更好的提高了檢索精度。
3 跨媒體檢索的研究綜述..................31
3.1 跨媒體與跨媒體檢索的含義.........31
3.2 跨媒體檢索相關研究.........32
3.3 本章小結............................35
4 圖像檢索中的近鄰關系可逆性問題.........37
4.1 圖像檢索中近鄰關系可逆性問題的分析.........37
4.1.1對圖像檢索中近鄰關系可逆性問題的觀察.........37
4.1.2近鄰關系可逆性學習算法——CDM算法.........39
4.1.3近鄰關系可逆性問題對于近鄰數(shù)量選擇的敏感性分析.........41
4.2 基于近鄰可逆性驗證的重排序算法.........42
4.2.1基于近鄰可逆性驗證的硬重排序算法.........42
4.2.2基于近鄰可逆性驗證的軟重排序算法.........43
4.2.3近鄰數(shù)量自適應選擇算法..............44
4.3 實驗部分............................45
5 跨媒體檢索中近鄰關系可逆性問題.........53
5.1 跨媒體檢索框架--LE-RBF框架.........53
5.1.1建立多模態(tài)特征空間............................54
5.1.2跨媒體檢索............................56
5.2 LE-RBF框架中近鄰關系可逆性問題的分析與改進.........58
5.2.1 LE-RBF框架中的近鄰關系可逆性問題.........58
5.2.2對LE-RBF框架中利用近鄰關系的改進.........58
5跨媒體檢索中近鄰關系可逆性問題
本章著重研究近鄰關系可逆性問題在跨媒體檢索中的體現(xiàn)。首先介紹目前已有的一種利用近鄰關系建立跨媒體檢索的框架,在此框架基礎上根據(jù)本文對跨媒體檢索中近鄰關系可逆性問題的分析提出該框架的改進方案。最后通過實驗對本文提出的學習近鄰關系可逆性的改進方案與已有的檢索框架進行比較,驗證本文提出的改進算法的改進效果。
5.1 跨媒體檢索框架--LE-RBF框架
文獻[96]提出了一種利用近鄰關系來為跨媒體數(shù)據(jù)建立低維特征空間,進而進行跨媒體檢索的方法,這里稱之為LE-RBF檢索框架。本節(jié)將對該檢索框架做一個總結。
在處理跨模態(tài)的多媒體數(shù)據(jù)檢索時,研究者經(jīng)常將表示同一語義的、多種類型的媒體數(shù)據(jù)組織到同一結構中,這也就是文獻[84]中定義的跨媒體數(shù)據(jù)結構——多媒體文檔(multimedia document縮寫為MMD),這里同樣使用該結構來幫助實現(xiàn)要建立的跨媒體檢索框架。
本小節(jié)介紹了 LE-RBF檢索框架下建立多模態(tài)特征空間的基本流程。給定一個由多媒體文檔構成的多媒體文檔數(shù)據(jù)庫,在建立好的多模態(tài)特征空間中,數(shù)據(jù)庫中的任一多媒體文檔可以由一個維向量來表示。表達語義相似的多媒體文檔在多模態(tài)特征空間中將會處于比較接近的位置,它們之間的距離會相對較小。
在通常意義下,跨媒體檢索都是以用戶提交某種媒體對象數(shù)據(jù)作為查詢,系統(tǒng)將其他種類媒體對象作為查詢結果返回。而本節(jié)介紹的LE-RBF檢索框架能夠支持多模態(tài)的查詢,即一個多媒體文檔就可以作為一個査詢來檢索語義相似的多媒體文檔。
在本檢索框架下,根據(jù)查詢多媒體文檔是否存在于數(shù)據(jù)庫中,將査詢分為兩種情況:
(1)當查詢多媒體文檔存在于數(shù)據(jù)庫中時:
直接使用經(jīng)過拉普拉斯特征映射之后的/維向量作為代表查詢多媒體文檔的特征向量。通過查詢多媒體文檔的/維特征向量與代表其他多媒體文檔的/維特征向量相匹配,找到最接近的特征向量所代表的多媒體文檔,即為檢索到的數(shù)據(jù)庫中與查詢多媒體文檔最接近的多媒體文檔。
(2)當查詢多媒體文檔不存在于數(shù)據(jù)庫中時:
這種情況下,將查詢多媒體文檔加入到數(shù)據(jù)庫中重新建立鄰接矩陣并使用拉普拉斯特征映射構建多媒體特征向量,是不現(xiàn)實的做法。于是文獻[96]的作者釆取了更快速和方便的徑向基函數(shù)(Radical Basis Function,簡稱RBF)方法[98]。使用該方法分為訓練和查詢兩個階段。
6結論
本文重點對于檢索中的近鄰關系可逆性問題進行了研究,主要工作集中在圖像檢索和跨媒體檢索兩種媒體檢索框架中的近鄰關系可逆性問題。
首先對圖像檢索和跨媒體檢索進行了系統(tǒng)的總結和分析,對常見的圖像檢索相關算法和跨媒體檢索框架思路進行了介紹。然后對圖像檢索和跨媒體檢索中近鄰關系不可逆的現(xiàn)象進行了細致的觀察和研究,對已經(jīng)提出的利用近鄰關系可逆性來進行檢索的算法進行了分析,在此基礎上分別針對圖像檢索和跨媒體檢索提出了新的算法來提高檢索精度:
(1)對于圖像檢索,提出了基于近鄰關系可逆性驗證的重排序算法,包括硬重排序算法和軟重排序算法,這兩種算法通過在離線階段對每張圖片的近鄰信息進行存儲,有效避免了在在線階段再進行額外的檢索,對圖像檢索框架的精度均有穩(wěn)定的提高。
(2)另外,本文分析了圖像檢索中近鄰關系可逆性對于近鄰數(shù)量選擇的敏感性,并針對這種敏感性提出了一種自適應近鄰數(shù)量選擇算法。該算法可以自動的為數(shù)據(jù)庫中的每個圖像選擇一個合適的近鄰數(shù)量,從而避免算法對不同類型圖像數(shù)據(jù)庫的差異性,提高了近鄰關系可逆性學習算法的魯棒性。
(3)對于跨媒體檢索,分析了一種利用近鄰關系建立的跨媒體檢索框架的缺陷,將在圖像檢索中提出的驗證近鄰關系可逆性的思路運用到該跨媒體檢索框架,幫助提高該跨媒體檢索框架的檢索精度。
本文重點關注的近鄰關系不可逆現(xiàn)象廣泛存在于多媒體檢索中,而利用近鄰關系可逆性來幫助提高檢索的精度,值得更多研究者的重視。本文提出的驗證近鄰關系可逆性的思路和方法可以運用到其他媒體類型的檢索框架中,來提高檢索系統(tǒng)的檢索精度。
參考文獻:
[1] 李丙洋. 基于音頻內容的多媒體文件相似性快速比對研究[D]. 哈爾濱工業(yè)大學 2013
[2] 萬玲. 代謝綜合征中醫(yī)辨證及中藥干預研究[D]. 中南大學 2013
[3] 王錦超. 跨媒體檢索技術的研究[D]. 山東農(nóng)業(yè)大學 2013
[4] 譚寧. 基于R-樹多維索引結構的優(yōu)化研究與應用[D]. 湘潭大學 2009
[5] 朱紅婷. 網(wǎng)絡編碼在戰(zhàn)術互聯(lián)網(wǎng)中的應用[D]. 西安電子科技大學 2010
[6] 陳傳峰. 基于圖像的局部遮擋目標識別關鍵技術研究[D]. 國防科學技術大學 2007
[7] 劉揚. 基于時空相關性的跨媒體檢索模型研究與應用[D]. 河南大學 2009
[8] 蔣利. 血脂紊亂類型與代謝綜合征心血管損害的關系[D]. 第三軍醫(yī)大學 2007
[9] 鄒文科. 基于本體技術的語義檢索及其語義相似度研究[D]. 北京郵電大學 2008
本文編號:10869
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/10869.html