半監(jiān)督聚類集成方法及其應(yīng)用研究
發(fā)布時間:2017-10-19 06:26
本文關(guān)鍵詞:半監(jiān)督聚類集成方法及其應(yīng)用研究
更多相關(guān)文章: 半監(jiān)督聚類集成 成對約束 度量測度 關(guān)鍵詞分類 相對多數(shù)投票法
【摘要】:隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,人們獲取信息的能力和渠道得到極大的擴展。海量數(shù)據(jù)在豐富人們資訊的同時,也給信息的組織、查找和分析帶來極大的挑戰(zhàn)。如何快速、準確地從海量知識庫中提取有用的信息,成為很有價值的研究課題。一方面,本文研究的聚類是數(shù)據(jù)分析的一個重要研究內(nèi)容:尋找并利用輸入數(shù)據(jù)集中潛藏的結(jié)構(gòu)或者規(guī)律,按照最大化簇內(nèi)相似性、最小化簇間相似性的原則,實現(xiàn)訓(xùn)練樣本劃分聚簇的預(yù)測。雖然數(shù)據(jù)收集方法的多樣化和存儲技術(shù)的快速發(fā)展使得收集數(shù)據(jù)變得相當容易,但這些數(shù)據(jù)大多沒有類別標記,而在實際的某些應(yīng)用中人們可以獲得少量的標簽信息,加上大數(shù)據(jù)時代下的數(shù)據(jù)對象抽象復(fù)雜,應(yīng)現(xiàn)實需要和時代要求,至今已提出大量改進的創(chuàng)新理論和方法,其中以半監(jiān)督聚類和聚類集成為代表的研究取得了豐碩的成果。半監(jiān)督聚類集成是論文研究的重點。另一方面,圖像是多媒體時代重要的產(chǎn)物。基于內(nèi)容的圖像檢索能有效存儲和管理海量的圖像資源,然而它受到“語義鴻溝”制約,建立語義映射的圖像標注成為多媒體領(lǐng)域研究的重要課題,F(xiàn)有圖像標注效果在較大程度上依靠于圖像分割和聚類技術(shù),而分割方法難以突破、無監(jiān)督聚類效果不佳,論文嘗試從半監(jiān)督聚類角度挖掘圖像語義內(nèi)容,對基于聚類的圖像標注展開研究。論文首先分析聚類與半監(jiān)督聚類的研究背景和現(xiàn)狀;接著探討半監(jiān)督聚類集成關(guān)鍵技術(shù);然后重點闡述提出的約束與度量相結(jié)合的半監(jiān)督聚類集成方法及其在圖像自動標注中的應(yīng)用,詳細解釋方法的理論基礎(chǔ)和建模過程,結(jié)合實驗結(jié)果進行對比分析;最后對論文研究工作進行總結(jié)以及對進一步研究進行探討和展望。論文取得的成果主要有:現(xiàn)有的半監(jiān)督聚類算法主要有兩類,基于約束的方法和基于度量的方法。這兩類算法有自己的側(cè)重點,但它們并不是完全分離開的,或者說它們也存在共生關(guān)系,因為在實際算法中,兩個因素都考慮的話可以得到更令人滿意的結(jié)果。目前的基于約束和度量的融合方法大部分是在同一個目標函數(shù)中實現(xiàn)兩者優(yōu)勢互補,極少運用集成機制將兩者整合到一致性函數(shù)中。本文提出約束和度量相結(jié)合的半監(jiān)督聚類集成方法,分別采用基于約束的方法和基于度量的方法得到多個基聚類,最后運用集成策略將其整合求取最終結(jié)果。關(guān)于圖像數(shù)據(jù)的度量,先前的方法大都只考慮像素固有特征。然而像素與它的鄰域像素是緊密關(guān)聯(lián)的,故在目標函數(shù)中考慮鄰域空間信息是有必要也更合理的,目前通常采取的方法是計算均值、加權(quán)均值或統(tǒng)計算子等,但是這樣得出的結(jié)果與實際特征之間仍然會存在或大或小的差距,為了縮小這樣的差距,文中考慮一種新的方法,像素之間的距離由它們的固有特征和鄰域空間信息共同決定,這一方法打破了傳統(tǒng)的單一視角,更加準確地反映出像素之間的度量關(guān)系。準確的度量測度有助于聚類性能的提高。圖像的內(nèi)容往往具有復(fù)雜性、模糊性、抽象性和多義性等特點,如果只是僅僅依靠低層視覺特征對圖像進行描述的說服力遠遠不夠,這就需要將低層特征映射到高級語義,得到能夠反映圖像內(nèi)容的語義概念。文中采用關(guān)鍵詞分類法自動獲得輔助半監(jiān)督聚類的區(qū)域標注(監(jiān)督信息),進而將提出的約束與度量相結(jié)合的半監(jiān)督聚類集成方法與跨媒體相關(guān)模型結(jié)合,采用重采樣和投票機制,實現(xiàn)圖像自動標注,改善了標注性能。
【關(guān)鍵詞】:半監(jiān)督聚類集成 成對約束 度量測度 關(guān)鍵詞分類 相對多數(shù)投票法
【學(xué)位授予單位】:廣西師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.41;TP311.13
【目錄】:
- 摘要3-5
- Abstract5-9
- 第1章 緒論9-14
- 1.1 研究背景與意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-12
- 1.2.1 半監(jiān)督聚類算法研究現(xiàn)狀10-11
- 1.2.2 聚類集成算法研究現(xiàn)狀11-12
- 1.2.3 半監(jiān)督聚類集成算法研究現(xiàn)狀12
- 1.3 論文的主要貢獻12-13
- 1.4 論文的組織結(jié)構(gòu)13-14
- 第2章 半監(jiān)督聚類集成關(guān)鍵技術(shù)分析14-22
- 2.1 聚類基本概念與步驟14-15
- 2.2 成對約束15
- 2.3 度量測度15-17
- 2.4 集成學(xué)習(xí)17-18
- 2.5 半監(jiān)督聚類集成18-21
- 2.6 本章小結(jié)21-22
- 第3章 約束與度量相結(jié)合的半監(jiān)督聚類集成22-37
- 3.1 約束與度量相結(jié)合的半監(jiān)督聚類集成過程22
- 3.2 基于約束的半監(jiān)督聚類算法22-24
- 3.3 基于度量的半監(jiān)督聚類算法24-27
- 3.3.1 大型集群邊緣最近的距離度量24
- 3.3.2 基于空間信息的像素相似度24-25
- 3.3.3 基于度量的半監(jiān)督聚類算法25-27
- 3.4 一致性函數(shù)27
- 3.5 復(fù)雜性分析27-28
- 3.6 實驗與分析28-36
- 3.6.1 標準數(shù)據(jù)集上的對比實驗28-32
- 3.6.2 圖像數(shù)據(jù)集上的對比實驗32-36
- 3.7 本章小結(jié)36-37
- 第4章 基于半監(jiān)督聚類集成的圖像自動標注37-48
- 4.1 圖像自動標注概述37-38
- 4.2 圖像自動標注方法與技術(shù)38-39
- 4.2.1 圖像自動標注的基本步驟38
- 4.2.2 基于分類的標注方法38-39
- 4.2.3 基于概率關(guān)聯(lián)模型的標注方法39
- 4.3 監(jiān)督信息的獲取與表示39-40
- 4.4 基于半監(jiān)督聚類集成實現(xiàn)圖像自動標注40-43
- 4.4.1 建模過程42-43
- 4.4.2 標注過程43
- 4.5 實驗與分析43-47
- 4.5.1 數(shù)據(jù)集與實驗設(shè)置43-45
- 4.5.2 實驗結(jié)果與分析45-47
- 4.6 本章小結(jié)47-48
- 第5章 總結(jié)與展望48-51
- 5.1 論文工作總結(jié)48-49
- 5.2 下一步工作展望49-51
- 參考文獻51-56
- 攻讀碩士學(xué)位期間的科研成果56-57
- 致謝57-58
本文編號:1059546
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1059546.html
最近更新
教材專著