基于復雜異構數(shù)據(jù)的表征學習研究
發(fā)布時間:2021-11-18 05:28
隨著智能時代和大數(shù)據(jù)時代的到來,各種復雜異構數(shù)據(jù)不斷涌現(xiàn),它們成為數(shù)據(jù)驅動的人工智能方法、機器學習模型的基礎。復雜異構數(shù)據(jù)的表征直接關系著后續(xù)模型的學習性能,所以如何有效地表征復雜異構數(shù)據(jù)成為機器學習面臨的一個重要挑戰(zhàn)。本文對典型的復雜異構數(shù)據(jù)進行了深入的分析,根據(jù)數(shù)據(jù)的內部特點和復雜性進行了一系列表征學習模型研究,提出了多種新型的表征學習方法。(1)離散數(shù)據(jù)的表征學習框架及實例化算法。真實世界的離散數(shù)據(jù)中包含復雜的數(shù)據(jù)耦合關系,這種耦合關系不僅存在于兩兩的特征之間或者特征值之間,還可能由此產(chǎn)生不同粒度的特征值類(即交互關系較強的特征值組成的類),同時這些特征值類之間也可能存在一定的耦合關系。本文提出了一個通用的無監(jiān)督離散數(shù)據(jù)表征學習框架(CURE),它不僅能夠捕獲離散數(shù)據(jù)中的層次化耦合關系,還能被實例化為不同的算法從而應用于不同的應用場景。CURE根據(jù)兩個特征值耦合關系函數(shù)學習不同粒度的特征值類,并在此基礎上學習特征值類之間的耦合關系。同時我們將CURE實例化為兩個模型:適用于聚類的耦合數(shù)據(jù)嵌入算法(CDE)和適用于高維數(shù)據(jù)異常檢測的耦合異常打分算法(COSH)。CDE將離散數(shù)據(jù)嵌入...
【文章來源】:國防科技大學湖南省 211工程院校 985工程院校
【文章頁數(shù)】:130 頁
【學位級別】:博士
【部分圖文】:
機器學習依賴于數(shù)據(jù)和數(shù)據(jù)表征異構性也越來越多
國防科技大學研究生院博士學位論文1.3文章結構本文共分為七章,結構如圖1.2所示:第一章是緒論部分,簡要說明了研究背景,包括數(shù)據(jù)表征和表征學習的一些基本概念,同時介紹了本文的研究內容以及創(chuàng)新點。圖1.2本文組織結構第二章介紹了與本文相關的現(xiàn)有數(shù)據(jù)表征學習相關研究,并根據(jù)數(shù)據(jù)類型劃分為單一類型數(shù)據(jù)表征和復合數(shù)據(jù)類型表征。第三章對離散數(shù)據(jù)的表征學習進行研究,針對離散數(shù)據(jù)中存在的層次化耦合關系提出了新的離散數(shù)據(jù)表征框架以及在此框架上的兩個表征學習算法,并分別在多個數(shù)據(jù)集上用不同的應用對表征學習算法進行了有效性測試、可擴展性測試和參數(shù)敏感性測試。第四章對混合數(shù)據(jù)的表征學習進行研究,提出了自指導式的表征學習機制以及基于度量學習的表征學習模型,并通過多個數(shù)據(jù)集上的實驗效果驗證了其有效性,并通過可視化展示了表征的效果。第五章對屬性網(wǎng)絡的表征學習進行研究,發(fā)現(xiàn)了屬性網(wǎng)絡中節(jié)點存在多方面的影響力,節(jié)點之間也存在多方面的交互關系,由此提出了基于演化耦合模型的屬性網(wǎng)絡數(shù)據(jù)表征模型,多個應用展示了模型相對于現(xiàn)有方法的優(yōu)越性,以及可解釋性。第六章對跨領域多模態(tài)數(shù)據(jù)的表征學習進行研究,從人類的同理心學習受到啟發(fā),提出了同理感知機,可以進行跨領域的表征學習,并將其應用于領域適應和多模態(tài)學習,大量實驗展示了模型的有效性。第10頁
國防科技大學研究生院博士學位論文圖2.3由單一類型數(shù)據(jù)復合而來的復雜異構數(shù)據(jù)也同樣采用與spectralCAT相同的連續(xù)數(shù)據(jù)離散化方案。不同的是,coupledMC將連續(xù)特征轉化到離散空間之后,采用離散變量的相似度來表示離散特征,然后計算各個特征之間的皮爾遜相關系數(shù)(PearsonCorrelationCoefficient)。因為離散化連續(xù)變量帶來了信息丟失,所以僅僅采用皮爾遜相關系數(shù)不能很好捕獲連續(xù)特征和離散特征之間的關系。除了離散化連續(xù)特征之外,還有一些其他的方法可以將離散特征轉換成連續(xù)特征,比如獨熱編碼,CDE[56,57],UFT[58]等,但是他們都不能處理混合數(shù)據(jù)中的特征異構性。其他一些方法直接計算混合數(shù)據(jù)對象之間的距離或者相似度。K-prototype[59]是k-means聚類算法的擴展,它將連續(xù)特征的歐式距離和離散特征的漢明距離進行加權求和,從而計算混合數(shù)據(jù)之間的距離。按照k-prototype的模式,其他一些方法[21,60–62]通過改變連續(xù)特征的距離計算方法或離散特征的距離計算方法,產(chǎn)生了針對混合數(shù)據(jù)的不同距離度量方法。他們中的大部分都是通過衡量離散化的連續(xù)特征與離散特征之間的共現(xiàn)關系來量化連續(xù)特征和離散特征的交互。距離度量學習是學習對象區(qū)分信息的一個重要方法,通過距離度量將訓練數(shù)據(jù)集從原始空間轉換到度量空間同時保持其原有的距離關系[63]。但是大部分的度量學習方法都需要類別標簽來指導訓練過程而且不能直接應用于混合數(shù)據(jù)[64–66]。無監(jiān)督距離度量學習,也被稱為流形學習,其目的是為了學習數(shù)據(jù)的低維表示,如PCA,ISOMAP[67]和LLE[68]。但是他們只關注連續(xù)數(shù)據(jù),不能處理混合數(shù)據(jù)也不能學習離散特征和連續(xù)特征之間的異構關系。自動編碼機已經(jīng)在圖像和文本數(shù)據(jù)上展示出了它的表征學習能力[69,70],它能夠產(chǎn)生語義豐富的和可區(qū)分
本文編號:3502302
【文章來源】:國防科技大學湖南省 211工程院校 985工程院校
【文章頁數(shù)】:130 頁
【學位級別】:博士
【部分圖文】:
機器學習依賴于數(shù)據(jù)和數(shù)據(jù)表征異構性也越來越多
國防科技大學研究生院博士學位論文1.3文章結構本文共分為七章,結構如圖1.2所示:第一章是緒論部分,簡要說明了研究背景,包括數(shù)據(jù)表征和表征學習的一些基本概念,同時介紹了本文的研究內容以及創(chuàng)新點。圖1.2本文組織結構第二章介紹了與本文相關的現(xiàn)有數(shù)據(jù)表征學習相關研究,并根據(jù)數(shù)據(jù)類型劃分為單一類型數(shù)據(jù)表征和復合數(shù)據(jù)類型表征。第三章對離散數(shù)據(jù)的表征學習進行研究,針對離散數(shù)據(jù)中存在的層次化耦合關系提出了新的離散數(shù)據(jù)表征框架以及在此框架上的兩個表征學習算法,并分別在多個數(shù)據(jù)集上用不同的應用對表征學習算法進行了有效性測試、可擴展性測試和參數(shù)敏感性測試。第四章對混合數(shù)據(jù)的表征學習進行研究,提出了自指導式的表征學習機制以及基于度量學習的表征學習模型,并通過多個數(shù)據(jù)集上的實驗效果驗證了其有效性,并通過可視化展示了表征的效果。第五章對屬性網(wǎng)絡的表征學習進行研究,發(fā)現(xiàn)了屬性網(wǎng)絡中節(jié)點存在多方面的影響力,節(jié)點之間也存在多方面的交互關系,由此提出了基于演化耦合模型的屬性網(wǎng)絡數(shù)據(jù)表征模型,多個應用展示了模型相對于現(xiàn)有方法的優(yōu)越性,以及可解釋性。第六章對跨領域多模態(tài)數(shù)據(jù)的表征學習進行研究,從人類的同理心學習受到啟發(fā),提出了同理感知機,可以進行跨領域的表征學習,并將其應用于領域適應和多模態(tài)學習,大量實驗展示了模型的有效性。第10頁
國防科技大學研究生院博士學位論文圖2.3由單一類型數(shù)據(jù)復合而來的復雜異構數(shù)據(jù)也同樣采用與spectralCAT相同的連續(xù)數(shù)據(jù)離散化方案。不同的是,coupledMC將連續(xù)特征轉化到離散空間之后,采用離散變量的相似度來表示離散特征,然后計算各個特征之間的皮爾遜相關系數(shù)(PearsonCorrelationCoefficient)。因為離散化連續(xù)變量帶來了信息丟失,所以僅僅采用皮爾遜相關系數(shù)不能很好捕獲連續(xù)特征和離散特征之間的關系。除了離散化連續(xù)特征之外,還有一些其他的方法可以將離散特征轉換成連續(xù)特征,比如獨熱編碼,CDE[56,57],UFT[58]等,但是他們都不能處理混合數(shù)據(jù)中的特征異構性。其他一些方法直接計算混合數(shù)據(jù)對象之間的距離或者相似度。K-prototype[59]是k-means聚類算法的擴展,它將連續(xù)特征的歐式距離和離散特征的漢明距離進行加權求和,從而計算混合數(shù)據(jù)之間的距離。按照k-prototype的模式,其他一些方法[21,60–62]通過改變連續(xù)特征的距離計算方法或離散特征的距離計算方法,產(chǎn)生了針對混合數(shù)據(jù)的不同距離度量方法。他們中的大部分都是通過衡量離散化的連續(xù)特征與離散特征之間的共現(xiàn)關系來量化連續(xù)特征和離散特征的交互。距離度量學習是學習對象區(qū)分信息的一個重要方法,通過距離度量將訓練數(shù)據(jù)集從原始空間轉換到度量空間同時保持其原有的距離關系[63]。但是大部分的度量學習方法都需要類別標簽來指導訓練過程而且不能直接應用于混合數(shù)據(jù)[64–66]。無監(jiān)督距離度量學習,也被稱為流形學習,其目的是為了學習數(shù)據(jù)的低維表示,如PCA,ISOMAP[67]和LLE[68]。但是他們只關注連續(xù)數(shù)據(jù),不能處理混合數(shù)據(jù)也不能學習離散特征和連續(xù)特征之間的異構關系。自動編碼機已經(jīng)在圖像和文本數(shù)據(jù)上展示出了它的表征學習能力[69,70],它能夠產(chǎn)生語義豐富的和可區(qū)分
本文編號:3502302
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3502302.html
最近更新
教材專著