基于復(fù)雜異構(gòu)數(shù)據(jù)的表征學(xué)習(xí)研究
發(fā)布時間:2021-11-18 05:28
隨著智能時代和大數(shù)據(jù)時代的到來,各種復(fù)雜異構(gòu)數(shù)據(jù)不斷涌現(xiàn),它們成為數(shù)據(jù)驅(qū)動的人工智能方法、機(jī)器學(xué)習(xí)模型的基礎(chǔ)。復(fù)雜異構(gòu)數(shù)據(jù)的表征直接關(guān)系著后續(xù)模型的學(xué)習(xí)性能,所以如何有效地表征復(fù)雜異構(gòu)數(shù)據(jù)成為機(jī)器學(xué)習(xí)面臨的一個重要挑戰(zhàn)。本文對典型的復(fù)雜異構(gòu)數(shù)據(jù)進(jìn)行了深入的分析,根據(jù)數(shù)據(jù)的內(nèi)部特點(diǎn)和復(fù)雜性進(jìn)行了一系列表征學(xué)習(xí)模型研究,提出了多種新型的表征學(xué)習(xí)方法。(1)離散數(shù)據(jù)的表征學(xué)習(xí)框架及實(shí)例化算法。真實(shí)世界的離散數(shù)據(jù)中包含復(fù)雜的數(shù)據(jù)耦合關(guān)系,這種耦合關(guān)系不僅存在于兩兩的特征之間或者特征值之間,還可能由此產(chǎn)生不同粒度的特征值類(即交互關(guān)系較強(qiáng)的特征值組成的類),同時這些特征值類之間也可能存在一定的耦合關(guān)系。本文提出了一個通用的無監(jiān)督離散數(shù)據(jù)表征學(xué)習(xí)框架(CURE),它不僅能夠捕獲離散數(shù)據(jù)中的層次化耦合關(guān)系,還能被實(shí)例化為不同的算法從而應(yīng)用于不同的應(yīng)用場景。CURE根據(jù)兩個特征值耦合關(guān)系函數(shù)學(xué)習(xí)不同粒度的特征值類,并在此基礎(chǔ)上學(xué)習(xí)特征值類之間的耦合關(guān)系。同時我們將CURE實(shí)例化為兩個模型:適用于聚類的耦合數(shù)據(jù)嵌入算法(CDE)和適用于高維數(shù)據(jù)異常檢測的耦合異常打分算法(COSH)。CDE將離散數(shù)據(jù)嵌入...
【文章來源】:國防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁數(shù)】:130 頁
【學(xué)位級別】:博士
【部分圖文】:
機(jī)器學(xué)習(xí)依賴于數(shù)據(jù)和數(shù)據(jù)表征異構(gòu)性也越來越多
國防科技大學(xué)研究生院博士學(xué)位論文1.3文章結(jié)構(gòu)本文共分為七章,結(jié)構(gòu)如圖1.2所示:第一章是緒論部分,簡要說明了研究背景,包括數(shù)據(jù)表征和表征學(xué)習(xí)的一些基本概念,同時介紹了本文的研究內(nèi)容以及創(chuàng)新點(diǎn)。圖1.2本文組織結(jié)構(gòu)第二章介紹了與本文相關(guān)的現(xiàn)有數(shù)據(jù)表征學(xué)習(xí)相關(guān)研究,并根據(jù)數(shù)據(jù)類型劃分為單一類型數(shù)據(jù)表征和復(fù)合數(shù)據(jù)類型表征。第三章對離散數(shù)據(jù)的表征學(xué)習(xí)進(jìn)行研究,針對離散數(shù)據(jù)中存在的層次化耦合關(guān)系提出了新的離散數(shù)據(jù)表征框架以及在此框架上的兩個表征學(xué)習(xí)算法,并分別在多個數(shù)據(jù)集上用不同的應(yīng)用對表征學(xué)習(xí)算法進(jìn)行了有效性測試、可擴(kuò)展性測試和參數(shù)敏感性測試。第四章對混合數(shù)據(jù)的表征學(xué)習(xí)進(jìn)行研究,提出了自指導(dǎo)式的表征學(xué)習(xí)機(jī)制以及基于度量學(xué)習(xí)的表征學(xué)習(xí)模型,并通過多個數(shù)據(jù)集上的實(shí)驗(yàn)效果驗(yàn)證了其有效性,并通過可視化展示了表征的效果。第五章對屬性網(wǎng)絡(luò)的表征學(xué)習(xí)進(jìn)行研究,發(fā)現(xiàn)了屬性網(wǎng)絡(luò)中節(jié)點(diǎn)存在多方面的影響力,節(jié)點(diǎn)之間也存在多方面的交互關(guān)系,由此提出了基于演化耦合模型的屬性網(wǎng)絡(luò)數(shù)據(jù)表征模型,多個應(yīng)用展示了模型相對于現(xiàn)有方法的優(yōu)越性,以及可解釋性。第六章對跨領(lǐng)域多模態(tài)數(shù)據(jù)的表征學(xué)習(xí)進(jìn)行研究,從人類的同理心學(xué)習(xí)受到啟發(fā),提出了同理感知機(jī),可以進(jìn)行跨領(lǐng)域的表征學(xué)習(xí),并將其應(yīng)用于領(lǐng)域適應(yīng)和多模態(tài)學(xué)習(xí),大量實(shí)驗(yàn)展示了模型的有效性。第10頁
國防科技大學(xué)研究生院博士學(xué)位論文圖2.3由單一類型數(shù)據(jù)復(fù)合而來的復(fù)雜異構(gòu)數(shù)據(jù)也同樣采用與spectralCAT相同的連續(xù)數(shù)據(jù)離散化方案。不同的是,coupledMC將連續(xù)特征轉(zhuǎn)化到離散空間之后,采用離散變量的相似度來表示離散特征,然后計(jì)算各個特征之間的皮爾遜相關(guān)系數(shù)(PearsonCorrelationCoefficient)。因?yàn)殡x散化連續(xù)變量帶來了信息丟失,所以僅僅采用皮爾遜相關(guān)系數(shù)不能很好捕獲連續(xù)特征和離散特征之間的關(guān)系。除了離散化連續(xù)特征之外,還有一些其他的方法可以將離散特征轉(zhuǎn)換成連續(xù)特征,比如獨(dú)熱編碼,CDE[56,57],UFT[58]等,但是他們都不能處理混合數(shù)據(jù)中的特征異構(gòu)性。其他一些方法直接計(jì)算混合數(shù)據(jù)對象之間的距離或者相似度。K-prototype[59]是k-means聚類算法的擴(kuò)展,它將連續(xù)特征的歐式距離和離散特征的漢明距離進(jìn)行加權(quán)求和,從而計(jì)算混合數(shù)據(jù)之間的距離。按照k-prototype的模式,其他一些方法[21,60–62]通過改變連續(xù)特征的距離計(jì)算方法或離散特征的距離計(jì)算方法,產(chǎn)生了針對混合數(shù)據(jù)的不同距離度量方法。他們中的大部分都是通過衡量離散化的連續(xù)特征與離散特征之間的共現(xiàn)關(guān)系來量化連續(xù)特征和離散特征的交互。距離度量學(xué)習(xí)是學(xué)習(xí)對象區(qū)分信息的一個重要方法,通過距離度量將訓(xùn)練數(shù)據(jù)集從原始空間轉(zhuǎn)換到度量空間同時保持其原有的距離關(guān)系[63]。但是大部分的度量學(xué)習(xí)方法都需要類別標(biāo)簽來指導(dǎo)訓(xùn)練過程而且不能直接應(yīng)用于混合數(shù)據(jù)[64–66]。無監(jiān)督距離度量學(xué)習(xí),也被稱為流形學(xué)習(xí),其目的是為了學(xué)習(xí)數(shù)據(jù)的低維表示,如PCA,ISOMAP[67]和LLE[68]。但是他們只關(guān)注連續(xù)數(shù)據(jù),不能處理混合數(shù)據(jù)也不能學(xué)習(xí)離散特征和連續(xù)特征之間的異構(gòu)關(guān)系。自動編碼機(jī)已經(jīng)在圖像和文本數(shù)據(jù)上展示出了它的表征學(xué)習(xí)能力[69,70],它能夠產(chǎn)生語義豐富的和可區(qū)分
本文編號:3502302
【文章來源】:國防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁數(shù)】:130 頁
【學(xué)位級別】:博士
【部分圖文】:
機(jī)器學(xué)習(xí)依賴于數(shù)據(jù)和數(shù)據(jù)表征異構(gòu)性也越來越多
國防科技大學(xué)研究生院博士學(xué)位論文1.3文章結(jié)構(gòu)本文共分為七章,結(jié)構(gòu)如圖1.2所示:第一章是緒論部分,簡要說明了研究背景,包括數(shù)據(jù)表征和表征學(xué)習(xí)的一些基本概念,同時介紹了本文的研究內(nèi)容以及創(chuàng)新點(diǎn)。圖1.2本文組織結(jié)構(gòu)第二章介紹了與本文相關(guān)的現(xiàn)有數(shù)據(jù)表征學(xué)習(xí)相關(guān)研究,并根據(jù)數(shù)據(jù)類型劃分為單一類型數(shù)據(jù)表征和復(fù)合數(shù)據(jù)類型表征。第三章對離散數(shù)據(jù)的表征學(xué)習(xí)進(jìn)行研究,針對離散數(shù)據(jù)中存在的層次化耦合關(guān)系提出了新的離散數(shù)據(jù)表征框架以及在此框架上的兩個表征學(xué)習(xí)算法,并分別在多個數(shù)據(jù)集上用不同的應(yīng)用對表征學(xué)習(xí)算法進(jìn)行了有效性測試、可擴(kuò)展性測試和參數(shù)敏感性測試。第四章對混合數(shù)據(jù)的表征學(xué)習(xí)進(jìn)行研究,提出了自指導(dǎo)式的表征學(xué)習(xí)機(jī)制以及基于度量學(xué)習(xí)的表征學(xué)習(xí)模型,并通過多個數(shù)據(jù)集上的實(shí)驗(yàn)效果驗(yàn)證了其有效性,并通過可視化展示了表征的效果。第五章對屬性網(wǎng)絡(luò)的表征學(xué)習(xí)進(jìn)行研究,發(fā)現(xiàn)了屬性網(wǎng)絡(luò)中節(jié)點(diǎn)存在多方面的影響力,節(jié)點(diǎn)之間也存在多方面的交互關(guān)系,由此提出了基于演化耦合模型的屬性網(wǎng)絡(luò)數(shù)據(jù)表征模型,多個應(yīng)用展示了模型相對于現(xiàn)有方法的優(yōu)越性,以及可解釋性。第六章對跨領(lǐng)域多模態(tài)數(shù)據(jù)的表征學(xué)習(xí)進(jìn)行研究,從人類的同理心學(xué)習(xí)受到啟發(fā),提出了同理感知機(jī),可以進(jìn)行跨領(lǐng)域的表征學(xué)習(xí),并將其應(yīng)用于領(lǐng)域適應(yīng)和多模態(tài)學(xué)習(xí),大量實(shí)驗(yàn)展示了模型的有效性。第10頁
國防科技大學(xué)研究生院博士學(xué)位論文圖2.3由單一類型數(shù)據(jù)復(fù)合而來的復(fù)雜異構(gòu)數(shù)據(jù)也同樣采用與spectralCAT相同的連續(xù)數(shù)據(jù)離散化方案。不同的是,coupledMC將連續(xù)特征轉(zhuǎn)化到離散空間之后,采用離散變量的相似度來表示離散特征,然后計(jì)算各個特征之間的皮爾遜相關(guān)系數(shù)(PearsonCorrelationCoefficient)。因?yàn)殡x散化連續(xù)變量帶來了信息丟失,所以僅僅采用皮爾遜相關(guān)系數(shù)不能很好捕獲連續(xù)特征和離散特征之間的關(guān)系。除了離散化連續(xù)特征之外,還有一些其他的方法可以將離散特征轉(zhuǎn)換成連續(xù)特征,比如獨(dú)熱編碼,CDE[56,57],UFT[58]等,但是他們都不能處理混合數(shù)據(jù)中的特征異構(gòu)性。其他一些方法直接計(jì)算混合數(shù)據(jù)對象之間的距離或者相似度。K-prototype[59]是k-means聚類算法的擴(kuò)展,它將連續(xù)特征的歐式距離和離散特征的漢明距離進(jìn)行加權(quán)求和,從而計(jì)算混合數(shù)據(jù)之間的距離。按照k-prototype的模式,其他一些方法[21,60–62]通過改變連續(xù)特征的距離計(jì)算方法或離散特征的距離計(jì)算方法,產(chǎn)生了針對混合數(shù)據(jù)的不同距離度量方法。他們中的大部分都是通過衡量離散化的連續(xù)特征與離散特征之間的共現(xiàn)關(guān)系來量化連續(xù)特征和離散特征的交互。距離度量學(xué)習(xí)是學(xué)習(xí)對象區(qū)分信息的一個重要方法,通過距離度量將訓(xùn)練數(shù)據(jù)集從原始空間轉(zhuǎn)換到度量空間同時保持其原有的距離關(guān)系[63]。但是大部分的度量學(xué)習(xí)方法都需要類別標(biāo)簽來指導(dǎo)訓(xùn)練過程而且不能直接應(yīng)用于混合數(shù)據(jù)[64–66]。無監(jiān)督距離度量學(xué)習(xí),也被稱為流形學(xué)習(xí),其目的是為了學(xué)習(xí)數(shù)據(jù)的低維表示,如PCA,ISOMAP[67]和LLE[68]。但是他們只關(guān)注連續(xù)數(shù)據(jù),不能處理混合數(shù)據(jù)也不能學(xué)習(xí)離散特征和連續(xù)特征之間的異構(gòu)關(guān)系。自動編碼機(jī)已經(jīng)在圖像和文本數(shù)據(jù)上展示出了它的表征學(xué)習(xí)能力[69,70],它能夠產(chǎn)生語義豐富的和可區(qū)分
本文編號:3502302
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3502302.html
最近更新
教材專著