基于不平衡約束及聯(lián)合損失的深度聚類研究
發(fā)布時(shí)間:2021-04-19 03:52
在大數(shù)據(jù)時(shí)代,聚類方法作為機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘中最重要的方法之一,已經(jīng)在各行各業(yè)都廣泛應(yīng)用。其中,半監(jiān)督聚類通過增加少量的輔助監(jiān)督信息,既只需要付出少量的人工成本,同時(shí)又可以獲得相對(duì)高質(zhì)量的聚類效果。因此,對(duì)半監(jiān)督聚類的研究能夠幫助各個(gè)行業(yè)在海量多維數(shù)據(jù)中快速分析數(shù)據(jù),具有重要的應(yīng)用價(jià)值和學(xué)術(shù)價(jià)值。半監(jiān)督聚類的監(jiān)督信息主要分為類標(biāo)簽和成對(duì)約束信息。本文以基于成對(duì)約束信息的半監(jiān)督聚類作為研究的重點(diǎn),提出了聯(lián)合損失的深度聚類模型。本文的主要工作包括:1.本文提出一種聯(lián)合重構(gòu)損失、成對(duì)約束損失和聚類損失的深度聚類網(wǎng)絡(luò)。該深度聚類網(wǎng)絡(luò)采用深度自編碼器網(wǎng)絡(luò)的重構(gòu)損失,確保網(wǎng)絡(luò)的隱藏層可以學(xué)習(xí)樣本的數(shù)據(jù)特征;通過構(gòu)建成對(duì)約束損失,使得隱藏向量可以體現(xiàn)樣本相似性,即相同類別的樣本距離更近,不同類別的樣本聚類更遠(yuǎn);通過引入聚類損失,使得神經(jīng)網(wǎng)絡(luò)進(jìn)一步學(xué)習(xí)到樣本之間的相似性,從而實(shí)現(xiàn)良好的聚類效果。在多個(gè)實(shí)驗(yàn)上表明,本文提出的聚類模型具有更好的效果。2.本文提出一種基于動(dòng)態(tài)代價(jià)敏感的成對(duì)約束損失。針對(duì)成對(duì)約束標(biāo)簽中存在類別不平衡的情況,本文采用動(dòng)態(tài)學(xué)習(xí)的放大少數(shù)類樣本權(quán)重的代價(jià)敏感法。本文提出的動(dòng)態(tài)代價(jià)敏...
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:72 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
不同的度量函數(shù)對(duì)相同的樣本構(gòu)建不同分類
圖 2-2 神經(jīng)元模型的結(jié)構(gòu)示意圖神經(jīng)元模型是一個(gè)多輸入單輸出的信息處理單體表示為 [x1, x2, ..., xn], 分別經(jīng)過矩陣 [w1, w2, .數(shù)進(jìn)行非線性轉(zhuǎn)換,最后得到輸出 y。經(jīng)元可以表示為輸入變量 x 到輸出變量 y 的映射y = sgn(n∑iwixi) 示激活函數(shù),實(shí)際應(yīng)用中通常用 Sigmoid 函數(shù)當(dāng)活函數(shù)時(shí),輸出為 1;當(dāng)小于等于 0 的輸入通過函數(shù),可以將線性的輸出結(jié)果進(jìn)行非線性轉(zhuǎn)換。
(c) ReLU (d) Leaky ReLU圖 2-3 常見的激活函數(shù)數(shù)為變化區(qū)間在 -1 到 1 之間的非線性函數(shù),性質(zhì)與 Sigmoid 較際應(yīng)用中都存在著一個(gè)問題:在反向傳播中,傳播的誤差太大絡(luò)傳播后,梯度不斷相乘,導(dǎo)致梯度梯度消失的情況。因此,采選擇神經(jīng)網(wǎng)絡(luò)的初始參數(shù)或者增加防止梯度消失的方法。,線性整流函數(shù)(Rectified Linear Unit,ReLU)也成為神經(jīng)網(wǎng)絡(luò),其公式為:ReLU(x) = x x ≥ 00 x < 0活函數(shù)在保證非線性函數(shù)的同時(shí),在誤差反向傳播中其導(dǎo)數(shù)通過多層神經(jīng)網(wǎng)絡(luò)的反向傳播也不容易發(fā)生梯度消失的情況。
【參考文獻(xiàn)】:
期刊論文
[1]不平衡數(shù)據(jù)分類研究綜述[J]. 趙楠,張小芳,張利軍. 計(jì)算機(jī)科學(xué). 2018(S1)
[2]半監(jiān)督聚類算法研究現(xiàn)狀[J]. 熊建斌,李振坤,劉怡俊. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2009(12)
[3]半監(jiān)督聚類的若干新進(jìn)展[J]. 李昆侖,曹錚,曹麗蘋,張超,劉明. 模式識(shí)別與人工智能. 2009(05)
[4]不平衡數(shù)據(jù)分類方法綜述[J]. 楊明,尹軍梅,吉根林. 南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版). 2008(04)
[5]數(shù)據(jù)挖掘中聚類算法綜述[J]. 劉克準(zhǔn),廖志芳. 福建電腦. 2008(08)
[6]數(shù)據(jù)挖掘中的聚類算法綜述[J]. 賀玲,吳玲達(dá),蔡益朝. 計(jì)算機(jī)應(yīng)用研究. 2007(01)
[7]代價(jià)敏感支持向量機(jī)[J]. 鄭恩輝,李平,宋執(zhí)環(huán). 控制與決策. 2006(04)
本文編號(hào):3146777
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:72 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
不同的度量函數(shù)對(duì)相同的樣本構(gòu)建不同分類
圖 2-2 神經(jīng)元模型的結(jié)構(gòu)示意圖神經(jīng)元模型是一個(gè)多輸入單輸出的信息處理單體表示為 [x1, x2, ..., xn], 分別經(jīng)過矩陣 [w1, w2, .數(shù)進(jìn)行非線性轉(zhuǎn)換,最后得到輸出 y。經(jīng)元可以表示為輸入變量 x 到輸出變量 y 的映射y = sgn(n∑iwixi) 示激活函數(shù),實(shí)際應(yīng)用中通常用 Sigmoid 函數(shù)當(dāng)活函數(shù)時(shí),輸出為 1;當(dāng)小于等于 0 的輸入通過函數(shù),可以將線性的輸出結(jié)果進(jìn)行非線性轉(zhuǎn)換。
(c) ReLU (d) Leaky ReLU圖 2-3 常見的激活函數(shù)數(shù)為變化區(qū)間在 -1 到 1 之間的非線性函數(shù),性質(zhì)與 Sigmoid 較際應(yīng)用中都存在著一個(gè)問題:在反向傳播中,傳播的誤差太大絡(luò)傳播后,梯度不斷相乘,導(dǎo)致梯度梯度消失的情況。因此,采選擇神經(jīng)網(wǎng)絡(luò)的初始參數(shù)或者增加防止梯度消失的方法。,線性整流函數(shù)(Rectified Linear Unit,ReLU)也成為神經(jīng)網(wǎng)絡(luò),其公式為:ReLU(x) = x x ≥ 00 x < 0活函數(shù)在保證非線性函數(shù)的同時(shí),在誤差反向傳播中其導(dǎo)數(shù)通過多層神經(jīng)網(wǎng)絡(luò)的反向傳播也不容易發(fā)生梯度消失的情況。
【參考文獻(xiàn)】:
期刊論文
[1]不平衡數(shù)據(jù)分類研究綜述[J]. 趙楠,張小芳,張利軍. 計(jì)算機(jī)科學(xué). 2018(S1)
[2]半監(jiān)督聚類算法研究現(xiàn)狀[J]. 熊建斌,李振坤,劉怡俊. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2009(12)
[3]半監(jiān)督聚類的若干新進(jìn)展[J]. 李昆侖,曹錚,曹麗蘋,張超,劉明. 模式識(shí)別與人工智能. 2009(05)
[4]不平衡數(shù)據(jù)分類方法綜述[J]. 楊明,尹軍梅,吉根林. 南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版). 2008(04)
[5]數(shù)據(jù)挖掘中聚類算法綜述[J]. 劉克準(zhǔn),廖志芳. 福建電腦. 2008(08)
[6]數(shù)據(jù)挖掘中的聚類算法綜述[J]. 賀玲,吳玲達(dá),蔡益朝. 計(jì)算機(jī)應(yīng)用研究. 2007(01)
[7]代價(jià)敏感支持向量機(jī)[J]. 鄭恩輝,李平,宋執(zhí)環(huán). 控制與決策. 2006(04)
本文編號(hào):3146777
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3146777.html
最近更新
教材專著