天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類博士論文 >

基于半監(jiān)督和集成學(xué)習(xí)的不平衡數(shù)據(jù)特征選擇和分類

發(fā)布時(shí)間:2018-05-04 10:03

  本文選題:集成學(xué)習(xí) + 半監(jiān)督學(xué)習(xí) ; 參考:《山東師范大學(xué)》2016年博士論文


【摘要】:隨著大數(shù)據(jù)時(shí)代的到來(lái),機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)正面臨著前所未有的機(jī)遇和挑戰(zhàn)。作為機(jī)器學(xué)習(xí)最核心的研究領(lǐng)域之一,分類問(wèn)題受到了研究者持續(xù)而廣泛的關(guān)注,并且出現(xiàn)了大量的經(jīng)典理論、算法模型和應(yīng)用軟件。但是在現(xiàn)實(shí)應(yīng)用領(lǐng)域,獲取到的分類數(shù)據(jù)集經(jīng)常存在類別間樣本數(shù)分布不平衡的情況,造成傳統(tǒng)分類器的分類效果明顯下降,這種情況被稱為類別不平衡問(wèn)題。簡(jiǎn)單而言,類別不平衡就是一個(gè)類中的樣本數(shù)量要明顯少于另一個(gè)(或幾個(gè))類。類別不平衡問(wèn)題在通訊、互聯(lián)網(wǎng)、生態(tài)學(xué)、生物學(xué)、醫(yī)學(xué)等領(lǐng)域廣泛存在,并被列為當(dāng)前數(shù)據(jù)挖掘界最突出問(wèn)題之一。從學(xué)習(xí)的角度分析,少數(shù)類往往包含更重要的分類信息而且錯(cuò)分少數(shù)類樣本的代價(jià)會(huì)更高。但是由于少數(shù)類樣本不但與一些異常且重要的情況有著密切的關(guān)聯(lián),而且獲取少數(shù)類樣本的成本更高,因此識(shí)別的難度往往會(huì)更大。另一方面,由于大多數(shù)標(biāo)準(zhǔn)的分類算法只考慮訓(xùn)練集為平衡的情況,當(dāng)面臨不平衡數(shù)據(jù)的時(shí)候就可能會(huì)生成不理想的分類器。近幾年來(lái),由于類不平衡問(wèn)題在許多應(yīng)用場(chǎng)景中經(jīng)常出現(xiàn),不平衡數(shù)據(jù)分類已經(jīng)成為機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘研究群體的關(guān)注熱點(diǎn)。鑒于此,本文基于集成學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的相關(guān)方法,對(duì)不平衡數(shù)據(jù)的分類和特征選擇問(wèn)題展開(kāi)了研究。現(xiàn)將本文的主要工作和成果總結(jié)如下:1)當(dāng)前搜索引擎公司普遍受到垃圾網(wǎng)頁(yè)(web spam)問(wèn)題的困擾,本文針對(duì)不平衡垃圾網(wǎng)頁(yè)數(shù)據(jù)集提出了一種結(jié)合過(guò)采樣方法SMOTE與隨機(jī)森林的改進(jìn)方法SMOTERF。在WEBSPAM-UK2007數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明,本文方法在分類結(jié)果,尤其是AUC值上有了明顯提升。即使與參數(shù)優(yōu)化后的隨機(jī)森林對(duì)比,其AUC值也有一定提高。本文方法簡(jiǎn)單且泛化能力強(qiáng),可以用于搜索引擎垃圾網(wǎng)頁(yè)檢測(cè)。2)基于近幾年提出的一個(gè)高效的集成學(xué)習(xí)算法旋轉(zhuǎn)森林,本文提出了三個(gè)改進(jìn)算法,并分別應(yīng)用于不平衡的垃圾網(wǎng)頁(yè)檢測(cè)和高度不平衡數(shù)據(jù)分類的問(wèn)題中。首先,本文先用SMOTE方法平衡垃圾網(wǎng)頁(yè)數(shù)據(jù)集的原始分布,再利用改進(jìn)的嵌套旋轉(zhuǎn)森林算法進(jìn)行分類。實(shí)驗(yàn)結(jié)果證明SMOTE和嵌套旋轉(zhuǎn)森林的結(jié)合方法可以明顯地提高不平衡的垃圾網(wǎng)頁(yè)數(shù)據(jù)集的分類效果。針對(duì)高度不平衡數(shù)據(jù)集的分類問(wèn)題,本文將兩個(gè)經(jīng)典的不平衡預(yù)處理方法隨機(jī)欠采樣和SMOTE過(guò)采樣分別嵌入到旋轉(zhuǎn)森林的特征提取過(guò)程中,生成了兩個(gè)改進(jìn)算法SROForest和RUROForest。在22個(gè)高度不平衡數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明,本文方法對(duì)AUC值的提高較為明顯。非參數(shù)統(tǒng)計(jì)結(jié)果也證明了本文方法,尤其是RUROForest的表現(xiàn)優(yōu)于其他對(duì)比方法。3)由于在許多現(xiàn)實(shí)數(shù)據(jù)集中,類別分布不平衡和標(biāo)記樣本數(shù)量過(guò)少的情況經(jīng)常同時(shí)存在,因此,本文提出了一系列SMOTE與半監(jiān)督框架下的自標(biāo)記技術(shù)和多分類器模型的結(jié)合方法,來(lái)解決欠標(biāo)記且不平衡的垃圾網(wǎng)頁(yè)數(shù)據(jù)集分類問(wèn)題。在部分標(biāo)記的WEBSPAM-UK2007數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明,本文提出的方法,特別是基于多分類器模型的方法能夠在基本不降低分類精度的前提下,顯著提高spam類的recall值和整體的AUC值,是解決只有少量標(biāo)記且類不平衡數(shù)據(jù)集分類問(wèn)題的一個(gè)有效策略。4)針對(duì)利用高維不平衡的卵巢癌微陣列數(shù)據(jù)進(jìn)行診斷及生存預(yù)測(cè)的問(wèn)題,本文提出了一個(gè)基于隨機(jī)森林的過(guò)濾式不平衡特征選擇算法IFSRF。該算法選用AUC值作為特征選擇時(shí)的評(píng)價(jià)指標(biāo),因此可以顯著降低類分布不平衡給分類系統(tǒng)帶來(lái)的負(fù)面影響。實(shí)驗(yàn)結(jié)果表明IFSRF能夠明顯提高所有分類器特別是隨機(jī)森林在卵巢癌診斷、生存預(yù)測(cè)和復(fù)發(fā)預(yù)測(cè)3個(gè)不平衡數(shù)據(jù)集上的AUC值,同時(shí)還能保證整體分類精度略有提高。本文方法實(shí)現(xiàn)簡(jiǎn)單且魯棒性強(qiáng),可以廣泛用于癌癥微陣列數(shù)據(jù)集的分類問(wèn)題中。綜上所述,本文針對(duì)垃圾網(wǎng)頁(yè)檢測(cè)、高度不平衡數(shù)據(jù)分類和卵巢癌診斷與生存預(yù)測(cè)等不平衡數(shù)據(jù)分類問(wèn)題,從樣本的預(yù)處理、集成學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和特征選擇等幾個(gè)不同的角度提出了相應(yīng)的解決方案,并通過(guò)實(shí)驗(yàn)驗(yàn)證了它們的有效性。本文工作可以為今后的不平衡數(shù)據(jù)分類研究提供幫助。
[Abstract]:With the advent of large data age , the technology of machine learning and data mining is facing unprecedented opportunities and challenges . As one of the most important research fields of machine learning , the classification problem has been studied by researchers . This paper presents an effective strategy for the classification of cancer microarray data . The results show that the method is simple and robust and can be widely used in the classification of cancer microarray data sets .

【學(xué)位授予單位】:山東師范大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP181;TP393.092

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王勝祥;現(xiàn)實(shí)、實(shí)踐與理論——兼談圖書(shū)館高位理論[J];黑龍江圖書(shū)館;1990年02期

2 王健庭;火信號(hào)的采集與相關(guān)修正[J];數(shù)據(jù)采集與處理;1987年02期

3 陳國(guó)階;我國(guó)東西部發(fā)展不平衡與西部開(kāi)發(fā)[J];科技導(dǎo)報(bào);1995年07期

4 王萌;施艷艷;王海明;沈明輝;;不平衡電網(wǎng)電壓下雙饋風(fēng)力發(fā)電系統(tǒng)強(qiáng)勵(lì)控制[J];測(cè)控技術(shù);2014年07期

5 漫征;;克服地區(qū)落后論的錯(cuò)誤思想[J];新聞戰(zhàn)線;1960年11期

6 ;來(lái)稿選題建議[J];青年研究;1999年01期

7 沈睿;;區(qū)域發(fā)展不平衡——不同地域中小企業(yè)信息化建設(shè)差距較大[J];每周電腦報(bào);2004年08期

8 張昕竹;用電信普遍服務(wù)政策改善經(jīng)濟(jì)發(fā)展不平衡[J];通信世界;2001年16期

9 周耘;;試論我國(guó)年鑒發(fā)展的不平衡性[J];圖書(shū)館學(xué)研究;1987年04期

10 劉葉婷;;智慧城市應(yīng)依“標(biāo)”而建[J];信息化建設(shè);2013年09期

相關(guān)會(huì)議論文 前6條

1 張雨石;唐麗敏;王庸凱;陳文科;;關(guān)于中日航線集裝箱運(yùn)量不平衡原因的分析[A];中國(guó)航海學(xué)會(huì)——2004年度學(xué)術(shù)交流會(huì)優(yōu)秀論文集[C];2004年

2 廖芳宇;;基于LabVIEW的三相不平衡的測(cè)量[A];2011年云南電力技術(shù)論壇論文集(入選部分)[C];2011年

3 沙鵬程;;關(guān)于西部民營(yíng)企業(yè)可持續(xù)發(fā)展的思考[A];第十四次全國(guó)回族學(xué)研討會(huì)論文匯編[C];2003年

4 張敦偉;丁博;;配電網(wǎng)三相不平衡補(bǔ)償?shù)奶接慬A];2007中國(guó)電機(jī)工程學(xué)會(huì)電力系統(tǒng)自動(dòng)化專委會(huì)供用電管理自動(dòng)化學(xué)科組(分專委會(huì))二屆三次會(huì)議論文集[C];2007年

5 王仲生;王翔;;轉(zhuǎn)子不平衡自愈監(jiān)控系統(tǒng)設(shè)計(jì)[A];第七屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集[C];2009年

6 王中卿;李壽山;朱巧明;李培峰;周國(guó)棟;;基于不平衡數(shù)據(jù)的中文情感分類[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

相關(guān)重要報(bào)紙文章 前10條

1 本報(bào)記者 劉金松;教育最大的不公平是教育資源不平衡[N];經(jīng)濟(jì)觀察報(bào);2014年

2 程凱;解決不平衡還要靠市場(chǎng)[N];中華工商時(shí)報(bào);2005年

3 本報(bào)見(jiàn)習(xí)記者 周寧;示范小城鎮(zhèn)建設(shè)“四個(gè)不平衡”[N];經(jīng)濟(jì)信息時(shí)報(bào);2013年

4 記者 張黎明;我市治堵工作進(jìn)展不平衡[N];金華日?qǐng)?bào);2014年

5 本報(bào)記者 任s,

本文編號(hào):1842613


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1842613.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7d983***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com