天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向不平衡數(shù)據(jù)的分類算法研究

發(fā)布時(shí)間:2021-07-30 16:39
  隨著信息技術(shù)與互聯(lián)網(wǎng)的飛速發(fā)展,各領(lǐng)域的數(shù)據(jù)量正以前所未有的速度急劇增加。如何實(shí)現(xiàn)智能化的數(shù)據(jù)處理以及如何提取數(shù)據(jù)中蘊(yùn)含的有價(jià)值的信息,已經(jīng)成為機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的研究和應(yīng)用熱點(diǎn)。數(shù)據(jù)分類作為數(shù)據(jù)挖掘領(lǐng)域一個(gè)重要的課題,已廣泛應(yīng)用于數(shù)據(jù)分析及智能化處理。傳統(tǒng)分類方法在面對(duì)平衡數(shù)據(jù)集時(shí)能夠得到令人滿意的結(jié)果,但在實(shí)際應(yīng)用中,遇到的數(shù)據(jù)集大多數(shù)是不平衡的。而傳統(tǒng)分類算法在面對(duì)不平衡數(shù)據(jù)集時(shí),無法保證少數(shù)類樣本的分類效果。所以本文針對(duì)不平衡數(shù)據(jù)集分類算法存在的問題,主要從數(shù)據(jù)層面和算法層面進(jìn)行研究:(1)在數(shù)據(jù)層面,提出了一種面向不平衡數(shù)據(jù)的基于k-means的加權(quán)雙向采樣法(WBSK)。該方法首先使用k-means對(duì)整個(gè)數(shù)據(jù)集進(jìn)行聚類,然后根據(jù)不平衡比率在少數(shù)類占絕大數(shù)的區(qū)域,通過每個(gè)簇不同的權(quán)重進(jìn)行過采樣,避免了噪聲的產(chǎn)生,且克服了類間類內(nèi)不平衡的情況。最后,對(duì)多數(shù)類占絕大數(shù)的簇進(jìn)行欠采樣,以求平衡整個(gè)數(shù)據(jù)集的樣本數(shù)。本文在11個(gè)數(shù)據(jù)集上對(duì)所提出的方法進(jìn)行實(shí)驗(yàn),結(jié)果表明本算法在不同分類器和不同評(píng)估標(biāo)準(zhǔn)下優(yōu)于其他方法。(2)在算法層面,提出了一種基于固定半徑最近鄰的逐步競(jìng)爭(zhēng)算法(FRN... 

【文章來源】:山東師范大學(xué)山東省

【文章頁數(shù)】:60 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

面向不平衡數(shù)據(jù)的分類算法研究


不平衡分類算法在過去的二十余年中,不平衡分類方法已得到廣泛的應(yīng)用,大量的科研學(xué)者

框架圖,框架,算法,監(jiān)督學(xué)習(xí)


山東師范大學(xué)碩士學(xué)位論文9第二章不平衡分類算法基礎(chǔ)知識(shí)2.1分類算法概述機(jī)器學(xué)習(xí)一般可分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。所謂監(jiān)督學(xué)習(xí),可以定義為根據(jù)已有的數(shù)據(jù)集,從中學(xué)習(xí)出一個(gè)函數(shù)或者模型參數(shù),即知道輸入輸出間的關(guān)系,通過這種已知的關(guān)系,當(dāng)輸入新的數(shù)據(jù)時(shí),能夠根據(jù)這個(gè)函數(shù)預(yù)測(cè)結(jié)果,得到一個(gè)最優(yōu)模型。換句話說,在監(jiān)督學(xué)習(xí)中既有標(biāo)簽(label)又有特征(feature),通過訓(xùn)練讓模型自己找到標(biāo)簽和特征之間的關(guān)系,進(jìn)而在面對(duì)只有特征沒有標(biāo)簽的數(shù)據(jù)時(shí)來確定應(yīng)該給數(shù)據(jù)賦予哪種標(biāo)簽。圖2-1分類算法基本框架分類算法是一種有監(jiān)督的學(xué)習(xí),可以看做是在一個(gè)已經(jīng)知道類標(biāo)號(hào)的數(shù)據(jù)集中,通過訓(xùn)練一種(或一組)分類器來得到一個(gè)目標(biāo)函數(shù),讓其能夠預(yù)測(cè)測(cè)試樣本的類標(biāo)簽,目標(biāo)函數(shù)也可以稱為分類模型,其算法流程如圖2-1所示。分類算法的過程就是通過建立一種分類模型,來描述預(yù)定的數(shù)據(jù)集,其模型是通過分析由屬性描述的數(shù)據(jù)集樣本而構(gòu)造的。分類的目的則是使用分類器對(duì)新的數(shù)據(jù)集進(jìn)行劃分,傳統(tǒng)的分類器有K最近鄰、支持向量機(jī)和邏輯回歸等。2.2分類器2.2.1K最近鄰K最近鄰(K-NearestNeighbor,KNN)算法是目前最為簡(jiǎn)單且非常有效的

流程圖,算法,流程圖,樣本


山東師范大學(xué)碩士學(xué)位論文10機(jī)器學(xué)習(xí)分類算法。其中K值代表著離樣本最近的K個(gè)樣本。KNN的思路非常簡(jiǎn)單,就是從訓(xùn)練集中找到最鄰近的K個(gè)樣本的類別,通過找出個(gè)數(shù)最多的類別,來決定待分類樣本所屬的類別。其指導(dǎo)思想就是“近朱者赤,近墨者黑”。其具體算法流程圖如2-2所示。圖2-2KNN算法流程圖KNN算法步驟如下:(1)計(jì)算兩個(gè)樣本之間的鄰近性,即計(jì)算它們之間的距離,我們一般采用歐幾里得距離來測(cè)量,兩個(gè)樣本),...,,(111211nxxxX),...,,(222221nxxxX之間的歐氏距離計(jì)算公式:ni1221)()2,1(iiXxxXdist(2-1)(2)通過計(jì)算X的K鄰近樣本得出X的類別:kXyyljXjCCI)(maxarg(2-2)KNN算法由于只需要在數(shù)據(jù)集中搜索到其最近的若干個(gè)樣本,來決定待分

【參考文獻(xiàn)】:
期刊論文
[1]K-Means聚類算法研究綜述[J]. 楊俊闖,趙超.  計(jì)算機(jī)工程與應(yīng)用. 2019(23)
[2]基于蟻群算法的關(guān)聯(lián)規(guī)則挖掘[J]. 衣夢(mèng)涵,王慧穎.  統(tǒng)計(jì)與決策. 2019(17)
[3]面向不平衡數(shù)據(jù)的分類算法[J]. 蔣宗禮,史倩月.  計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(08)
[4]面向不平衡數(shù)據(jù)集的一種改進(jìn)的k-近鄰分類器[J]. 劉鵬,杜佳芝,呂偉剛,竇明武.  東北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(07)
[5]不平衡分類的數(shù)據(jù)采樣方法綜述[J]. 劉定祥,喬少杰,張永清,韓楠,魏軍林,張榕珂,黃萍.  重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)). 2019(07)
[6]機(jī)器學(xué)習(xí)分類問題及算法研究綜述[J]. 楊劍鋒,喬佩蕊,李永梅,王寧.  統(tǒng)計(jì)與決策. 2019(06)
[7]面向不平衡分類的固定半徑最近鄰逐步競(jìng)爭(zhēng)算法(FRNNPC)[J]. 周鵬,伊靜,朱振方,劉培玉.  山東大學(xué)學(xué)報(bào)(理學(xué)版). 2019(03)
[8]不平衡數(shù)據(jù)分類方法綜述[J]. 李艷霞,柴毅,胡友強(qiáng),尹宏鵬.  控制與決策. 2019(04)
[9]不平衡數(shù)據(jù)分類研究綜述[J]. 趙楠,張小芳,張利軍.  計(jì)算機(jī)科學(xué). 2018(S1)
[10]基于集成混合采樣的軟件缺陷預(yù)測(cè)研究[J]. 戴翔,毛宇光.  計(jì)算機(jī)工程與科學(xué). 2015(05)



本文編號(hào):3311757

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3311757.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶076cf***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com