天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于數(shù)據(jù)場和云模型的維數(shù)約簡方法研究

發(fā)布時間:2019-10-03 05:12
【摘要】:隨著硬件設(shè)備和網(wǎng)絡(luò)的發(fā)展,數(shù)據(jù)量和數(shù)據(jù)維數(shù)都以極快的速度增加。大多數(shù)模式識別算法在遇到高維數(shù)據(jù)時,運算的時間復(fù)雜度呈指數(shù)升高,但是識別效果反而變差。如何對高維數(shù)據(jù)進行維數(shù)約簡,提取出更具識別度的特征,以提高或保持模式識別的準確度,已經(jīng)成為一個熱門的研究方向。維數(shù)約簡算法旨在通過對原始特征的評估或者變換形成新特征空間,減少冗余特征對于模式識別的影響,F(xiàn)有的維數(shù)約簡算法針對特征本身的不確定性、隨機性以及多尺度特征的內(nèi)在分布規(guī)律研究較少。有必要積極地提出新技術(shù)學(xué)習(xí)數(shù)據(jù)隱含的信息,描述數(shù)據(jù)內(nèi)在分布規(guī)律,并且提取出更能反映數(shù)據(jù)本質(zhì)的特征。鑒于此,論文引入認知物理學(xué)方法,通過數(shù)據(jù)本身的分布狀態(tài)衡量特征重要性程度,嘗試在多尺度視角下提取數(shù)據(jù)特征,約簡特征的數(shù)目;并且應(yīng)用提出的算法解決實際問題。采用認知物理學(xué)中的數(shù)據(jù)場和云模型理論,從不同角度探索數(shù)據(jù)的內(nèi)在聯(lián)系,提取相關(guān)的空間特征,揭示數(shù)據(jù)的蘊含信息。其中數(shù)據(jù)場用來探索特征本身的重要性程度以及不同特征之間的相關(guān)性。數(shù)據(jù)對象受其它對象影響而使得特征描述具有一定的不確定性。數(shù)據(jù)場中的質(zhì)量、影響因子、勢函數(shù)這些關(guān)鍵因素的分析有助于解決維數(shù)約簡中特征的重要性度量、樣本間距離的度量和樣本局部映射的獲得。云模型是不確定性研究的重要模型,可以實現(xiàn)定量數(shù)據(jù)和定性概念之間的相互轉(zhuǎn)化。論文利用云模型構(gòu)建出了點和概念兩個層次的特征提取策略。豐富了認知物理學(xué)的應(yīng)用范圍,針對維數(shù)約簡的若干應(yīng)用問題,全面分析了數(shù)據(jù)場的質(zhì)量、距離、影響因子等關(guān)鍵要素,深入研究數(shù)據(jù)場的各向異性、云模型的不確定度等關(guān)鍵技術(shù)在維數(shù)約簡中的作用。論文從特征提取、特征重要性度量、特征子集選擇和特征表示四個方面進行基于數(shù)據(jù)場和云模型的維數(shù)約簡方法研究,論文的主要工作如下:(1)勢函數(shù)影響因子σ體現(xiàn)特征的各向異性,需要密度估計進行計算,但是密度估計的時間復(fù)雜度較高。同時計算類間距離和類內(nèi)距離時需要遍歷整個數(shù)據(jù)集。對于一些分類器,更應(yīng)該關(guān)注樣本的臨近數(shù)據(jù)分布狀態(tài)而不是整個數(shù)據(jù)集。例如對于SVM類的分類器,在超平面附近的樣本相對于其他樣本更為重要。為此,論文引入最大間隔思想,提出K臨近局部最大間隔特征提取算法(KLMM)。該算法通過影響因子σ體現(xiàn)特征的各向異性。將這種策略和最大間隔標準相結(jié)合,在廣義數(shù)據(jù)場中進行最大間隔結(jié)構(gòu)學(xué)習(xí)。將KLMM和SVM算法結(jié)合,在通用數(shù)據(jù)集上取得了比ALH更高的分類精度。(2)現(xiàn)有的特征重要性度量算法對于數(shù)據(jù)的物理分布和數(shù)據(jù)點之間的空間分布關(guān)系研究較少。為此,提出基于勢熵的特征重要性度量算法(FRGDF)。FRGDF在度量特征重要性時除了考慮數(shù)據(jù)本身分布之外,還在將數(shù)據(jù)場擴展到廣義的多維數(shù)據(jù)場基礎(chǔ)上,將數(shù)據(jù)映射到高維空間,使其更具可分性,使用層次聚類算法得到最優(yōu)特征子集。在通用數(shù)據(jù)集上的相關(guān)實驗和分析證明FRGDF算法可有效剔除不重要或噪聲特征。采用FRGDF得到的最優(yōu)特征子集和多種分類器相結(jié)合都保持或提高了分類器的精度,表明FRGDF算法獨立于具體的分類器。(3)在數(shù)據(jù)場框架下,樣本質(zhì)量m是計算數(shù)據(jù)點勢值的重要參數(shù)。實際上樣本的質(zhì)量和其周圍樣本密度和類別都有關(guān)系。同時特征子集的選擇不僅要考慮特征本身分布狀態(tài),還要考慮和其他特征以及類別的相關(guān)性。為此,提出基于數(shù)據(jù)場和互信息的特征子集選擇算法(DFMIFS).在將數(shù)據(jù)轉(zhuǎn)換到數(shù)據(jù)場中的同時,將數(shù)據(jù)投影到網(wǎng)格中計算;引入互信息理論,計算候特征和已選特征的相關(guān)性,只有那些弱相關(guān)的特征才被加入特征子集中。采用啟發(fā)式評估算法選取最優(yōu)特征子集,實驗證明,DFMIFS可在提取比FRGDF更少特征的基礎(chǔ)上,進一步提高或保持分類器的精度。(4)現(xiàn)有的維數(shù)約簡算法缺乏對特征在不同尺度下不確定性的統(tǒng)一描述,同時對于定量特征點和定性概念之間的轉(zhuǎn)換研究不足。為此,引入認知物理學(xué)中的云模型思想,進行特征在不同尺度上的不確定性研究;提出基于合成云模型的特征提取算法(FECCM)。并以圖像邊緣特征提取為例,分析了特征在微觀和宏觀上的不確定性問題。微觀上,將云模型和Canny算子相互結(jié)合,提取出圖像的像素級數(shù)字特征。傳統(tǒng)的Canny算子需要手動設(shè)置雙閾值,FECCM可以自動選擇閡值。以在FG-NET數(shù)據(jù)庫的人臉年齡識別為例,進一步表明FECCM的有效性。FECCM將圖像的特征識別問題轉(zhuǎn)換為知識概念提取的過程,有效的利用已檢測的圖像,通過不同尺度特征的表示和提取,解決了特征的不確定性描述問題,體現(xiàn)特征的隨機性和模糊性。通過不同尺度的訓(xùn)練樣本得到不同尺度樣本的分布情況,抽取相應(yīng)的共性概念云,計算出不同概念云的數(shù)字特征,邊緣的提取結(jié)果在噪聲點消除和邊緣清晰度上都表現(xiàn)出色。綜上所述,論文通過數(shù)據(jù)場中樣本的勢值表示樣本分布狀態(tài)及樣本間的相互影響,使用場空間反映數(shù)據(jù)對象的空間關(guān)系特征。為了進一步表示特征在空間分布中的模糊性和隨機性,引入云模型表示數(shù)據(jù)對象分布在不同尺度的多種狀態(tài),使提取的特征更具普適性。將認知物理學(xué)方法和具體的維數(shù)約簡策略相互結(jié)合,使得認知物理學(xué)方法研究更加深入,同時為維數(shù)約簡提供了新的參考模型。
【圖文】:

約簡,挖掘流程,高維數(shù)據(jù),維數(shù)


隨著數(shù)據(jù)維數(shù)的不斷增大,為了加快數(shù)據(jù)的處理速度,避免過度擬合現(xiàn)象,維逡逑數(shù)約簡已經(jīng)成為數(shù)據(jù)挖掘研究的一個熱點領(lǐng)域P1。為了提高數(shù)據(jù)處理的速度和模式識別逡逑的精度,對于高維數(shù)據(jù),數(shù)據(jù)挖掘的流程如圖1.1所示:逡逑約減后數(shù)據(jù)逡逑■Hli.,!耐邋Jk逡逑目巧數(shù)據(jù)邐g逡逑原始數(shù)據(jù)邐m逡逑LhJLibJ逡逑最終知識邐、逡逑挖掘結(jié)果邐標準數(shù)據(jù)逡逑圖1.1ex據(jù)挖掘流程逡逑從圖1.1中可看出,維數(shù)約簡是高維數(shù)據(jù)挖掘的重要環(huán)節(jié)。維數(shù)約簡的目標是尋逡逑找一個低維空間,在這個空間中,數(shù)據(jù)組織成不同的集群,且很容易分離。此外,低維逡逑表示也給數(shù)據(jù)可視化提供了可能,有利于探索性地分析數(shù)據(jù)。在統(tǒng)計學(xué)中,維數(shù)約簡將逡逑高維空間投影到較低維度,使分類或者回歸問題的精度更高。設(shè)存在一個d維數(shù)據(jù)集逡逑廬,包含《個樣本,即:2....,n},則維數(shù)約簡的目標是找到一個新的投影空問廬,逡逑這個空間的維度為雌K々,欠A中的點為WA=i,2....,n};找到投影F:廬一民h邋x-^l=F(x),逡逑/為X降維之后的形式。逡逑1逡逑

約簡,維數(shù),內(nèi)容,特征選擇


逑論文介紹了維數(shù)約簡的xO巧現(xiàn)狀及面臨的問題,簡略的回顧了特征選擇、特征提逡逑取及認知物理學(xué)的相關(guān)知識。維數(shù)約簡包括特征選擇和特征提取兩個方面,如圖1.2所逡逑示:逡逑維ex約簡逡逑邐邋11邋'邋邐逡逑I邐I逡逑‘I邐.邐、邐-逡逑特征選y翁卣魈崛″義襄危簟桑媯駑五五邋巍㈠澹桑懾澹叔五義希懾危懾危懾危懾危懾危懾危懾義希浚 瀩因W 因應(yīng)逡逑圖1.2維數(shù)約簡內(nèi)容逡逑在處理高維數(shù)據(jù)時,,特征選擇和特征提取可W互為前提。對于高維數(shù)據(jù)集,尤其是逡逑圖像數(shù)據(jù),大多首先采用特征提取算法提取出主要特征,然后對提取出來的特征逡逑進行特征選擇,最后按照選擇出的最優(yōu)特征子集進行模式識別。高維數(shù)據(jù)約簡的逡逑步驟如圖1.3所示:逡逑特征提取逡逑邐?邐逡逑特征重要性度量逡逑邐#邐逡逑生成最優(yōu)特征子集逡逑呭逡逑特征表示逡逑邐-遂邐逡逑模式識別逡逑圖1.3維數(shù)約簡步燕逡逑論文介紹了維數(shù)約簡的四個步驟及存在的不足,針對這些不足提出相應(yīng)的改進策逡逑略,并詳細描述這些策略的理論、步驟及實驗對比與分析。逡逑論文共分成走章,組織結(jié)構(gòu)如圖1.4所示:逡逑6逡逑
【學(xué)位授予單位】:武漢大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2016
【分類號】:TP391.4

【參考文獻】

相關(guān)期刊論文 前10條

1 李剛;萬幼川;;商空間理論下面向?qū)ο蟮倪b感影像分類[J];光電工程;2011年02期

2 朱長征,諶海新;云建模方法現(xiàn)狀、發(fā)展趨勢及在軍事領(lǐng)域的應(yīng)用[J];計算機應(yīng)用;2003年09期

3 呂輝軍,王曄,李德毅,劉常昱;逆向云在定性評價中的應(yīng)用[J];計算機學(xué)報;2003年08期

4 張飛舟,范躍祖,孫先仿;基于云模型的導(dǎo)航系統(tǒng)模糊可靠性評測分析[J];自動化學(xué)報;2002年01期

5 岳訓(xùn),孫忠林,張艷琦,李光忠;基于云模型的Web日志數(shù)據(jù)挖掘技術(shù)[J];計算機應(yīng)用研究;2001年11期

6 杜瀊,李德毅;基于云的概念劃分及其在關(guān)聯(lián)采掘上的應(yīng)用[J];軟件學(xué)報;2001年02期

7 宋遠駿,楊孝宗,李德毅,崔東華;多機多任務(wù)實時系統(tǒng)云調(diào)度策略[J];計算機學(xué)報;2000年10期

8 李德毅;三級倒立擺的云控制方法及動平衡模式[J];中國工程科學(xué);1999年02期

9 張飛舟,范躍祖,沈程智,李德毅;基于隸屬云發(fā)生器的智能控制[J];航空學(xué)報;1999年01期

10 楊朝暉,李德毅;二維云模型及其在預(yù)測中的應(yīng)用[J];計算機學(xué)報;1998年11期



本文編號:2545286

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2545286.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c478a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com