各類數(shù)據(jù)的積累和快速增長給數(shù)據(jù)分析帶來巨大的挑戰(zhàn)。作為數(shù)據(jù)分析的核心技術(shù),機(jī)器學(xué)習(xí)從已有數(shù)據(jù)中提取規(guī)則或知識,從而在未知情境下為人類提供決策依據(jù)。我們希望機(jī)器學(xué)習(xí)模型能夠較好地匹配數(shù)據(jù),然而模型的適應(yīng)性遠(yuǎn)遠(yuǎn)不及數(shù)據(jù)的復(fù)雜性。任何模型都無法確保完全匹配各種數(shù)據(jù),這種不完全匹配關(guān)系往往通過誤差體現(xiàn)出來。如何合理有效地利用誤差是機(jī)器學(xué)習(xí)領(lǐng)域持續(xù)研究了數(shù)十年的問題,期間出現(xiàn)了很多經(jīng)典的基于誤差的學(xué)習(xí)算法或技術(shù),如誤差反向傳播算法、AdaBoost、自步學(xué)習(xí)等,這些工作推動了機(jī)器學(xué)習(xí)的發(fā)展,充分展示了誤差所蘊(yùn)含的寶貴價值。關(guān)于誤差的學(xué)習(xí)方法研究是機(jī)器學(xué)習(xí)中很多學(xué)習(xí)問題的共性話題,也是一個有生命力、具有開放性且大有可為的方向。統(tǒng)計學(xué)是研究一定規(guī)模數(shù)據(jù)的主流工具之一,大數(shù)據(jù)分析面臨的困難更加凸顯了統(tǒng)計學(xué)的重要性。因此,利用統(tǒng)計學(xué)方法研究誤差的特性,進(jìn)而提升數(shù)據(jù)分析效果是一個自然的思路。本文主要圍繞機(jī)器學(xué)習(xí)中的三種誤差——訓(xùn)練誤差、測試誤差和漂移誤差,從數(shù)據(jù)質(zhì)量提升和模型/參數(shù)優(yōu)化兩個層面開展系統(tǒng)深入的研究。在數(shù)據(jù)層面,給出時差序列數(shù)據(jù)的相關(guān)性分析和距離度量方法;提出分類與回歸通用的噪聲過濾算法。在模型層面,完善了交叉驗(yàn)證(cross-validation,CV)的誤差估計理論;提出面向特定類型數(shù)據(jù)的準(zhǔn)確、穩(wěn)定、高效的CV方法;提出面向適定學(xué)習(xí)問題的超參數(shù)優(yōu)化方法。本文的主要研究工作概括如下:(1)提出適用于時差序列數(shù)據(jù)的相關(guān)性分析、曲線排齊和距離度量方法。時差的存在可能導(dǎo)致序列相關(guān)性產(chǎn)生誤判或者距離度量出現(xiàn)偏差,進(jìn)而干擾或誤導(dǎo)序列數(shù)據(jù)分析。本文通過研究時差序列相關(guān)系數(shù)的統(tǒng)計特征,提出偽相關(guān)的識別方法和時差序列相關(guān)性判定方法;為消除時差,提出一種適用面更廣的曲線排齊優(yōu)化準(zhǔn)則,并給出高效的優(yōu)化問題求解方法;提出的最大平移相關(guān)距離可以度量具有相位和振幅漂移的時差序列之間的距離。這些方法可以有效排除時差對序列數(shù)據(jù)分析的干擾,為更深層次的序列分析做好了準(zhǔn)備。(2)建立了監(jiān)督學(xué)習(xí)的彈性噪聲過濾體系。從概率角度給出基于模型預(yù)測的噪聲過濾方法的前提假設(shè)及其有效性原理,解釋了典型過濾器之間的聯(lián)系;證明了置信區(qū)間內(nèi)誤差的低噪性,闡述了噪聲與誤差之間的聯(lián)系;進(jìn)而提出區(qū)間不敏感過濾算法,算法具有寬松的假設(shè),而且其有效性得到合理解釋。這些工作不僅完善了已有方法的理論基礎(chǔ),而且算法的核心概念——區(qū)間不敏感誤差可為相關(guān)的誤差學(xué)習(xí)方法提供新的視角和思路。(3)給出了誤差估計的準(zhǔn)確性與穩(wěn)定性的關(guān)系,并從理論上找出了CV中影響誤差估計的關(guān)鍵因素。利用測試誤差的方差分析技術(shù)給出CV估計的準(zhǔn)確性與穩(wěn)定性的度量方式,證明了兩者之間的量化關(guān)系,從而為通過減小方差來提升準(zhǔn)確度提供理論指導(dǎo);同時給出CV方差與相關(guān)變量之間的關(guān)系,作為調(diào)整CV方差的策略依據(jù);在分類問題上的結(jié)果能夠從理論上解釋一些經(jīng)典的實(shí)驗(yàn)結(jié)果,并針對分類和回歸問題提出一種統(tǒng)一的標(biāo)準(zhǔn)化方差,它可作為一個穩(wěn)定的誤差度量。這部分工作為提高誤差估計的準(zhǔn)確性和穩(wěn)定性提供了理論指導(dǎo),對模型選擇具有重要意義。(4)針對序列數(shù)據(jù)的自相關(guān)性特征提出Markov交叉驗(yàn)證方法(M-CV)以更好地估計模型誤差。序列的周期性、重復(fù)性或相關(guān)性會導(dǎo)致時序模型誤差估計產(chǎn)生偏差,本文給出相應(yīng)的三個CV準(zhǔn)則;并提出一種Markov交叉驗(yàn)證方法,其序列劃分方法可以確保每個子集內(nèi)的樣本保持一定距離,可避免過擬合或序列信息損失的問題(可能導(dǎo)致誤差的低估或高估);此外從理論上證明了M-CV誤差估計具有低方差性,從而確保M-CV的穩(wěn)定性,實(shí)驗(yàn)結(jié)果也表明M-CV比其它CV具有更低的偏差、方差以及時間成本。(5)提出基于訓(xùn)練誤差的最小對稱相似準(zhǔn)則來解決超參數(shù)優(yōu)化問題。常規(guī)的網(wǎng)格搜索交叉驗(yàn)證方法過程復(fù)雜且有一定的隨機(jī)性,本文用訓(xùn)練誤差之間的相似性來解決參數(shù)優(yōu)化問題。提出一種基于訓(xùn)練結(jié)果的方向相似度,來度量模型泛化誤差的相似度;在此基礎(chǔ)上證明了對稱方向相似度在最佳參數(shù)處取得最小值;提出了最小對稱相似準(zhǔn)則(MSSC),可用于五類學(xué)習(xí)任務(wù)的超參數(shù)優(yōu)化,其時間復(fù)雜度低于CV且結(jié)果具有唯一性。所提出的方向相似度為訓(xùn)練結(jié)果和預(yù)測誤差建立了橋梁,使得從訓(xùn)練結(jié)果角度研究泛化能力成為可能。本文通過數(shù)據(jù)與模型之間的誤差統(tǒng)計特性分析,在數(shù)據(jù)質(zhì)量提升和模型/參數(shù)優(yōu)化方面開展研究,取得的研究成果完善和拓展了誤差學(xué)習(xí)的理論與應(yīng)用范圍,為復(fù)雜數(shù)據(jù)的分析提供了有效的方法,具有重要的理論意義和應(yīng)用價值。
【學(xué)位單位】:山西大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2018
【中圖分類】:TP181
【文章目錄】:中文摘要
ABSTRACT
符號說明
第一章 引言
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 基于誤差的數(shù)據(jù)質(zhì)量優(yōu)化方法
1.2.2 基于誤差的模型(參數(shù))優(yōu)化方法
1.3 本文的研究內(nèi)容和組織結(jié)構(gòu)
第二章 時差序列的數(shù)據(jù)分析
2.1 時差序列的研究現(xiàn)狀
2.1.1 時差序列的相關(guān)性分析
2.1.2 時差序列的距離度量
2.2 時差序列的相關(guān)性分析
2.2.1 相關(guān)系數(shù)的上下界
2.2.2 偽相關(guān)的統(tǒng)計特征
2.2.3 時差序列的相關(guān)性判別
2.2.4 實(shí)驗(yàn)結(jié)果與分析
2.3 時差序列的曲線排齊
2.3.1 曲線排齊優(yōu)化準(zhǔn)則及其求解算法
2.3.2 實(shí)驗(yàn)結(jié)果與分析
2.4 時差序列的距離度量
2.4.1 最大平移相關(guān)距離
2.4.2 二次距離
2.4.3 聚類結(jié)果與分析
2.5 本章小結(jié)
第三章 區(qū)間不敏感噪聲過濾
3.1 經(jīng)典過濾器的形式化分析
3.1.1 監(jiān)督學(xué)習(xí)中的噪聲和誤差
3.1.2 基于模型預(yù)測的過濾:假設(shè)與缺陷
3.1.3 基于集成的過濾
3.2 區(qū)間低噪聲定理
3.3 區(qū)間不敏感過濾
3.3.1 回歸中的區(qū)間不敏感過濾
3.3.2 分類問題的區(qū)間不敏感過濾
3.3.3 實(shí)驗(yàn)結(jié)果及分析
3.4 本章小結(jié)
第四章 基于誤差方差的交叉驗(yàn)證估計
4.1 誤差估計準(zhǔn)確性與穩(wěn)定性的關(guān)系
4.1.1 準(zhǔn)確性與穩(wěn)定性度量
4.1.2 期望絕對偏差與交叉驗(yàn)證方差的關(guān)系
4.1.3 假設(shè)和結(jié)論的驗(yàn)證
4.2 誤差方差及其影響因素
4.2.1 三種交叉驗(yàn)證方差
4.2.2 方差與各因素的關(guān)系
4.2.3 實(shí)驗(yàn)與分析
4.3 本章小結(jié)
第五章 面向序列數(shù)據(jù)的誤差估計
5.1 相關(guān)工作
5.2 Markov交叉驗(yàn)證
5.2.1 時間序列模型
5.2.2 序列數(shù)據(jù)的劃分準(zhǔn)則
5.2.3 Markov交叉驗(yàn)證算法
5.3 性質(zhì)分析與比較
5.3.1 M-CV的性質(zhì)
5.3.2 時序交叉驗(yàn)證的比較
5.4 對比實(shí)驗(yàn)及分析
5.4.1 數(shù)據(jù)、模型和評價準(zhǔn)則
5.4.2 交叉驗(yàn)證的表現(xiàn)
5.4.3 模型比較
5.5 本章小結(jié)
第六章 基于方向相似度的超參數(shù)優(yōu)化
6.1 準(zhǔn)備工作
6.2 超參數(shù)的方向相似度
6.2.1 分類中的方向相似度:從訓(xùn)練誤差到預(yù)測誤差
6.2.2 回歸/擬合中的方向相似度
6.2.3 密度估計中的方向相似度
6.2.4 聚類中的方向相似度
6.3 最小對稱相似準(zhǔn)則
6.3.1 假設(shè)
6.3.2 對稱方向相似度
6.3.3 最小對稱相似準(zhǔn)則
6.3.4 復(fù)雜度分析
6.4 實(shí)驗(yàn)結(jié)果與分析
6.4.1 SVC分類
6.4.2 SVR回歸
6.4.3 B樣條曲線擬合
6.4.4 核密度估計
6.4.5 密度峰值聚類
6.5 本章小結(jié)
結(jié)論及展望
參考文獻(xiàn)
攻讀博士學(xué)位期間取得的研究成果
致謝
個人簡況及聯(lián)系方式
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王銘軍;潘巧明;劉真;陳為;;可視數(shù)據(jù)清洗綜述[J];中國圖象圖形學(xué)報;2015年04期
2 姜高霞;王文劍;;時序數(shù)據(jù)曲線排齊的相關(guān)性分析方法[J];軟件學(xué)報;2014年09期
3 鄒朋成;王建東;楊國慶;張霞;王麗娜;;輔助信息自動生成的時間序列距離度量學(xué)習(xí)[J];軟件學(xué)報;2013年11期
4 宋金玉;陳爽;郭大鵬;王內(nèi)蒙;;數(shù)據(jù)質(zhì)量及數(shù)據(jù)清洗方法[J];指揮信息系統(tǒng)與技術(shù);2013年05期
5 龔書;瞿有利;田盛豐;;多文檔文摘語義單元自動去噪器的監(jiān)督學(xué)習(xí)方法[J];計算機(jī)研究與發(fā)展;2013年04期
6 曹瑩;苗啟廣;劉家辰;高琳;;AdaBoost算法研究進(jìn)展與展望[J];自動化學(xué)報;2013年06期
7 曹建軍;刁興春;陳爽;邵衍振;;數(shù)據(jù)清洗及其一般性系統(tǒng)框架[J];計算機(jī)科學(xué);2012年S3期
8 黃剛;袁滿;吳秀英;叢慧剛;;元數(shù)據(jù)驅(qū)動的數(shù)據(jù)質(zhì)量評估體系架構(gòu)研究[J];計算機(jī)工程與應(yīng)用;2013年08期
9 劉漢中;;基于自相關(guān)視角的弱平穩(wěn)過程之間的偽回歸分析[J];統(tǒng)計與信息論壇;2012年04期
10 王曉原;張敬磊;吳芳;;交通流數(shù)據(jù)清洗規(guī)則研究[J];計算機(jī)工程;2011年20期
本文編號:
2874738
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2874738.html