面向流式數(shù)據(jù)的演化式預(yù)測技術(shù)研究
發(fā)布時間:2022-10-20 18:31
近年來,隨著信息科技的發(fā)展,數(shù)據(jù)的累積正在飛速的發(fā)展,使得機器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域也得到了飛速的發(fā)展。然而,越來越多的數(shù)據(jù)是以流式數(shù)據(jù)出現(xiàn)的。與傳統(tǒng)批數(shù)據(jù)不同,流數(shù)據(jù)具有速度快,數(shù)據(jù)量大,不可再現(xiàn),有序等特點,使得傳統(tǒng)的批處理預(yù)測技術(shù)不太適合這些流數(shù)據(jù)。面對數(shù)據(jù)流出現(xiàn)的各種特點,本文研究的內(nèi)容是面向數(shù)據(jù)流的演化式預(yù)測技術(shù)。增量學(xué)習(xí)主要是針對流式數(shù)據(jù)的一種技術(shù),當(dāng)數(shù)據(jù)流源源不斷到來時,原來的學(xué)習(xí)模型隨著新數(shù)據(jù)的到來進行調(diào)整,模型參數(shù)也隨之變化。概念漂移是數(shù)據(jù)流的特點之一,這也是現(xiàn)如今數(shù)據(jù)流挖掘領(lǐng)域最大的挑戰(zhàn)之一。當(dāng)數(shù)據(jù)流逐漸發(fā)生概念漂移時,由于數(shù)據(jù)分布發(fā)生變化,其學(xué)習(xí)模型對于數(shù)據(jù)流的預(yù)測性能慢慢下降。故需要能夠及時探測其是否發(fā)生概念漂移,然后對模型進行調(diào)整和訓(xùn)練,之后再進行動態(tài)數(shù)據(jù)流的預(yù)測。本文針對數(shù)據(jù)流中概念漂移的發(fā)生,概述目前已有的探測與解決方法。然后針對該研究所面臨的問題,提出本文的研究課題。針對稠密的數(shù)據(jù)流,本文提出一種基于無限的,高速的,時間變化的數(shù)據(jù)流,能夠增量地學(xué)習(xí)數(shù)據(jù)流的競爭集成算法。該算法集成兩棵增量模型樹FIMT-DD,基模型FIMT-DD是一個時間變化學(xué)習(xí)數(shù)據(jù)流的算法...
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 數(shù)據(jù)挖掘的研究現(xiàn)狀
1.2.2 數(shù)據(jù)流的研究現(xiàn)狀
1.2.3 面對概念漂移的研究現(xiàn)狀
1.3 本文主要研究內(nèi)容
1.4 本文組織結(jié)構(gòu)
第2章 相關(guān)技術(shù)基礎(chǔ)
2.1 批處理機器學(xué)習(xí)
2.1.1 機器學(xué)習(xí)基礎(chǔ)
2.1.2 分類和回歸
2.1.3 決策樹
2.1.4 邏輯回歸
2.2 流處理學(xué)習(xí)
2.2.1 流數(shù)據(jù)基本概念
2.2.2 增量支持向量機
2.2.3 霍夫丁樹
2.2.4 增量模型樹
2.2.5 在線bagging和 boosting
2.3 概念漂移
2.3.1 概念漂移基礎(chǔ)
2.3.2 概念漂移探測
2.3.3 處理概念漂移
2.4 最優(yōu)化算法
2.4.1 梯度下降
2.4.2 批梯度下降
2.4.3 在線梯度下降
2.5 本章小結(jié)
第3章 基于滑動窗口的競爭集成模型
3.1 引言
3.2 問題描述與解決思路
3.2.1 問題描述
3.2.2 解決思路
3.3 競爭集成算法的構(gòu)造
3.3.1 FIMT-DD樹
3.3.2 競爭集成算法
3.4 實驗與分析
3.4.1 實驗步驟
3.4.2 實驗結(jié)果與分析
3.5 本章小結(jié)
第4章 基于稀疏數(shù)據(jù)流的預(yù)測算法
4.1 引言
4.2 稀疏數(shù)據(jù)流算法的引入
4.2.1 正則化
4.2.2 截斷與梯度截斷
4.2.3 前后項分裂算法
4.2.4 RDA算法
4.2.5 FTRL算法
4.3 稀疏數(shù)據(jù)流算法FTRL的改進
4.3.1 概念漂移探測PHW測試
4.3.2 概念漂移FTRL_PHW算法
4.4 實驗與分析
4.4.1 超平面仿真數(shù)據(jù)集
4.4.2 參數(shù)的設(shè)定和評估指標(biāo)
4.4.3 實驗結(jié)果
4.5 基于概念漂移的學(xué)習(xí)率適應(yīng)
4.6 本章小結(jié)
結(jié)論
參考文獻
附錄A 攻讀學(xué)位期間所發(fā)表的學(xué)術(shù)論文和專利
附錄B 攻讀學(xué)位期間所參與的科研活動
致謝
【參考文獻】:
期刊論文
[1]一種基于深度屬性加權(quán)的數(shù)據(jù)流自適應(yīng)集成分類算法[J]. 李堯,王志海,孫艷歌,張偉. 山東大學(xué)學(xué)報(工學(xué)版). 2018(06)
[2]新型含噪數(shù)據(jù)流集成分類的算法[J]. 袁泉,郭江帆. 計算機應(yīng)用. 2018(06)
[3]基于聚類假設(shè)的數(shù)據(jù)流分類算法[J]. 李南. 模式識別與人工智能. 2017(01)
[4]一種基于雙層窗口的概念漂移數(shù)據(jù)流分類算法[J]. 朱群,張玉紅,胡學(xué)鋼,李培培. 自動化學(xué)報. 2011(09)
[5]IKnnM-DHecoc:一種解決概念漂移問題的方法[J]. 辛軼,郭躬德,陳黎飛,畢亞新. 計算機研究與發(fā)展. 2011(04)
[6]基于可信多數(shù)投票的快速概念漂移檢測[J]. 文益民,王耀南,張瑩. 湖南大學(xué)學(xué)報(自然科學(xué)版). 2010(06)
[7]一種挖掘概念漂移數(shù)據(jù)流的選擇性集成算法[J]. 關(guān)菁華,劉大有. 計算機科學(xué). 2010(01)
碩士論文
[1]高維稀疏數(shù)據(jù)的相關(guān)性度量方法研究[D]. 劉帥.首都經(jīng)濟貿(mào)易大學(xué) 2014
本文編號:3695085
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 數(shù)據(jù)挖掘的研究現(xiàn)狀
1.2.2 數(shù)據(jù)流的研究現(xiàn)狀
1.2.3 面對概念漂移的研究現(xiàn)狀
1.3 本文主要研究內(nèi)容
1.4 本文組織結(jié)構(gòu)
第2章 相關(guān)技術(shù)基礎(chǔ)
2.1 批處理機器學(xué)習(xí)
2.1.1 機器學(xué)習(xí)基礎(chǔ)
2.1.2 分類和回歸
2.1.3 決策樹
2.1.4 邏輯回歸
2.2 流處理學(xué)習(xí)
2.2.1 流數(shù)據(jù)基本概念
2.2.2 增量支持向量機
2.2.3 霍夫丁樹
2.2.4 增量模型樹
2.2.5 在線bagging和 boosting
2.3 概念漂移
2.3.1 概念漂移基礎(chǔ)
2.3.2 概念漂移探測
2.3.3 處理概念漂移
2.4 最優(yōu)化算法
2.4.1 梯度下降
2.4.2 批梯度下降
2.4.3 在線梯度下降
2.5 本章小結(jié)
第3章 基于滑動窗口的競爭集成模型
3.1 引言
3.2 問題描述與解決思路
3.2.1 問題描述
3.2.2 解決思路
3.3 競爭集成算法的構(gòu)造
3.3.1 FIMT-DD樹
3.3.2 競爭集成算法
3.4 實驗與分析
3.4.1 實驗步驟
3.4.2 實驗結(jié)果與分析
3.5 本章小結(jié)
第4章 基于稀疏數(shù)據(jù)流的預(yù)測算法
4.1 引言
4.2 稀疏數(shù)據(jù)流算法的引入
4.2.1 正則化
4.2.2 截斷與梯度截斷
4.2.3 前后項分裂算法
4.2.4 RDA算法
4.2.5 FTRL算法
4.3 稀疏數(shù)據(jù)流算法FTRL的改進
4.3.1 概念漂移探測PHW測試
4.3.2 概念漂移FTRL_PHW算法
4.4 實驗與分析
4.4.1 超平面仿真數(shù)據(jù)集
4.4.2 參數(shù)的設(shè)定和評估指標(biāo)
4.4.3 實驗結(jié)果
4.5 基于概念漂移的學(xué)習(xí)率適應(yīng)
4.6 本章小結(jié)
結(jié)論
參考文獻
附錄A 攻讀學(xué)位期間所發(fā)表的學(xué)術(shù)論文和專利
附錄B 攻讀學(xué)位期間所參與的科研活動
致謝
【參考文獻】:
期刊論文
[1]一種基于深度屬性加權(quán)的數(shù)據(jù)流自適應(yīng)集成分類算法[J]. 李堯,王志海,孫艷歌,張偉. 山東大學(xué)學(xué)報(工學(xué)版). 2018(06)
[2]新型含噪數(shù)據(jù)流集成分類的算法[J]. 袁泉,郭江帆. 計算機應(yīng)用. 2018(06)
[3]基于聚類假設(shè)的數(shù)據(jù)流分類算法[J]. 李南. 模式識別與人工智能. 2017(01)
[4]一種基于雙層窗口的概念漂移數(shù)據(jù)流分類算法[J]. 朱群,張玉紅,胡學(xué)鋼,李培培. 自動化學(xué)報. 2011(09)
[5]IKnnM-DHecoc:一種解決概念漂移問題的方法[J]. 辛軼,郭躬德,陳黎飛,畢亞新. 計算機研究與發(fā)展. 2011(04)
[6]基于可信多數(shù)投票的快速概念漂移檢測[J]. 文益民,王耀南,張瑩. 湖南大學(xué)學(xué)報(自然科學(xué)版). 2010(06)
[7]一種挖掘概念漂移數(shù)據(jù)流的選擇性集成算法[J]. 關(guān)菁華,劉大有. 計算機科學(xué). 2010(01)
碩士論文
[1]高維稀疏數(shù)據(jù)的相關(guān)性度量方法研究[D]. 劉帥.首都經(jīng)濟貿(mào)易大學(xué) 2014
本文編號:3695085
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3695085.html
最近更新
教材專著