流數據在線異常檢測方法研究
本文關鍵詞:流數據在線異常檢測方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著現代信息技術的飛速發(fā)展,數據每天或每小時以百萬級的速度產生且呈現出爆炸式增長,大數據時代的到來給數據的實時在線處理及應用帶來了前所未有的挑戰(zhàn)。在這些持續(xù)產生的海量數據中,大部分是正常的信息價值不大,然而存在著小部分數據,卻蘊含著更值得關注的信息和更大的價值。從海量數據中挖掘小部分不同數據的活動,稱為異常檢測,類似于從金礦中發(fā)現金子的過程,具有很大的研究意義和應用價值。然而,在大數據時代,流數據的海量、持續(xù)產生及動態(tài)特性使得傳統(tǒng)的方法不能很好地適應實時環(huán)境下的異常檢測。本文分析流數據的特點和處理流數據面臨的挑戰(zhàn),研究并提出流數據的在線異常檢測方法;并結合具體的流數據產生的應用場景,如無線傳感器網絡(Wireless Sensor Networks,WSNs),考慮網絡拓撲結構特征和資源約束,提出適應于特定應用場景的流數據異常檢測算法。本文的主要工作概括如下:首先,考慮流數據的在線處理需求,在分析現有方法的基礎上,從異常數據的“少且不同”的本質特征出發(fā),研究了基于隔離的異常檢測算法。針對流數據的動態(tài)變化特性,引入在線集成學習理論,提出基于在線集成學習和隔離機制的流數據異常檢測算法。該算法基于歷史數據學習初始檢測模型,在異常檢測中能實時地在線更新模型,從而適應流數據的分布動態(tài)變化。在真實數據集的仿真實驗結果表明,該算法在流數據異常檢測方面具有較好的效果。在上述提出算法的基礎上,進一步分析了算法中異常檢測器的產生機制,發(fā)現采用隨機機制構造檢測器存在集成個體較多的缺點,引入統(tǒng)計直方圖機制和滑動窗口機制,提出了基于統(tǒng)計直方圖的在線自適應異常檢測算法。同時研究了三個關鍵參數(窗口尺度、集成規(guī)模及統(tǒng)計直方圖條目數)對算法性能的影響。仿真實驗結果表明,該算法能適應在線的環(huán)境,和現有的基于流數據的在線異常檢測算法相比具有一定的優(yōu)勢。其次,進一步探索屬性值空間隔離機制,針對基于超格異常檢測方法中存在的搜索鄰域空間大而造成算法運行時間長的問題,對原始定義的超格結構一階搜索鄰域進行了優(yōu)化并重新定義了一階搜索鄰域,給出了基于改進超格鄰域的異常檢測啟發(fā)式規(guī)則。進一步考慮到在構建超格時,獲取最優(yōu)超格結構相對困難且流數據的動態(tài)變化特性,由于在線集成學習能很好地應對動態(tài)環(huán)境且能顯著提高學習的泛化能力,提出了基于超格的在線集成異常檢測算法,通過構建不同的超格結構的個體檢測器來獲得集成檢測器。在模擬數據集和真實數據集上的仿真實驗結果驗證了該方法的有效性。再次,考慮到流數據的產生和應用的具體環(huán)境,針對無線傳感網絡中的流數據處理和應用問題,研究了無線傳感網絡環(huán)境中流數據的異常檢測方法。在分析無線傳感網絡拓撲結構及其自組織特征基礎上,探索了網絡節(jié)點感知數據的時空關聯特性,提出了一種分布式集成異常檢測算法。算法的分布式特性使得網絡節(jié)點資源耗費均勻,避免了數據通信過程中的資源瓶頸問題,延長了網絡生命周期。進一步,考慮到在無線傳感器網絡中,相對于感知數據的計算和存儲,數據的無線傳輸耗費的能量相當巨大,因此如何盡可能減少數據的傳輸量對網絡的應用至關重要。在上述研究的基礎上,考慮到集成學習雖然能帶來較好的泛化性能,但在具體無線傳感網絡應用中,節(jié)點之間傳遞多個檢測器將會造成通信量增加,引入集成剪枝理論和生物地理學優(yōu)化算法,對初始集成進行剪枝處理,提出了資源約束環(huán)境下無線傳感網絡中流數據的異常檢測算法。仿真實驗結果表明,剪枝后的算法減少了通信代價,能適應于實際的應用需求。最后,基于上述研究的成果,在智慧車聯網中,為了及時發(fā)現城市出租車繞行的不文明現象,對實時獲得的出租車車載GPS數據進行了在線分析,基于超格理論提出了映射軌跡概念并設計基于超格的異常路徑檢測算法對行車軌跡進行實時判斷,識別出租車繞行,及時發(fā)現不文明的出租車宰客現象。在真實的出租車行車軌跡數據集上的實驗表明,提出的算法有一定的實用性,能實時發(fā)現出租車繞行或宰客現象,為城市文明監(jiān)督和執(zhí)法提供輔助決策依據。
【關鍵詞】:流數據 異常檢測 在線集成學習 隔離規(guī)則 超格空間 資源約束 集成剪枝 無線傳感網絡 出租車繞行
【學位授予單位】:上海大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP311.13
【目錄】:
- 摘要6-8
- ABSTRACT8-15
- 第一章 緒論15-27
- 1.1 引言15-16
- 1.2 流數據異常檢測及面臨的挑戰(zhàn)16-18
- 1.3 異常檢測的國內外研究進展與現狀18-23
- 1.3.1 異常檢測方法研究進展與現狀18-19
- 1.3.2 流數據異常檢測方法進展19-21
- 1.3.3 WSNs中異常檢測方法研究21-23
- 1.4 本文的主要工作和創(chuàng)新23-25
- 1.5 論文的架構及章節(jié)安排25-27
- 第二章 基于隔離機制和在線集成學習的流數據異常檢測方法27-45
- 2.1 引言27
- 2.2 預備知識27-31
- 2.2.1 基于隔離的異常檢測27-29
- 2.2.2 集成學習理論29-31
- 2.3 基于隔離和在線集成學習的算法描述31-38
- 2.3.1 實例-基于隔離的異常檢測31-32
- 2.3.2 算法框架32-33
- 2.3.3 算法描述及異常判斷33-35
- 2.3.4 算法理論分析35-36
- 2.3.5 算法復雜度分析36-38
- 2.4 仿真實驗和算法性能分析38-44
- 2.4.1 數據集38-39
- 2.4.2 算法參數設置和性能評估指標39-42
- 2.4.3 仿真實驗和算法性能分析42-44
- 2.5 本章小結44-45
- 第三章 基于統(tǒng)計直方圖的自適應流數據異常檢測方法45-68
- 3.1 引言45
- 3.2 預備知識45-49
- 3.2.1 滑動窗口(Sliding Window, SW)模型45-47
- 3.2.2 統(tǒng)計直方圖及條目數選擇47-49
- 3.3 基于統(tǒng)計直方圖的在線流數據異常檢測算法49-57
- 3.3.1 流數據滑動窗口機制及異常檢測50-51
- 3.3.2 在線自適應異常檢測框架51-53
- 3.3.3 基于隔離值選擇的隔離樹構造53-54
- 3.3.4 AHIForest異常檢測算法54-57
- 3.3.5 算法復雜度分析57
- 3.4 仿真實驗和算法性能評估57-67
- 3.4.1. 數據集處理58-59
- 3.4.2 算法參數設置和性能評估指標59
- 3.4.3 算法仿真實驗驗證和性能分析59-67
- 3.5 本章小結67-68
- 第四章 基于集成超格的流數據異常檢測方法68-88
- 4.1 引言68
- 4.2 超格空間結構及建模68-71
- 4.2.1 格的相關知識68-70
- 4.2.2 超格結構建模70-71
- 4.3 基于超格集成的流數據異常檢測算法研究71-78
- 4.3.1 超格模型及其改進71-73
- 4.3.2 基于超格的在線異常檢測算法73-75
- 4.3.3 參數估計方法75-77
- 4.3.4 基于集成的超格異常檢測算法77
- 4.3.5 算法復雜度分析77-78
- 4.4 仿真實驗和算法性能評估78-86
- 4.4.1 數據集78-79
- 4.4.2 性能評估指標79-80
- 4.4.3 結果分析80-86
- 4.5 本章小結86-88
- 第五章 考慮無線傳感網節(jié)點數據時空關聯特性的分布式流數據異常檢測方法88-105
- 5.1 引言88
- 5.2 WSNs分布式異常檢測方法88-96
- 5.2.1 問題描述88-90
- 5.2.2 WSNs節(jié)點傳感流數據時空關聯分析90-91
- 5.2.3 考慮時空關聯的分布式WSNs流數據異常檢測算法91-93
- 5.2.4 基于網絡結構的分布式隔離異常檢測方法93-96
- 5.2.5 算法復雜度分析96
- 5.3 仿真實驗及算法性能分析96-104
- 5.3.1 數據集97-99
- 5.3.2 數據預處理及性能評價指標99
- 5.3.3 仿真實驗結果和算法評價99-104
- 5.4 本章小結104-105
- 第六章 基于集成剪枝優(yōu)化的無線傳感網分布式流數據異常檢測方法105-122
- 6.1 引言105
- 6.2 預備知識105-108
- 6.2.1 無線傳感網絡模型105-106
- 6.2.2 BBO算法及集成剪枝106-108
- 6.3 基于BBO優(yōu)化的分布式流數據異常檢測算法108-115
- 6.3.1 基于BBO集成剪枝算法框架108-109
- 6.3.2 基于BBO優(yōu)化方法的集成剪枝109-111
- 6.3.3 節(jié)省通信資源的矩陣編碼方法111-113
- 6.3.4 集成剪枝的理論分析113-115
- 6.4 仿真實驗和算法性能分析115-121
- 6.4.1 數據集和數據預處理115-118
- 6.4.2 算法性能評估和BBO參數118
- 6.4.3 算法性能分析118-121
- 6.5 本章小結121-122
- 第七章 流數據異常檢測方法在智慧車聯網中的應用122-133
- 7.1 引言122-123
- 7.2 出租車行車軌跡異常檢測123-126
- 7.2.1 問題描述及意義123-124
- 7.2.2 出租車運行路線異常檢測124-126
- 7.3 基于超格的軌跡異常算法研究126-131
- 7.3.1 算法設計126-130
- 7.3.2 結果分析及討論130-131
- 7.4 本章小結131-133
- 第八章 總結與展望133-136
- 8.1 全文總結133-134
- 8.2 進一步工作展望134-136
- 參考文獻136-147
- 攻讀博士學位期間公開發(fā)表的學術論文147-149
- 攻讀博士學位期間參加的科研項目及學術工作149-150
- 項目研究149
- 學術工作149-150
- 致謝150-151
【參考文獻】
中國期刊全文數據庫 前10條
1 Zhi-Guo Ding;Da-Jun Du;Min-Rui Fei;;An Isolation Principle Based Distributed Anomaly Detection Method in Wireless Sensor Networks[J];International Journal of Automation and Computing;2015年04期
2 賀靜波;萬磊;霍超;常青;;高壓直流輸電非典型工況下過電壓異常風險分析[J];電網技術;2014年12期
3 余南華;李蘭芳;王玲;楊洪耕;譚丹;;基于云模型的諧波電流異常檢測[J];中國電機工程學報;2014年25期
4 李文鋒;王隆進;姚道金;喻恒;;基于運動特征分析的人體異常行為模糊識別[J];華中科技大學學報(自然科學版);2014年07期
5 王磊;謝樹果;蘇東林;王國玉;;基于時間序列分析的頻譜異常自主檢測和穩(wěn)健估計方法[J];電子學報;2014年06期
6 丁智國;費敏銳;馬海平;;一種基于生物地理學優(yōu)化算法的集成選擇方法[J];系統(tǒng)仿真學報;2014年05期
7 李輝;楊超;李學偉;季海婷;秦星;陳耀君;楊東;唐顯虎;;風機電動變槳系統(tǒng)狀態(tài)特征參量挖掘及異常識別[J];中國電機工程學報;2014年12期
8 蘇衛(wèi)星;朱云龍;劉芳;胡琨元;;時間序列異常點及突變點的檢測算法[J];計算機研究與發(fā)展;2014年04期
9 張德干;趙晨鵬;李光;明學超;鄭可;;一種基于前向感知因子的WSN能量均衡路由方法[J];電子學報;2014年01期
10 陸悠;李偉;羅軍舟;蔣健;夏怒;;一種基于選擇性協同學習的網絡用戶異常行為檢測方法[J];計算機學報;2014年01期
本文關鍵詞:流數據在線異常檢測方法研究,由筆耕文化傳播整理發(fā)布。
,本文編號:259017
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/259017.html