基于圖計(jì)算的用戶行為建模關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2022-01-20 09:22
社交網(wǎng)絡(luò)、網(wǎng)絡(luò)通信等平臺(tái)現(xiàn)在已經(jīng)成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧H欢恍⿶阂庥脩敉ㄟ^(guò)不法手段進(jìn)行的惡意行為給正常用戶帶來(lái)了巨大的不便和潛在的危險(xiǎn);趫D論的用戶異常行為建模分析技術(shù)已經(jīng)逐漸成為國(guó)內(nèi)外學(xué)術(shù)界的研究熱點(diǎn),本文針對(duì)靜態(tài)圖和動(dòng)態(tài)圖模型的兩類異常行為檢測(cè)問(wèn)題進(jìn)行分析建模,提出解決方案并通過(guò)實(shí)驗(yàn)驗(yàn)證提出算法的有效性和擴(kuò)展性,具體內(nèi)容如下:(1)針對(duì)靜態(tài)圖模型的異常檢測(cè)問(wèn)題,提出了一種基于分類樹的、無(wú)監(jiān)督的異常檢測(cè)算法KD-Forest。該算法提取基于圖結(jié)構(gòu)信息的多維特征,使用KD樹構(gòu)造分類樹,通過(guò)Bagging方法選取特征提高隨機(jī)性。通過(guò)對(duì)超過(guò)十萬(wàn)個(gè)節(jié)點(diǎn)的真實(shí)社交網(wǎng)絡(luò)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),驗(yàn)證算法具有較好的擴(kuò)展性,本方案相較于現(xiàn)有的相關(guān)的分類算法在時(shí)間效率和空間復(fù)雜度上有較高的提升,且在準(zhǔn)確率和ROC值上有較好的表現(xiàn)。(2)針對(duì)動(dòng)態(tài)圖模型的異常檢測(cè)問(wèn)題,提出了一種基于LSTM的時(shí)間序列異常時(shí)間點(diǎn)檢測(cè)算法。提出了一種基于圖距離的相似性特征度量方案,具體包括圖結(jié)構(gòu)距離和圖編輯距離兩大類,使用特征值訓(xùn)練分類模型進(jìn)行異常檢測(cè)。通過(guò)對(duì)超過(guò)百萬(wàn)條的網(wǎng)絡(luò)IP數(shù)據(jù)流分類進(jìn)行入侵檢測(cè),驗(yàn)證本方案的可行...
【文章來(lái)源】:南京郵電大學(xué)江蘇省
【文章頁(yè)數(shù)】:55 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
高度為5的KD樹劃分情況
士研究生學(xué)位論文 第三章 基于圖的無(wú)監(jiān)督 KD-Forest 異常評(píng)價(jià)依據(jù),這是根據(jù)異常點(diǎn)易于劃分的特點(diǎn)進(jìn)行評(píng)價(jià),具體的算法流數(shù)據(jù)集中隨機(jī)抽樣得到樣本集 (每個(gè)樣本集樣本數(shù)量 n≤N,N 為訓(xùn)練 M 個(gè)特征中,隨機(jī)選取 K 維特征,并從中選取方差最大的特征作為分取一個(gè)劃分值 p。劃分值 p(可以使用三點(diǎn)中值法或均值)作為劃分超平面將數(shù)據(jù)空間劃值小于 p 的作為當(dāng)前節(jié)點(diǎn)的左子樹,特征值大于 p 的作為當(dāng)前節(jié)點(diǎn)的復(fù)步驟 2 和 3 不斷選取特征和劃分值、構(gòu)造新的子節(jié)點(diǎn),直至樣本完全 或樣本完全劃分。復(fù)步驟 1-4 建立多個(gè) KD 劃分樹,構(gòu)成 KD 樹森林算測(cè)試集在森林中高度的均值與閾值作比較得出異常分類。
使用人工合成數(shù)據(jù) Synthetic 生成不同節(jié)點(diǎn)數(shù)的小世界網(wǎng)絡(luò)拓?fù)鋱D,對(duì) LO本文提出的算法作比較,實(shí)驗(yàn)結(jié)果見(jiàn)表 3.3。LOF 算法的平均分類準(zhǔn)確度均低于本文提出的算法,同時(shí)由于 LOF 算法是一種基于距離的不需要提前測(cè)算法,但是其時(shí)間復(fù)雜度為O( )同時(shí)與選取的k距離參數(shù)有很大關(guān)系(見(jiàn)0 個(gè)節(jié)點(diǎn)的小型網(wǎng)絡(luò)其計(jì)算時(shí)間就需要近 10 分鐘,因此這種基于距離的異大型的網(wǎng)絡(luò)圖模型,因此本文對(duì)于節(jié)點(diǎn)數(shù)目較多的數(shù)據(jù)集并未使用 LOF 算表 3.3 LOF 算法與本文算法比較Synthetic LOF GBKD-Fore節(jié)點(diǎn)數(shù) 1000 2000 3000 4000 5000 平均 10000Precision 0.847 0.844 0.841 0.851 0.847 0.846 0.952Accuracy 0.822 0.818 0.816 0.819 0.818 0.819 0.954F1 0.762 0.749 0.741 0.704 0.784 0.748 0.96AUC 0.712 0.704 0.705 0.702 0.696 0.704 0.940
【參考文獻(xiàn)】:
期刊論文
[1]人工蜂群優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)在入侵檢測(cè)中的應(yīng)用[J]. 沈夏炯,王龍,韓道軍. 計(jì)算機(jī)工程. 2016(02)
[2]基于多尺度時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)的人群異常檢測(cè)[J]. 蔡瑞初,謝偉浩,郝志峰,王麗娟,溫雯. 軟件學(xué)報(bào). 2015(11)
[3]基于決策樹與樸素貝葉斯分類的入侵檢測(cè)模型[J]. 姚濰,王娟,張勝利. 計(jì)算機(jī)應(yīng)用. 2015(10)
[4]時(shí)間序列異常點(diǎn)及突變點(diǎn)的檢測(cè)算法[J]. 蘇衛(wèi)星,朱云龍,劉芳,胡琨元. 計(jì)算機(jī)研究與發(fā)展. 2014(04)
[5]基于shell命令和Markov鏈模型的用戶行為異常檢測(cè)[J]. 田新廣,孫春來(lái),段洣毅. 電子與信息學(xué)報(bào). 2007(11)
博士論文
[1]社交媒體復(fù)雜行為分析與建模[D]. 蔣朦.清華大學(xué) 2015
本文編號(hào):3598572
【文章來(lái)源】:南京郵電大學(xué)江蘇省
【文章頁(yè)數(shù)】:55 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
高度為5的KD樹劃分情況
士研究生學(xué)位論文 第三章 基于圖的無(wú)監(jiān)督 KD-Forest 異常評(píng)價(jià)依據(jù),這是根據(jù)異常點(diǎn)易于劃分的特點(diǎn)進(jìn)行評(píng)價(jià),具體的算法流數(shù)據(jù)集中隨機(jī)抽樣得到樣本集 (每個(gè)樣本集樣本數(shù)量 n≤N,N 為訓(xùn)練 M 個(gè)特征中,隨機(jī)選取 K 維特征,并從中選取方差最大的特征作為分取一個(gè)劃分值 p。劃分值 p(可以使用三點(diǎn)中值法或均值)作為劃分超平面將數(shù)據(jù)空間劃值小于 p 的作為當(dāng)前節(jié)點(diǎn)的左子樹,特征值大于 p 的作為當(dāng)前節(jié)點(diǎn)的復(fù)步驟 2 和 3 不斷選取特征和劃分值、構(gòu)造新的子節(jié)點(diǎn),直至樣本完全 或樣本完全劃分。復(fù)步驟 1-4 建立多個(gè) KD 劃分樹,構(gòu)成 KD 樹森林算測(cè)試集在森林中高度的均值與閾值作比較得出異常分類。
使用人工合成數(shù)據(jù) Synthetic 生成不同節(jié)點(diǎn)數(shù)的小世界網(wǎng)絡(luò)拓?fù)鋱D,對(duì) LO本文提出的算法作比較,實(shí)驗(yàn)結(jié)果見(jiàn)表 3.3。LOF 算法的平均分類準(zhǔn)確度均低于本文提出的算法,同時(shí)由于 LOF 算法是一種基于距離的不需要提前測(cè)算法,但是其時(shí)間復(fù)雜度為O( )同時(shí)與選取的k距離參數(shù)有很大關(guān)系(見(jiàn)0 個(gè)節(jié)點(diǎn)的小型網(wǎng)絡(luò)其計(jì)算時(shí)間就需要近 10 分鐘,因此這種基于距離的異大型的網(wǎng)絡(luò)圖模型,因此本文對(duì)于節(jié)點(diǎn)數(shù)目較多的數(shù)據(jù)集并未使用 LOF 算表 3.3 LOF 算法與本文算法比較Synthetic LOF GBKD-Fore節(jié)點(diǎn)數(shù) 1000 2000 3000 4000 5000 平均 10000Precision 0.847 0.844 0.841 0.851 0.847 0.846 0.952Accuracy 0.822 0.818 0.816 0.819 0.818 0.819 0.954F1 0.762 0.749 0.741 0.704 0.784 0.748 0.96AUC 0.712 0.704 0.705 0.702 0.696 0.704 0.940
【參考文獻(xiàn)】:
期刊論文
[1]人工蜂群優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)在入侵檢測(cè)中的應(yīng)用[J]. 沈夏炯,王龍,韓道軍. 計(jì)算機(jī)工程. 2016(02)
[2]基于多尺度時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)的人群異常檢測(cè)[J]. 蔡瑞初,謝偉浩,郝志峰,王麗娟,溫雯. 軟件學(xué)報(bào). 2015(11)
[3]基于決策樹與樸素貝葉斯分類的入侵檢測(cè)模型[J]. 姚濰,王娟,張勝利. 計(jì)算機(jī)應(yīng)用. 2015(10)
[4]時(shí)間序列異常點(diǎn)及突變點(diǎn)的檢測(cè)算法[J]. 蘇衛(wèi)星,朱云龍,劉芳,胡琨元. 計(jì)算機(jī)研究與發(fā)展. 2014(04)
[5]基于shell命令和Markov鏈模型的用戶行為異常檢測(cè)[J]. 田新廣,孫春來(lái),段洣毅. 電子與信息學(xué)報(bào). 2007(11)
博士論文
[1]社交媒體復(fù)雜行為分析與建模[D]. 蔣朦.清華大學(xué) 2015
本文編號(hào):3598572
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3598572.html
最近更新
教材專著