基于多元特征的微博被劫持賬戶檢測(cè)
發(fā)布時(shí)間:2021-12-30 17:55
微博作為一個(gè)擁有大量用戶的社交平臺(tái),其較大的影響力與開(kāi)放性吸引了攻擊者的目光。攻擊者會(huì)利用異常賬戶進(jìn)行網(wǎng)絡(luò)犯罪,對(duì)異常賬戶的檢測(cè)是維護(hù)社交網(wǎng)絡(luò)安全的重要途徑之一;诠粽叩某R(guī)行為以及正常用戶的行為特征,提出了一種微博中被劫持賬戶的檢測(cè)方法。該方法使用6個(gè)特征對(duì)用戶行為進(jìn)行分析,使用異常得分刻畫(huà)用戶行為的異常程度,使用傳統(tǒng)機(jī)器學(xué)習(xí)分類器檢測(cè)被劫持賬戶。為驗(yàn)證本文方法的有效性,采用了由復(fù)旦大學(xué)提供的公開(kāi)微博數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果表明,采用決策樹(shù)分類器時(shí),本文方法對(duì)被劫持賬戶的檢測(cè)精確率高達(dá)97. 5%。
【文章來(lái)源】:武漢大學(xué)學(xué)報(bào)(理學(xué)版). 2020,66(02)北大核心CSCD
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
被劫持賬戶檢測(cè)框架
發(fā)布時(shí)間特征為用戶發(fā)布消息的確切時(shí)間。本文假設(shè)多數(shù)用戶在一天中的某些相對(duì)固定的時(shí)間段內(nèi)較為活躍,而在其他時(shí)間段內(nèi)較為平靜,如果用戶在最不可能的時(shí)間發(fā)布消息,本文方法將其判定為異常。本文統(tǒng)計(jì)11 000個(gè)實(shí)驗(yàn)驗(yàn)本(詳見(jiàn)2.1節(jié))中用戶在各個(gè)時(shí)間段內(nèi)的消息總數(shù),得到用戶活躍時(shí)間段的累積分布函數(shù)(cumulative distribution function,CDF)(圖2)。本文將活躍時(shí)間段定義為:一個(gè)用戶在這些時(shí)間段內(nèi)發(fā)布消息的數(shù)量超過(guò)其一天中發(fā)布消息的總數(shù)量的一半。由圖2可以看出,約75%的用戶每天活躍的時(shí)間不大于7個(gè)小時(shí),因此在下文的正常閾值設(shè)定中,我們選擇用戶最為活躍的7個(gè)時(shí)間段作為正常閾值。當(dāng)一個(gè)用戶在其活躍的時(shí)間段內(nèi)發(fā)布消息,則認(rèn)為是該行為是正常的;如果用戶在其最不活躍的時(shí)間段內(nèi)突然活躍,則認(rèn)為其所發(fā)消息有一定的概率是異常的。2)發(fā)布消息主題特征
一般來(lái)說(shuō),用戶傾向于發(fā)布自己感興趣的內(nèi)容信息。例如,某用戶是一個(gè)籃球球迷,那么他發(fā)布的消息更有可能是體育類的,所以我們將以此為基準(zhǔn)來(lái)刻畫(huà)用戶的行為特征。實(shí)驗(yàn)中,將主題分為10類,分別是體育、財(cái)經(jīng)、房產(chǎn)、家居、教育、科技、時(shí)尚、時(shí)政、游戲和娛樂(lè)。本文統(tǒng)計(jì)了11 000個(gè)實(shí)驗(yàn)樣本(詳見(jiàn)2.1節(jié))中用戶消息的主題分類。如圖3所示,約85%的用戶特別感興趣的主題個(gè)數(shù)少于等于3個(gè),在下文的閾值選取中,將用戶最感興趣的3個(gè)主題設(shè)置為正常閾值,當(dāng)用戶發(fā)布消息主題不屬于其感興趣的范圍,本文方法將判定其行為是異常的。除此之外,微博還提供了熱門(mén)主題作為用戶討論的話題。用戶在發(fā)布討論此類話題的消息時(shí)會(huì)帶有符號(hào)“#”,“#”后就是話題。文獻(xiàn)[14]定義了一種垃圾郵件發(fā)送者的行為特征,即利用熱門(mén)話題,將不相干內(nèi)容帶一個(gè)熱門(mén)標(biāo)題,這樣可以利用話題的流行性吸引眼球,從而提高點(diǎn)擊量,使消息的擴(kuò)散效果更好。因此可利用標(biāo)簽與文本內(nèi)容的相似度特征,即用戶發(fā)布消息的標(biāo)題與文本主題不一致時(shí),本文方法亦將判定其行為是異常的。
【參考文獻(xiàn)】:
期刊論文
[1]在線社交網(wǎng)絡(luò)中異常帳號(hào)檢測(cè)方法研究[J]. 張玉清,呂少卿,范丹. 計(jì)算機(jī)學(xué)報(bào). 2015(10)
本文編號(hào):3558701
【文章來(lái)源】:武漢大學(xué)學(xué)報(bào)(理學(xué)版). 2020,66(02)北大核心CSCD
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
被劫持賬戶檢測(cè)框架
發(fā)布時(shí)間特征為用戶發(fā)布消息的確切時(shí)間。本文假設(shè)多數(shù)用戶在一天中的某些相對(duì)固定的時(shí)間段內(nèi)較為活躍,而在其他時(shí)間段內(nèi)較為平靜,如果用戶在最不可能的時(shí)間發(fā)布消息,本文方法將其判定為異常。本文統(tǒng)計(jì)11 000個(gè)實(shí)驗(yàn)驗(yàn)本(詳見(jiàn)2.1節(jié))中用戶在各個(gè)時(shí)間段內(nèi)的消息總數(shù),得到用戶活躍時(shí)間段的累積分布函數(shù)(cumulative distribution function,CDF)(圖2)。本文將活躍時(shí)間段定義為:一個(gè)用戶在這些時(shí)間段內(nèi)發(fā)布消息的數(shù)量超過(guò)其一天中發(fā)布消息的總數(shù)量的一半。由圖2可以看出,約75%的用戶每天活躍的時(shí)間不大于7個(gè)小時(shí),因此在下文的正常閾值設(shè)定中,我們選擇用戶最為活躍的7個(gè)時(shí)間段作為正常閾值。當(dāng)一個(gè)用戶在其活躍的時(shí)間段內(nèi)發(fā)布消息,則認(rèn)為是該行為是正常的;如果用戶在其最不活躍的時(shí)間段內(nèi)突然活躍,則認(rèn)為其所發(fā)消息有一定的概率是異常的。2)發(fā)布消息主題特征
一般來(lái)說(shuō),用戶傾向于發(fā)布自己感興趣的內(nèi)容信息。例如,某用戶是一個(gè)籃球球迷,那么他發(fā)布的消息更有可能是體育類的,所以我們將以此為基準(zhǔn)來(lái)刻畫(huà)用戶的行為特征。實(shí)驗(yàn)中,將主題分為10類,分別是體育、財(cái)經(jīng)、房產(chǎn)、家居、教育、科技、時(shí)尚、時(shí)政、游戲和娛樂(lè)。本文統(tǒng)計(jì)了11 000個(gè)實(shí)驗(yàn)樣本(詳見(jiàn)2.1節(jié))中用戶消息的主題分類。如圖3所示,約85%的用戶特別感興趣的主題個(gè)數(shù)少于等于3個(gè),在下文的閾值選取中,將用戶最感興趣的3個(gè)主題設(shè)置為正常閾值,當(dāng)用戶發(fā)布消息主題不屬于其感興趣的范圍,本文方法將判定其行為是異常的。除此之外,微博還提供了熱門(mén)主題作為用戶討論的話題。用戶在發(fā)布討論此類話題的消息時(shí)會(huì)帶有符號(hào)“#”,“#”后就是話題。文獻(xiàn)[14]定義了一種垃圾郵件發(fā)送者的行為特征,即利用熱門(mén)話題,將不相干內(nèi)容帶一個(gè)熱門(mén)標(biāo)題,這樣可以利用話題的流行性吸引眼球,從而提高點(diǎn)擊量,使消息的擴(kuò)散效果更好。因此可利用標(biāo)簽與文本內(nèi)容的相似度特征,即用戶發(fā)布消息的標(biāo)題與文本主題不一致時(shí),本文方法亦將判定其行為是異常的。
【參考文獻(xiàn)】:
期刊論文
[1]在線社交網(wǎng)絡(luò)中異常帳號(hào)檢測(cè)方法研究[J]. 張玉清,呂少卿,范丹. 計(jì)算機(jī)學(xué)報(bào). 2015(10)
本文編號(hào):3558701
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3558701.html
最近更新
教材專著