基于集成學(xué)習(xí)的非平衡惡意文本檢測
發(fā)布時間:2021-07-10 14:56
隨著計算機技術(shù)與人類日常生活相互滲透得日益緊密,NLP(Natural Language Processing)技術(shù)在計算機和人類活動生產(chǎn)之間漸漸扮演起了語言橋梁的角色,借助自然語言處理技術(shù)可以打破計算機處理和人類序列語言之間的隔閡,代替或輔助人類處理日常關(guān)于字符語言的任務(wù),諸如文本分類,語種轉(zhuǎn)譯,詞性標(biāo)注等,并在其中取得了極其優(yōu)異的成果。但在互聯(lián)網(wǎng)的海量文本數(shù)據(jù)中,不乏有一部分惡意文本,其數(shù)量與正常文本相比是極不均衡的,僅依靠人工識別難度較高,就需要引入NLP領(lǐng)域的惡意文本檢測技術(shù),來對文本的性質(zhì)進(jìn)行解析分類。考慮到惡意文本檢測存在的數(shù)據(jù)分布非均衡問題,本論文從非均衡數(shù)據(jù)分類的角度對惡意文本檢測進(jìn)行研究,即實質(zhì)上是非均衡文本分類問題。對于文本數(shù)據(jù)雜亂、類別不均衡的數(shù)據(jù)集,已有的用于文本分類的方法并不能很好地應(yīng)用于這類數(shù)據(jù)集中,極大地限制了文本分類技術(shù)在實際問題中的應(yīng)用。故本文的主要目的就是研究在非均衡文本數(shù)據(jù)集上,訓(xùn)練出一個準(zhǔn)確率高,魯棒性好的模型方法,使之能夠很好地進(jìn)行惡意文本檢測,將惡意文本與正常文本區(qū)別開來。本文首先研究了惡意文本檢測的背景和意義,對非均衡文本分類及惡意文本檢測...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:86 頁
【學(xué)位級別】:碩士
【部分圖文】:
RCNN用于文本表示
圖 2-8 Self-Attention卷積神經(jīng)網(wǎng)絡(luò)首次應(yīng)用于文本分類可以說是在 2004 年 Yoon Kim Convolutional Neural Networks for Sentence Classificationμ 一文中提出(雖然第個用的并不是他,但是在這篇文章中提出了 4 種 Model Variations,并有詳細(xì)的參),接下來將對其做簡單介紹,text-CNN[27]模型結(jié)構(gòu)如圖 2-9 所示。Mh1 h2 h3 h4hnwehadanicefeelingin thatclass.… ………
第二章 文本分類相關(guān)技術(shù)研究子的任何地方提取特定的特征,并加到句子的最終表示中。最大池化之外還有一種平均池化方式,該池化方式中不再是基值的輸出,而是該池化領(lǐng)域中的所有值和的平均值,其平均池-8 所示。 ( ) 2-8 中,輸入的 c 是張量領(lǐng)域,而池化的輸出為領(lǐng)域中的平均Softmax 層一些列的特征提取后形成最后的分類信息向量,最后將該分類max 層進(jìn)行分類,并且在全連接部分進(jìn)行 Dropout,減少過擬合據(jù)任務(wù)的不同進(jìn)行調(diào)整,輸出最終類別的概率分布。-10 具體展示了如何使用 CNN 進(jìn)行句子分類。
本文編號:3276130
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:86 頁
【學(xué)位級別】:碩士
【部分圖文】:
RCNN用于文本表示
圖 2-8 Self-Attention卷積神經(jīng)網(wǎng)絡(luò)首次應(yīng)用于文本分類可以說是在 2004 年 Yoon Kim Convolutional Neural Networks for Sentence Classificationμ 一文中提出(雖然第個用的并不是他,但是在這篇文章中提出了 4 種 Model Variations,并有詳細(xì)的參),接下來將對其做簡單介紹,text-CNN[27]模型結(jié)構(gòu)如圖 2-9 所示。Mh1 h2 h3 h4hnwehadanicefeelingin thatclass.… ………
第二章 文本分類相關(guān)技術(shù)研究子的任何地方提取特定的特征,并加到句子的最終表示中。最大池化之外還有一種平均池化方式,該池化方式中不再是基值的輸出,而是該池化領(lǐng)域中的所有值和的平均值,其平均池-8 所示。 ( ) 2-8 中,輸入的 c 是張量領(lǐng)域,而池化的輸出為領(lǐng)域中的平均Softmax 層一些列的特征提取后形成最后的分類信息向量,最后將該分類max 層進(jìn)行分類,并且在全連接部分進(jìn)行 Dropout,減少過擬合據(jù)任務(wù)的不同進(jìn)行調(diào)整,輸出最終類別的概率分布。-10 具體展示了如何使用 CNN 進(jìn)行句子分類。
本文編號:3276130
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3276130.html
最近更新
教材專著