基于文本內(nèi)容的敏感文檔識別方法研究
發(fā)布時間:2021-01-27 23:13
隨著信息電子化和網(wǎng)絡(luò)化程度的提高,敏感信息外泄的事件呈不斷上升趨勢,其造成的損失和影響也愈發(fā)巨大。其中文本文檔作為信息傳輸和存儲的主流載體,經(jīng)由文本文檔外泄引發(fā)的安全事件占很大比重。在當(dāng)今大數(shù)據(jù)的環(huán)境下,如何在數(shù)量繁多的文本文檔中識別出敏感信息,以便于后續(xù)防泄漏工作開展,是近年來安全領(lǐng)域的重要問題。傳統(tǒng)的敏感文檔檢測通;陉P(guān)鍵詞匹配或文本的統(tǒng)計(jì)學(xué)特征,這兩類方法的局限性在于,一方面依賴人工制定關(guān)鍵詞詞典和篩選特征,提高了人工成本;另一方面忽略了語序和上下文信息,未能充分挖掘文本的內(nèi)在含義,因此在應(yīng)對敏感文檔檢測的復(fù)雜場景時顯得力不從心。隨著自然語言處理理論和技術(shù)的飛速發(fā)展,也有學(xué)者利用深度學(xué)習(xí)方法通過文本分類的形式對敏感文檔進(jìn)行識別。這種識別方式的優(yōu)劣很大程度上依賴于模型對敏感文本內(nèi)容的表征能力。由于敏感文檔的特殊性,往往可供學(xué)習(xí)的訓(xùn)練樣本數(shù)量不足以支撐模型獲得高質(zhì)量的詞向量表示。而詞作為構(gòu)成文本的基本單元,詞向量質(zhì)量對于文本內(nèi)容表征有重大影響。此外,詞的敏感程度與上下文語境息息相關(guān)。例如,“兵力部署”一詞在軍事類文檔中敏感級別很高,而在新聞和通俗類讀物中敏感程度下降。由此,本文從文...
【文章來源】:江蘇科技大學(xué)江蘇省
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本分類的一般流程
18第2章文本內(nèi)容的表示相關(guān)技術(shù)2.1概述由于機(jī)器是無法像人一樣理解文本內(nèi)容并直接對其進(jìn)行處理的,所以為了完成各種自然語言處理任務(wù),首先要對文本進(jìn)行數(shù)字化表示,而不同表示方法對文本內(nèi)容的語義表達(dá)能力決定了后續(xù)任務(wù)的完成情況。人類對文本的理解習(xí)慣是由詞、句子、段落、文檔逐步遞歸的理解,而詞作為承載語義的基本單元,對詞的表示方法的研究是學(xué)者們關(guān)注的重點(diǎn)。本章介紹了word2vec、glove和elmo三種詞向量生成模型,通過分析它們的特點(diǎn)指出了模型在語義表示方面的區(qū)別和優(yōu)劣。本章還介紹了CNN、RNN及其變種以及基于注意力機(jī)制的解碼-編碼器作為特征抽取器和文檔表征方法,并分析了它們的特性和區(qū)別。2.2詞向量表示最初的詞向量表示方法是One-hot編碼,即將語料中的詞統(tǒng)計(jì)完畢形成詞典后,把每個詞看作向量空間的一個維度,該詞在該維度上的值為1,其他維度上的值為0,則對于大小為N的詞典,每個詞均映射成在N-1個維度上值為0和1個維度上值為1的向量。這種表示方法下的詞與詞之間沒有語義和語序上的關(guān)聯(lián)性,且受詞典大小影響,極易產(chǎn)生維度災(zāi)難。隨著詞的分布式表示技術(shù)的發(fā)展,出現(xiàn)了一些基于語言模型的詞向量表示模型,word2vec和glove便是其中的代表。2.2.1Word2vecBengio等人于2003年發(fā)表的《Aneuralprobabilisticlanguagemodel》[29]一文中提出了如下圖的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來建模N-gram模型,其中v(context(w))為詞w的上下文詞向量,W、U分別為投影層和隱藏層的權(quán)重矩陣,p、q分別為投影層和隱藏層的偏置向量。word2vec的主要工作是針對隱藏層和輸出層之間的矩陣向量運(yùn)算和輸出層上的softmax歸一化運(yùn)算進(jìn)行優(yōu)化。圖2.1用于語言模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig2.1neuralnetworkstructureforlanguagemodel
19word2vec包含根據(jù)上下文預(yù)測中心詞的CBOW(continuousbagofwords)模型和根據(jù)中心詞預(yù)測上下文的Sikp-gram模型,其模型結(jié)構(gòu)如下圖所示:圖2.2Word2vec用于預(yù)測的兩種模型Fig2.2twomodelsofword2vecforprediction假設(shè)詞w的上下文窗口大小為c,詞向量維度為m,CBOW模型的輸入層包括Context(w)中2c個詞的詞向量v(Context(w)1),v(Context(w)2),…,v(Context(w)2c)∈Rm;投影層為輸入層的2c個向量累加求和,即,輸出層是每個詞出現(xiàn)的概率p(w|Context(w))。word2vec的關(guān)鍵在于給出了兩類用于梯度計(jì)算的目標(biāo)函數(shù)優(yōu)化方法,一種稱為Hierarchicalsoftmax。該方法的主要思路是構(gòu)造一棵哈夫曼樹,樹的葉子節(jié)點(diǎn)為待預(yù)測的詞,則對于詞典中任意詞w,該哈夫曼樹的根節(jié)點(diǎn)到詞w存在唯一路徑pathw,該路徑上存在lw-1個分支,將每個分支看作二分類,則將每經(jīng)過一次分類產(chǎn)生的概率連乘即得p(w|(Context(w)))其中式中為路徑中包含結(jié)點(diǎn)的個數(shù);為詞w的哈夫曼編碼,它由位構(gòu)成,表示路徑中第j個結(jié)點(diǎn)對應(yīng)編碼;表示路徑中非葉子結(jié)點(diǎn)對應(yīng)的向量。將其代入對數(shù)似然然函數(shù)即可得到CBOW模型的目標(biāo)函數(shù),這樣就省去了輸出層上的softmax歸一化運(yùn)算,大大提升了模型訓(xùn)練速度。
【參考文獻(xiàn)】:
期刊論文
[1]云計(jì)算環(huán)境下分布式語義文本自適應(yīng)分類方法[J]. 王剛,楊波,楊明杰. 科學(xué)技術(shù)與工程. 2018(07)
[2]一種基于中文文本分類技術(shù)的計(jì)算機(jī)輔助密級界定方法[J]. 潘婭. 電子測試. 2016(06)
[3]ASP.NET使用COM組件處理EXCEL表格[J]. 陳端迎,劉寶華,張桂平. 電腦知識與技術(shù). 2012(22)
[4]COM組件技術(shù)的應(yīng)用[J]. 沈樹茂. 電腦知識與技術(shù). 2010(07)
碩士論文
[1]電子文檔防泄密平臺關(guān)鍵技術(shù)的研究[D]. 王飛平.杭州電子科技大學(xué) 2017
[2]基于文本語義相似度的計(jì)算機(jī)輔助定密系統(tǒng)研究與實(shí)現(xiàn)[D]. 連婧.北京交通大學(xué) 2016
本文編號:3003898
【文章來源】:江蘇科技大學(xué)江蘇省
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本分類的一般流程
18第2章文本內(nèi)容的表示相關(guān)技術(shù)2.1概述由于機(jī)器是無法像人一樣理解文本內(nèi)容并直接對其進(jìn)行處理的,所以為了完成各種自然語言處理任務(wù),首先要對文本進(jìn)行數(shù)字化表示,而不同表示方法對文本內(nèi)容的語義表達(dá)能力決定了后續(xù)任務(wù)的完成情況。人類對文本的理解習(xí)慣是由詞、句子、段落、文檔逐步遞歸的理解,而詞作為承載語義的基本單元,對詞的表示方法的研究是學(xué)者們關(guān)注的重點(diǎn)。本章介紹了word2vec、glove和elmo三種詞向量生成模型,通過分析它們的特點(diǎn)指出了模型在語義表示方面的區(qū)別和優(yōu)劣。本章還介紹了CNN、RNN及其變種以及基于注意力機(jī)制的解碼-編碼器作為特征抽取器和文檔表征方法,并分析了它們的特性和區(qū)別。2.2詞向量表示最初的詞向量表示方法是One-hot編碼,即將語料中的詞統(tǒng)計(jì)完畢形成詞典后,把每個詞看作向量空間的一個維度,該詞在該維度上的值為1,其他維度上的值為0,則對于大小為N的詞典,每個詞均映射成在N-1個維度上值為0和1個維度上值為1的向量。這種表示方法下的詞與詞之間沒有語義和語序上的關(guān)聯(lián)性,且受詞典大小影響,極易產(chǎn)生維度災(zāi)難。隨著詞的分布式表示技術(shù)的發(fā)展,出現(xiàn)了一些基于語言模型的詞向量表示模型,word2vec和glove便是其中的代表。2.2.1Word2vecBengio等人于2003年發(fā)表的《Aneuralprobabilisticlanguagemodel》[29]一文中提出了如下圖的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來建模N-gram模型,其中v(context(w))為詞w的上下文詞向量,W、U分別為投影層和隱藏層的權(quán)重矩陣,p、q分別為投影層和隱藏層的偏置向量。word2vec的主要工作是針對隱藏層和輸出層之間的矩陣向量運(yùn)算和輸出層上的softmax歸一化運(yùn)算進(jìn)行優(yōu)化。圖2.1用于語言模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig2.1neuralnetworkstructureforlanguagemodel
19word2vec包含根據(jù)上下文預(yù)測中心詞的CBOW(continuousbagofwords)模型和根據(jù)中心詞預(yù)測上下文的Sikp-gram模型,其模型結(jié)構(gòu)如下圖所示:圖2.2Word2vec用于預(yù)測的兩種模型Fig2.2twomodelsofword2vecforprediction假設(shè)詞w的上下文窗口大小為c,詞向量維度為m,CBOW模型的輸入層包括Context(w)中2c個詞的詞向量v(Context(w)1),v(Context(w)2),…,v(Context(w)2c)∈Rm;投影層為輸入層的2c個向量累加求和,即,輸出層是每個詞出現(xiàn)的概率p(w|Context(w))。word2vec的關(guān)鍵在于給出了兩類用于梯度計(jì)算的目標(biāo)函數(shù)優(yōu)化方法,一種稱為Hierarchicalsoftmax。該方法的主要思路是構(gòu)造一棵哈夫曼樹,樹的葉子節(jié)點(diǎn)為待預(yù)測的詞,則對于詞典中任意詞w,該哈夫曼樹的根節(jié)點(diǎn)到詞w存在唯一路徑pathw,該路徑上存在lw-1個分支,將每個分支看作二分類,則將每經(jīng)過一次分類產(chǎn)生的概率連乘即得p(w|(Context(w)))其中式中為路徑中包含結(jié)點(diǎn)的個數(shù);為詞w的哈夫曼編碼,它由位構(gòu)成,表示路徑中第j個結(jié)點(diǎn)對應(yīng)編碼;表示路徑中非葉子結(jié)點(diǎn)對應(yīng)的向量。將其代入對數(shù)似然然函數(shù)即可得到CBOW模型的目標(biāo)函數(shù),這樣就省去了輸出層上的softmax歸一化運(yùn)算,大大提升了模型訓(xùn)練速度。
【參考文獻(xiàn)】:
期刊論文
[1]云計(jì)算環(huán)境下分布式語義文本自適應(yīng)分類方法[J]. 王剛,楊波,楊明杰. 科學(xué)技術(shù)與工程. 2018(07)
[2]一種基于中文文本分類技術(shù)的計(jì)算機(jī)輔助密級界定方法[J]. 潘婭. 電子測試. 2016(06)
[3]ASP.NET使用COM組件處理EXCEL表格[J]. 陳端迎,劉寶華,張桂平. 電腦知識與技術(shù). 2012(22)
[4]COM組件技術(shù)的應(yīng)用[J]. 沈樹茂. 電腦知識與技術(shù). 2010(07)
碩士論文
[1]電子文檔防泄密平臺關(guān)鍵技術(shù)的研究[D]. 王飛平.杭州電子科技大學(xué) 2017
[2]基于文本語義相似度的計(jì)算機(jī)輔助定密系統(tǒng)研究與實(shí)現(xiàn)[D]. 連婧.北京交通大學(xué) 2016
本文編號:3003898
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3003898.html
最近更新
教材專著