當(dāng)前位置：主頁 > 科技論文 > 計(jì)算機(jī)應(yīng)用論文 >

基于文本內(nèi)容的敏感文檔識別方法研究

發(fā)布時間：2021-01-27 23:13

　　隨著信息電子化和網(wǎng)絡(luò)化程度的提高,敏感信息外泄的事件呈不斷上升趨勢,其造成的損失和影響也愈發(fā)巨大。其中文本文檔作為信息傳輸和存儲的主流載體,經(jīng)由文本文檔外泄引發(fā)的安全事件占很大比重。在當(dāng)今大數(shù)據(jù)的環(huán)境下,如何在數(shù)量繁多的文本文檔中識別出敏感信息,以便于后續(xù)防泄漏工作開展,是近年來安全領(lǐng)域的重要問題。傳統(tǒng)的敏感文檔檢測通�；陉P(guān)鍵詞匹配或文本的統(tǒng)計(jì)學(xué)特征,這兩類方法的局限性在于,一方面依賴人工制定關(guān)鍵詞詞典和篩選特征,提高了人工成本;另一方面忽略了語序和上下文信息,未能充分挖掘文本的內(nèi)在含義,因此在應(yīng)對敏感文檔檢測的復(fù)雜場景時顯得力不從心。隨著自然語言處理理論和技術(shù)的飛速發(fā)展,也有學(xué)者利用深度學(xué)習(xí)方法通過文本分類的形式對敏感文檔進(jìn)行識別。這種識別方式的優(yōu)劣很大程度上依賴于模型對敏感文本內(nèi)容的表征能力。由于敏感文檔的特殊性,往往可供學(xué)習(xí)的訓(xùn)練樣本數(shù)量不足以支撐模型獲得高質(zhì)量的詞向量表示。而詞作為構(gòu)成文本的基本單元,詞向量質(zhì)量對于文本內(nèi)容表征有重大影響。此外,詞的敏感程度與上下文語境息息相關(guān)。例如,“兵力部署”一詞在軍事類文檔中敏感級別很高,而在新聞和通俗類讀物中敏感程度下降。由此,本文從文...

【文章來源】：江蘇科技大學(xué)江蘇省

【文章頁數(shù)】：58 頁

【學(xué)位級別】：碩士

【部分圖文】：

文本分類的一般流程

語言模型,神經(jīng)網(wǎng)絡(luò)

18第2章文本內(nèi)容的表示相關(guān)技術(shù)2.1概述由于機(jī)器是無法像人一樣理解文本內(nèi)容并直接對其進(jìn)行處理的，所以為了完成各種自然語言處理任務(wù)，首先要對文本進(jìn)行數(shù)字化表示，而不同表示方法對文本內(nèi)容的語義表達(dá)能力決定了后續(xù)任務(wù)的完成情況。人類對文本的理解習(xí)慣是由詞、句子、段落、文檔逐步遞歸的理解，而詞作為承載語義的基本單元，對詞的表示方法的研究是學(xué)者們關(guān)注的重點(diǎn)。本章介紹了word2vec、glove和elmo三種詞向量生成模型，通過分析它們的特點(diǎn)指出了模型在語義表示方面的區(qū)別和優(yōu)劣。本章還介紹了CNN、RNN及其變種以及基于注意力機(jī)制的解碼-編碼器作為特征抽取器和文檔表征方法，并分析了它們的特性和區(qū)別。2.2詞向量表示最初的詞向量表示方法是One-hot編碼，即將語料中的詞統(tǒng)計(jì)完畢形成詞典后，把每個詞看作向量空間的一個維度，該詞在該維度上的值為1，其他維度上的值為0，則對于大小為N的詞典，每個詞均映射成在N-1個維度上值為0和1個維度上值為1的向量。這種表示方法下的詞與詞之間沒有語義和語序上的關(guān)聯(lián)性，且受詞典大小影響，極易產(chǎn)生維度災(zāi)難。隨著詞的分布式表示技術(shù)的發(fā)展，出現(xiàn)了一些基于語言模型的詞向量表示模型，word2vec和glove便是其中的代表。2.2.1Word2vecBengio等人于2003年發(fā)表的《Aneuralprobabilisticlanguagemodel》[29]一文中提出了如下圖的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來建模N-gram模型，其中v(context(w))為詞w的上下文詞向量，W、U分別為投影層和隱藏層的權(quán)重矩陣，p、q分別為投影層和隱藏層的偏置向量。word2vec的主要工作是針對隱藏層和輸出層之間的矩陣向量運(yùn)算和輸出層上的softmax歸一化運(yùn)算進(jìn)行優(yōu)化。圖2.1用于語言模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig2.1neuralnetworkstructureforlanguagemodel

模型圖,模型,哈夫曼,路徑

19word2vec包含根據(jù)上下文預(yù)測中心詞的CBOW（continuousbagofwords）模型和根據(jù)中心詞預(yù)測上下文的Sikp-gram模型，其模型結(jié)構(gòu)如下圖所示：圖2.2Word2vec用于預(yù)測的兩種模型Fig2.2twomodelsofword2vecforprediction假設(shè)詞w的上下文窗口大小為c，詞向量維度為m，CBOW模型的輸入層包括Context(w)中2c個詞的詞向量v(Context(w)1),v(Context(w)2),…,v(Context(w)2c)∈Rm；投影層為輸入層的2c個向量累加求和，即，輸出層是每個詞出現(xiàn)的概率p(w|Context(w))。word2vec的關(guān)鍵在于給出了兩類用于梯度計(jì)算的目標(biāo)函數(shù)優(yōu)化方法，一種稱為Hierarchicalsoftmax。該方法的主要思路是構(gòu)造一棵哈夫曼樹，樹的葉子節(jié)點(diǎn)為待預(yù)測的詞，則對于詞典中任意詞w，該哈夫曼樹的根節(jié)點(diǎn)到詞w存在唯一路徑pathw，該路徑上存在lw-1個分支，將每個分支看作二分類，則將每經(jīng)過一次分類產(chǎn)生的概率連乘即得p(w|(Context(w)))其中式中為路徑中包含結(jié)點(diǎn)的個數(shù)；為詞w的哈夫曼編碼，它由位構(gòu)成，表示路徑中第j個結(jié)點(diǎn)對應(yīng)編碼；表示路徑中非葉子結(jié)點(diǎn)對應(yīng)的向量。將其代入對數(shù)似然然函數(shù)即可得到CBOW模型的目標(biāo)函數(shù)，這樣就省去了輸出層上的softmax歸一化運(yùn)算，大大提升了模型訓(xùn)練速度。

【參考文獻(xiàn)】：
期刊論文
[1]云計(jì)算環(huán)境下分布式語義文本自適應(yīng)分類方法[J]. 王剛,楊波,楊明杰.  科學(xué)技術(shù)與工程. 2018(07)
[2]一種基于中文文本分類技術(shù)的計(jì)算機(jī)輔助密級界定方法[J]. 潘婭.  電子測試. 2016(06)
[3]ASP.NET使用COM組件處理EXCEL表格[J]. 陳端迎,劉寶華,張桂平.  電腦知識與技術(shù). 2012(22)
[4]COM組件技術(shù)的應(yīng)用[J]. 沈樹茂.  電腦知識與技術(shù). 2010(07)

碩士論文
[1]電子文檔防泄密平臺關(guān)鍵技術(shù)的研究[D]. 王飛平.杭州電子科技大學(xué) 2017
[2]基于文本語義相似度的計(jì)算機(jī)輔助定密系統(tǒng)研究與實(shí)現(xiàn)[D]. 連婧.北京交通大學(xué) 2016

本文編號：3003898

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3003898.html

上一篇：基于車聯(lián)網(wǎng)的自主車隊(duì)巡航控制
下一篇：基于LabVIEW的軸承表面缺陷檢測系統(tǒng)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于文本內(nèi)容的敏感文檔識別方法研究