天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于文本內(nèi)容的敏感文檔識(shí)別方法研究

發(fā)布時(shí)間:2021-01-27 23:13
  隨著信息電子化和網(wǎng)絡(luò)化程度的提高,敏感信息外泄的事件呈不斷上升趨勢(shì),其造成的損失和影響也愈發(fā)巨大。其中文本文檔作為信息傳輸和存儲(chǔ)的主流載體,經(jīng)由文本文檔外泄引發(fā)的安全事件占很大比重。在當(dāng)今大數(shù)據(jù)的環(huán)境下,如何在數(shù)量繁多的文本文檔中識(shí)別出敏感信息,以便于后續(xù)防泄漏工作開展,是近年來(lái)安全領(lǐng)域的重要問(wèn)題。傳統(tǒng)的敏感文檔檢測(cè)通;陉P(guān)鍵詞匹配或文本的統(tǒng)計(jì)學(xué)特征,這兩類方法的局限性在于,一方面依賴人工制定關(guān)鍵詞詞典和篩選特征,提高了人工成本;另一方面忽略了語(yǔ)序和上下文信息,未能充分挖掘文本的內(nèi)在含義,因此在應(yīng)對(duì)敏感文檔檢測(cè)的復(fù)雜場(chǎng)景時(shí)顯得力不從心。隨著自然語(yǔ)言處理理論和技術(shù)的飛速發(fā)展,也有學(xué)者利用深度學(xué)習(xí)方法通過(guò)文本分類的形式對(duì)敏感文檔進(jìn)行識(shí)別。這種識(shí)別方式的優(yōu)劣很大程度上依賴于模型對(duì)敏感文本內(nèi)容的表征能力。由于敏感文檔的特殊性,往往可供學(xué)習(xí)的訓(xùn)練樣本數(shù)量不足以支撐模型獲得高質(zhì)量的詞向量表示。而詞作為構(gòu)成文本的基本單元,詞向量質(zhì)量對(duì)于文本內(nèi)容表征有重大影響。此外,詞的敏感程度與上下文語(yǔ)境息息相關(guān)。例如,“兵力部署”一詞在軍事類文檔中敏感級(jí)別很高,而在新聞和通俗類讀物中敏感程度下降。由此,本文從文... 

【文章來(lái)源】:江蘇科技大學(xué)江蘇省

【文章頁(yè)數(shù)】:58 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于文本內(nèi)容的敏感文檔識(shí)別方法研究


文本分類的一般流程

語(yǔ)言模型,神經(jīng)網(wǎng)絡(luò)


18第2章文本內(nèi)容的表示相關(guān)技術(shù)2.1概述由于機(jī)器是無(wú)法像人一樣理解文本內(nèi)容并直接對(duì)其進(jìn)行處理的,所以為了完成各種自然語(yǔ)言處理任務(wù),首先要對(duì)文本進(jìn)行數(shù)字化表示,而不同表示方法對(duì)文本內(nèi)容的語(yǔ)義表達(dá)能力決定了后續(xù)任務(wù)的完成情況。人類對(duì)文本的理解習(xí)慣是由詞、句子、段落、文檔逐步遞歸的理解,而詞作為承載語(yǔ)義的基本單元,對(duì)詞的表示方法的研究是學(xué)者們關(guān)注的重點(diǎn)。本章介紹了word2vec、glove和elmo三種詞向量生成模型,通過(guò)分析它們的特點(diǎn)指出了模型在語(yǔ)義表示方面的區(qū)別和優(yōu)劣。本章還介紹了CNN、RNN及其變種以及基于注意力機(jī)制的解碼-編碼器作為特征抽取器和文檔表征方法,并分析了它們的特性和區(qū)別。2.2詞向量表示最初的詞向量表示方法是One-hot編碼,即將語(yǔ)料中的詞統(tǒng)計(jì)完畢形成詞典后,把每個(gè)詞看作向量空間的一個(gè)維度,該詞在該維度上的值為1,其他維度上的值為0,則對(duì)于大小為N的詞典,每個(gè)詞均映射成在N-1個(gè)維度上值為0和1個(gè)維度上值為1的向量。這種表示方法下的詞與詞之間沒有語(yǔ)義和語(yǔ)序上的關(guān)聯(lián)性,且受詞典大小影響,極易產(chǎn)生維度災(zāi)難。隨著詞的分布式表示技術(shù)的發(fā)展,出現(xiàn)了一些基于語(yǔ)言模型的詞向量表示模型,word2vec和glove便是其中的代表。2.2.1Word2vecBengio等人于2003年發(fā)表的《Aneuralprobabilisticlanguagemodel》[29]一文中提出了如下圖的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)建模N-gram模型,其中v(context(w))為詞w的上下文詞向量,W、U分別為投影層和隱藏層的權(quán)重矩陣,p、q分別為投影層和隱藏層的偏置向量。word2vec的主要工作是針對(duì)隱藏層和輸出層之間的矩陣向量運(yùn)算和輸出層上的softmax歸一化運(yùn)算進(jìn)行優(yōu)化。圖2.1用于語(yǔ)言模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig2.1neuralnetworkstructureforlanguagemodel

模型圖,模型,哈夫曼,路徑


19word2vec包含根據(jù)上下文預(yù)測(cè)中心詞的CBOW(continuousbagofwords)模型和根據(jù)中心詞預(yù)測(cè)上下文的Sikp-gram模型,其模型結(jié)構(gòu)如下圖所示:圖2.2Word2vec用于預(yù)測(cè)的兩種模型Fig2.2twomodelsofword2vecforprediction假設(shè)詞w的上下文窗口大小為c,詞向量維度為m,CBOW模型的輸入層包括Context(w)中2c個(gè)詞的詞向量v(Context(w)1),v(Context(w)2),…,v(Context(w)2c)∈Rm;投影層為輸入層的2c個(gè)向量累加求和,即,輸出層是每個(gè)詞出現(xiàn)的概率p(w|Context(w))。word2vec的關(guān)鍵在于給出了兩類用于梯度計(jì)算的目標(biāo)函數(shù)優(yōu)化方法,一種稱為Hierarchicalsoftmax。該方法的主要思路是構(gòu)造一棵哈夫曼樹,樹的葉子節(jié)點(diǎn)為待預(yù)測(cè)的詞,則對(duì)于詞典中任意詞w,該哈夫曼樹的根節(jié)點(diǎn)到詞w存在唯一路徑pathw,該路徑上存在lw-1個(gè)分支,將每個(gè)分支看作二分類,則將每經(jīng)過(guò)一次分類產(chǎn)生的概率連乘即得p(w|(Context(w)))其中式中為路徑中包含結(jié)點(diǎn)的個(gè)數(shù);為詞w的哈夫曼編碼,它由位構(gòu)成,表示路徑中第j個(gè)結(jié)點(diǎn)對(duì)應(yīng)編碼;表示路徑中非葉子結(jié)點(diǎn)對(duì)應(yīng)的向量。將其代入對(duì)數(shù)似然然函數(shù)即可得到CBOW模型的目標(biāo)函數(shù),這樣就省去了輸出層上的softmax歸一化運(yùn)算,大大提升了模型訓(xùn)練速度。

【參考文獻(xiàn)】:
期刊論文
[1]云計(jì)算環(huán)境下分布式語(yǔ)義文本自適應(yīng)分類方法[J]. 王剛,楊波,楊明杰.  科學(xué)技術(shù)與工程. 2018(07)
[2]一種基于中文文本分類技術(shù)的計(jì)算機(jī)輔助密級(jí)界定方法[J]. 潘婭.  電子測(cè)試. 2016(06)
[3]ASP.NET使用COM組件處理EXCEL表格[J]. 陳端迎,劉寶華,張桂平.  電腦知識(shí)與技術(shù). 2012(22)
[4]COM組件技術(shù)的應(yīng)用[J]. 沈樹茂.  電腦知識(shí)與技術(shù). 2010(07)

碩士論文
[1]電子文檔防泄密平臺(tái)關(guān)鍵技術(shù)的研究[D]. 王飛平.杭州電子科技大學(xué) 2017
[2]基于文本語(yǔ)義相似度的計(jì)算機(jī)輔助定密系統(tǒng)研究與實(shí)現(xiàn)[D]. 連婧.北京交通大學(xué) 2016



本文編號(hào):3003898

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3003898.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a20ea***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com