天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于卷積神經(jīng)網(wǎng)絡(luò)的非結(jié)構(gòu)化文本敏感信息檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-08-01 23:42
  伴隨著互聯(lián)網(wǎng)、計(jì)算機(jī)硬件設(shè)備和移動(dòng)硬件設(shè)備的高速發(fā)展,用戶將大量的數(shù)據(jù)、文字等存放在電子文本文檔中,隨時(shí)隨地進(jìn)行著通信與傳輸。而大量電子文本文檔的使用則存在著信息安全風(fēng)險(xiǎn),從非結(jié)構(gòu)化文本文檔中泄露敏感信息對(duì)個(gè)人、企業(yè)以及政府都是一個(gè)代價(jià)高昂的問(wèn)題。如何檢測(cè)敏感信息以防止數(shù)據(jù)信息泄露成為了一個(gè)信息安全領(lǐng)域的重要課題,F(xiàn)階段實(shí)際應(yīng)用的檢測(cè)方法大致分為兩種,敏感詞匹配以及傳統(tǒng)的機(jī)器學(xué)習(xí)手段。這兩種方法都依賴于特征關(guān)鍵詞與敏感種子詞共現(xiàn)的頻率。然而在實(shí)踐使用中,這可能會(huì)無(wú)法準(zhǔn)確的檢測(cè)出更復(fù)雜的敏感信息模式。實(shí)際應(yīng)用的檢測(cè)方法受人為情感因素影響,只注重了詞語(yǔ)與特征的出現(xiàn),割裂了文本本身上下文的聯(lián)系,忽略了語(yǔ)句之間的意義,只能粗暴地按照“含有關(guān)鍵詞特征即涉及敏感”的原則進(jìn)行敏感信息檢測(cè)。近年來(lái),有科學(xué)家提出利用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行敏感信息檢測(cè),利用文檔的上下文信息更準(zhǔn)確地預(yù)測(cè)文檔的敏感性,因?yàn)槠渥陨砟P途哂械膬?yōu)點(diǎn)較好的解決了上述出現(xiàn)的問(wèn)題。但該方法在提升準(zhǔn)確率的同時(shí),模型訓(xùn)練構(gòu)建需要耗費(fèi)較多的時(shí)間,實(shí)際應(yīng)用時(shí)可能會(huì)影響效率。卷積神經(jīng)網(wǎng)絡(luò)模型作為深度學(xué)習(xí)的一種類型,在保留了遞歸神經(jīng)網(wǎng)絡(luò)模型具有的優(yōu)勢(shì)情況... 

【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:64 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于卷積神經(jīng)網(wǎng)絡(luò)的非結(jié)構(gòu)化文本敏感信息檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)


圖2-1?word2vec模型結(jié)構(gòu)??3.?TF-IDF加權(quán)詞向量化法??

模型圖,模型,單詞,句子


?softmax?ouU>ut??圖2-2?Text-CNN模型體系結(jié)構(gòu)圖[32]??如圖2-2所示,Text-CNN的模型架構(gòu)Collobert[33]等人的CNN架構(gòu)的略微變??體。令;^?對(duì)應(yīng)于句子中的第i個(gè)單詞的k維單詞向量。長(zhǎng)度為n的句子(在??必要時(shí)填充)表示為:=?......十,其中0表示連接運(yùn)算符。一般??來(lái)說(shuō),令xi:i+j指的是單詞xi;xi+1,?......,?xi+j的連接。卷積操作涉及濾波器w??eRhk,其應(yīng)用于h字的窗口以產(chǎn)生新特征。舉個(gè)例子,一個(gè)特征Ci通過(guò)公示:??Ci?=?f(w*Wi:i+h.丨+b)從單詞Wi:i+f>1的窗口中生成。這里b?G?R是偏置項(xiàng),f使非線性??函數(shù),例如雙曲正切。此過(guò)濾器應(yīng)用于句子{xI:h,X2:h+丨,…乂松丨:^中每個(gè)可能的單??詞窗口來(lái)生成特征圖,c?=?[c1,c2,....cn_h+1],?c?e?1^11+|。在特征圖上應(yīng)用最大超時(shí)??池化操作[33],并取最大值c?=?max{C}作為對(duì)應(yīng)于該特定過(guò)濾器的特征。YoonKim??的想法是為每個(gè)要素圖捕獲最重要的特征

原理圖,全連接,輸入層,卷積


卷枳層?b?J??d池化層??圖2-3?Text-CNN詳細(xì)過(guò)程原理圖丨34]??如圖2-3所示,Text-CNN整個(gè)模型共由輸入層、卷積層、池化層、全連接??層四個(gè)部分組成。??1.

【參考文獻(xiàn)】:
期刊論文
[1]中文分詞算法研究綜述[J]. 汪文妃,徐豪杰,楊文珍,吳新麗.  成組技術(shù)與生產(chǎn)現(xiàn)代化. 2018(03)
[2]基于關(guān)鍵詞的文本向量化與分類算法研究[J]. 蘇玉龍,張著洪.  貴州大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(03)
[3]基于表示學(xué)習(xí)的中文分詞[J]. 劉春麗,李曉戈,劉睿,范賢,杜麗萍.  計(jì)算機(jī)應(yīng)用. 2016(10)
[4]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春.  計(jì)算機(jī)科學(xué). 2016(06)
[5]一種基于中文文本分類技術(shù)的計(jì)算機(jī)輔助密級(jí)界定方法[J]. 潘婭.  電子測(cè)試. 2016(06)
[6]基于.NET及COM組件的應(yīng)用開(kāi)發(fā)技術(shù)[J]. 華文立,蘇傳芳,張紅梅.  蚌埠學(xué)院學(xué)報(bào). 2013(01)
[7]ASP.NET使用COM組件處理EXCEL表格[J]. 陳端迎,劉寶華,張桂平.  電腦知識(shí)與技術(shù). 2012(22)
[8]從美國(guó)政府機(jī)密文件泄密事件看政府涉密電子文件共享的安全管理[J]. 楊霞.  檔案與建設(shè). 2011(03)
[9]COM組件技術(shù)的應(yīng)用[J]. 沈樹(shù)茂.  電腦知識(shí)與技術(shù). 2010(07)
[10]電子文件密級(jí)管理系統(tǒng)的關(guān)鍵技術(shù)與設(shè)計(jì)[J]. 王文宇,陳尚義.  信息安全與通信保密. 2009(10)

碩士論文
[1]電子文檔防泄密平臺(tái)關(guān)鍵技術(shù)的研究[D]. 王飛平.杭州電子科技大學(xué) 2017
[2]基于文本語(yǔ)義相似度的計(jì)算機(jī)輔助定密系統(tǒng)研究與實(shí)現(xiàn)[D]. 連婧.北京交通大學(xué) 2016
[3]格式化文件內(nèi)容提取與過(guò)濾關(guān)鍵技術(shù)研究[D]. 劉麗榮.哈爾濱工程大學(xué) 2012
[4]桌面搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D]. 孟美華.大連理工大學(xué) 2009



本文編號(hào):3316458

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3316458.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶44b04***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com