天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

特定文檔的高通量檢測技術研究

發(fā)布時間:2021-08-28 12:23
  隨著互聯(lián)網(wǎng)技術與信息化的不斷普及,數(shù)字化文檔被人們廣泛使用。由于數(shù)字化文檔數(shù)量的激增,信息安全問題開始顯現(xiàn),一些需要面向特定人群的特定敏感文檔也被錯誤的上傳至文庫類網(wǎng)站中,導致信息的泄露。經(jīng)調查,文庫類網(wǎng)站的特定文檔泄漏情況近年來呈現(xiàn)高發(fā)態(tài)勢,給信息安全和公眾利益帶來嚴重威脅,造成無法挽回的經(jīng)濟或者其他損失。對文庫類網(wǎng)站分享的文檔進行信息安全檢查已經(jīng)成為一個重要的需求。由于每天都有大量文檔上傳至文庫類網(wǎng)站中,如何設計快速準確的高通量敏感文檔圖像檢測算法,以盡可能低的成本代價實現(xiàn)對網(wǎng)站每日上傳文檔圖像的全量檢測,并從中檢測出是否存在特定文檔圖像,成為當前階段需要迫切解決的研究性課題。從現(xiàn)實情況來說,目前市面上針對此類問題并無較好的解決方案,因此本文選定某文庫類網(wǎng)站A作為研究對象,針對以上問題進行了深入研究,主要工作如下:(1)提出了一個以級聯(lián)結構為主的特定文檔高通量監(jiān)測系統(tǒng)。首先,該系統(tǒng)接收來自文庫類網(wǎng)站中數(shù)據(jù)庫傳入的文檔圖像,利用底層圖像特征的差異性,將文檔圖像與非文檔圖像進行有效區(qū)分;其次,利用基于深度學習的可疑文檔分類器,將文檔分為可疑文檔和非可疑文檔兩類;最后,對可疑文檔利用版面... 

【文章來源】:湘潭大學湖南省

【文章頁數(shù)】:61 頁

【學位級別】:碩士

【部分圖文】:

特定文檔的高通量檢測技術研究


開運算實例圖

實例圖,閉運算,顏色


12閉運算為先膨脹再腐蝕,M代表待處理圖像,N代表結構元素,利用N對圖像M進行閉運算操作的定義如下:MN=(M⊕N)N(2.4)圖2.2閉運算實例圖2.1.2顏色特征顏色特征是一種全局特征,主要用來描述全圖像區(qū)域中物體或場景的表面屬性,并且顏色特征對圖像本身的依賴性較小,因此顏色特征的魯棒性更好。在顏色特征中圖像區(qū)域中的所有像素都起作用,因此,顏色特征是一種基于像素的特征。常見的顏色特征表示方法包括顏色直方圖,顏色矩等。顏色直方圖是顏色特征中最常用到的特征,顏色直方圖不關心像素的空間位置,主要用來描述像素在整幅圖像中所占的比例。對于不同的顏色空間和坐標系,顏色直方圖也不同,常用的顏色空間是RGB顏色空間。計算顏色直方圖首先需要進行顏色量化(ColorQuantization)處理,將顏色空間劃分成小的顏色區(qū)間,每個小區(qū)間是一個像素值,然后通過計算顏色在每個小區(qū)間內的像素數(shù)量得到顏色直方圖。2.2卷積神經(jīng)網(wǎng)絡2.2.1卷積神經(jīng)網(wǎng)絡概述圖像具有很強的空間相關性且圖像的內容豐富多變,獲取質量好的圖像特征是圖像處理中的關鍵環(huán)節(jié),常用的手工提取特征方法具有較好的效果,且得到廣泛的應用。但由于沒有考慮到圖像的空間相關性的特點,無法充分地表示圖像語義信息。1998年LeCun等人[14]基于傳統(tǒng)的人工神經(jīng)網(wǎng)絡基礎提出卷積神經(jīng)網(wǎng)絡(CNN)LeNet-5,該卷積神經(jīng)網(wǎng)絡由一系列可學習的權值和偏重構成的。80年代末,反向傳播算法(BackPropagation)[15]被提出,該網(wǎng)絡是經(jīng)典的前向多層神經(jīng)網(wǎng)絡,訓練過程由正向傳播和反向傳播組成。正向傳播過程中訓練樣本從輸入層輸入經(jīng)神經(jīng)網(wǎng)絡從輸出層輸出,如果輸出結果和期望值之差低于設定的閾值,那么終止該訓練;如

網(wǎng)絡結構圖,網(wǎng)絡結構,卷積核


14深的網(wǎng)絡拓展性增強。由于VGG遷移到其它圖片數(shù)據(jù)上的泛化能力強,目前很多計算機視覺任務都使用VGG來提取圖像特征。VGG有兩種結構,分別是VGG16和VGG19,相對于2012年的AlexNet[18],VGG采用連續(xù)的3x3小卷積核來代替AlexNet中較大的11×11,7×7與5×5大小的卷積核。通過堆疊兩個3×3的卷積核,使得感受野與一個5×5的卷積核相當。由于采用堆積的小卷積核是由大卷積核分拆的,所以導致層數(shù)的增加,增加了網(wǎng)絡的非線性能力,從而能讓網(wǎng)絡來學習更復雜的內容。VGG結構如圖2.4所示,由卷積層、激活層、全連接層和softmax輸出層構成。激活函數(shù)采用ReLU函數(shù),使用最大池化進行下采樣。VGG模型有結構簡單、小卷積核、小池化核、通道數(shù)多、層數(shù)深和特征圖更寬的特點。圖2.4VGG網(wǎng)絡結構(2)ResNetResNet[19]于2015年被提出,該網(wǎng)絡的優(yōu)點是結構簡單并且效果好,因此之后的很多計算機視覺任務如檢測、分割、識別等領域都是基于ResNet-50或者ResNet-101完成。隨著網(wǎng)絡的加深,會出現(xiàn)訓練集準確率下降的現(xiàn)象。為了解決這個問題,何愷明等人提出了一種全新的網(wǎng)絡,深度殘差網(wǎng)絡(ResNet),該網(wǎng)絡可以盡可能的加深網(wǎng)絡的深度。常用分類卷積網(wǎng)絡在ImageNet[20]上的結果如表2.1所示。ResNet使用了一種連接方式叫做“shortcutconnection”,ResNet提出了兩種方式,示意圖如圖2.5所示。


本文編號:3368508

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3368508.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶46d5f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com