基于圖像識別的敏感文件檢測技術(shù)研究
發(fā)布時間:2021-11-11 21:41
在數(shù)字化技術(shù)迅猛發(fā)展的今天,一些涉及企業(yè)與政府的敏感信息文件經(jīng)常因為竊泄密等原因在網(wǎng)絡(luò)上出現(xiàn),這些文件的泄露往往會給政府或企業(yè)帶來重大的負面影響,因此如何發(fā)現(xiàn)這些敏感文件已經(jīng)成為當前信息安全領(lǐng)域的熱點課題之一。傳統(tǒng)的敏感文件檢測大部分是通過特定的關(guān)鍵字匹配來實現(xiàn)的(比如保密、機密、絕密等關(guān)鍵字),但中文是一種重“意合”,輕形式的文字,語句歧義現(xiàn)象非常普遍,對于存在語義歧義的時候,基于關(guān)鍵字匹配的敏感文件檢測,存在檢測精度差,以及后續(xù)關(guān)鍵詞擴充繁瑣的特點,同時由于很多泄露的文件往往是先拍照再在網(wǎng)絡(luò)上傳輸,此時基于關(guān)鍵字匹配的檢測方法就完全失效了。本文針對互聯(lián)網(wǎng)上拍照泄露敏感信息文件的常見情況,首先設(shè)計了一個高效判斷是否是中文文本圖像文件的算法,然后在此基礎(chǔ)上采用OCR處理實現(xiàn)文字提取,最后通過基于深度學(xué)習(xí)技術(shù)對文本語料樣本庫進行訓(xùn)練而建成的模型實現(xiàn)檢測。本文的主要工作概括如下:(1)提出一種基于改進的筆畫寬度中文文本圖像檢測算法(SWT)。利用文本筆畫寬度較為固定的特征,首先通過canny算子對圖像進行邊緣檢測提取邊緣檢測圖。其次,在文字邊緣像素點上尋找符合筆畫寬度方向閾值上的邊緣像素點...
【文章來源】:浙江理工大學(xué)浙江省
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
百度OCR識別效果圖
(a)紅頭文件 (b)OCR 識別圖 2.2 阿里 OCR 識別效果圖2.1.3 騰訊 OCR 識別騰訊通用文字識別 API 采用 HTTP 協(xié)議,POST 方式調(diào)用,返回 JSON 格式的圖像文本識別內(nèi)容,支持本地圖像與 URL 地址圖像的文本識別,API 接口采用免費+收費的方式,免費方式為前一個月免費,額度 1000 張/月,收費方式采用預(yù)付費與后付費兩種方式,相關(guān)收費信息如下表 2.3 所示:表 2.3 騰訊通用文字識別預(yù)付費價格說明資源包規(guī)格 1000 次 1 萬次 10 萬次 100 萬次 1000 萬次身份證 120 元 800 元 5,000 元 30,000 元 200,000 元名片 120 元 800 元 5,000 元 30,000 元 200,000 元駕駛證 120 元 800 元 5,000 元 30,000 元 200,000 元銀行卡 120 元 800 元 5,000 元 30,000 元 200,000 元
(a)紅頭文件 (b)OCR 識別圖 2.3 騰訊 OCR 識別效果圖2.2 Tesseract-ocr 開源系統(tǒng)文字識別Tesseract[25]作為一款著名的開源 OCR 軟件,從 1985 由惠普實驗室投資開發(fā),1996 年被移植到 Windows 平臺,兩年后對其進行了 C++版本化,2005 年惠普開源了 Tesseract 源碼,2006 年開始由谷歌負責 Tesseract 的后續(xù)開發(fā)維護,從 2011 年發(fā)布的 Tesseract 引擎 3.0版本開始,支持中文的檢測,到 2018 年 10 月末發(fā)布的支持長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)[26]訓(xùn)練的 4.0 版本,經(jīng)過了 30 多年的發(fā)展,Tesseract 開源系統(tǒng)從無到有,到后來支持世界 100 多種語言(包括中文),30 多年間 OCR 技術(shù)得到了較為迅速的發(fā)展,圖 2.4 顯示了Tesseract-ocr 從 1985 年到 2018 年這 30 多年來的主要發(fā)展歷程:
【參考文獻】:
期刊論文
[1]自然場景圖像中的中文文本檢測算法[J]. 繆裕青,劉水清,張萬楨,歐威健,蔡國永. 計算機工程與設(shè)計. 2018(03)
[2]多方向自然場景文本檢測[J]. 何思楠,郭永金,張利. 計算機應(yīng)用研究. 2018(07)
[3]印刷體漢字識別處理技術(shù)綜述[J]. 柴晨陽. 計算機光盤軟件與應(yīng)用. 2014(24)
[4]我國紅頭文件現(xiàn)狀分析[J]. 李秀勤. 合作經(jīng)濟與科技. 2010(11)
[5]自然場景文本定位[J]. 歐文武,朱軍民,劉昌平. 中文信息學(xué)報. 2004(05)
[6]文本分類技術(shù)研究[J]. 高潔,吉根林. 計算機應(yīng)用研究. 2004(07)
碩士論文
[1]紅頭文件檢測關(guān)鍵技術(shù)研究[D]. 王昌杰.浙江理工大學(xué) 2018
[2]基于文本語義相似度的計算機輔助定密系統(tǒng)研究與實現(xiàn)[D]. 連婧.北京交通大學(xué) 2016
[3]違規(guī)外聯(lián)敏感文件的全文檢索及識別[D]. 許琦.北京交通大學(xué) 2014
[4]基于內(nèi)容的敏感圖像識別技術(shù)研究[D]. 劉毅.北京工業(yè)大學(xué) 2013
[5]基于依存句法的信息敏感度研究[D]. 王超.廣西大學(xué) 2013
[6]基于高層語義特征的圖像檢索關(guān)鍵技術(shù)研究[D]. 王繼宗.吉林大學(xué) 2013
[7]基于語義的中文文本預(yù)處理研究[D]. 張寧.西安電子科技大學(xué) 2011
本文編號:3489577
【文章來源】:浙江理工大學(xué)浙江省
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
百度OCR識別效果圖
(a)紅頭文件 (b)OCR 識別圖 2.2 阿里 OCR 識別效果圖2.1.3 騰訊 OCR 識別騰訊通用文字識別 API 采用 HTTP 協(xié)議,POST 方式調(diào)用,返回 JSON 格式的圖像文本識別內(nèi)容,支持本地圖像與 URL 地址圖像的文本識別,API 接口采用免費+收費的方式,免費方式為前一個月免費,額度 1000 張/月,收費方式采用預(yù)付費與后付費兩種方式,相關(guān)收費信息如下表 2.3 所示:表 2.3 騰訊通用文字識別預(yù)付費價格說明資源包規(guī)格 1000 次 1 萬次 10 萬次 100 萬次 1000 萬次身份證 120 元 800 元 5,000 元 30,000 元 200,000 元名片 120 元 800 元 5,000 元 30,000 元 200,000 元駕駛證 120 元 800 元 5,000 元 30,000 元 200,000 元銀行卡 120 元 800 元 5,000 元 30,000 元 200,000 元
(a)紅頭文件 (b)OCR 識別圖 2.3 騰訊 OCR 識別效果圖2.2 Tesseract-ocr 開源系統(tǒng)文字識別Tesseract[25]作為一款著名的開源 OCR 軟件,從 1985 由惠普實驗室投資開發(fā),1996 年被移植到 Windows 平臺,兩年后對其進行了 C++版本化,2005 年惠普開源了 Tesseract 源碼,2006 年開始由谷歌負責 Tesseract 的后續(xù)開發(fā)維護,從 2011 年發(fā)布的 Tesseract 引擎 3.0版本開始,支持中文的檢測,到 2018 年 10 月末發(fā)布的支持長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)[26]訓(xùn)練的 4.0 版本,經(jīng)過了 30 多年的發(fā)展,Tesseract 開源系統(tǒng)從無到有,到后來支持世界 100 多種語言(包括中文),30 多年間 OCR 技術(shù)得到了較為迅速的發(fā)展,圖 2.4 顯示了Tesseract-ocr 從 1985 年到 2018 年這 30 多年來的主要發(fā)展歷程:
【參考文獻】:
期刊論文
[1]自然場景圖像中的中文文本檢測算法[J]. 繆裕青,劉水清,張萬楨,歐威健,蔡國永. 計算機工程與設(shè)計. 2018(03)
[2]多方向自然場景文本檢測[J]. 何思楠,郭永金,張利. 計算機應(yīng)用研究. 2018(07)
[3]印刷體漢字識別處理技術(shù)綜述[J]. 柴晨陽. 計算機光盤軟件與應(yīng)用. 2014(24)
[4]我國紅頭文件現(xiàn)狀分析[J]. 李秀勤. 合作經(jīng)濟與科技. 2010(11)
[5]自然場景文本定位[J]. 歐文武,朱軍民,劉昌平. 中文信息學(xué)報. 2004(05)
[6]文本分類技術(shù)研究[J]. 高潔,吉根林. 計算機應(yīng)用研究. 2004(07)
碩士論文
[1]紅頭文件檢測關(guān)鍵技術(shù)研究[D]. 王昌杰.浙江理工大學(xué) 2018
[2]基于文本語義相似度的計算機輔助定密系統(tǒng)研究與實現(xiàn)[D]. 連婧.北京交通大學(xué) 2016
[3]違規(guī)外聯(lián)敏感文件的全文檢索及識別[D]. 許琦.北京交通大學(xué) 2014
[4]基于內(nèi)容的敏感圖像識別技術(shù)研究[D]. 劉毅.北京工業(yè)大學(xué) 2013
[5]基于依存句法的信息敏感度研究[D]. 王超.廣西大學(xué) 2013
[6]基于高層語義特征的圖像檢索關(guān)鍵技術(shù)研究[D]. 王繼宗.吉林大學(xué) 2013
[7]基于語義的中文文本預(yù)處理研究[D]. 張寧.西安電子科技大學(xué) 2011
本文編號:3489577
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3489577.html
最近更新
教材專著