電子文檔敏感信息深度挖掘技術的研究
本文關鍵詞:電子文檔敏感信息深度挖掘技術的研究
更多相關文章: 敏感信息 NTFS文件系統(tǒng) 復合文檔格式 PDF文檔格式 AMP異構并行編程 多核處理器 并行搜索
【摘要】:隨著信息化技術的快速發(fā)展,不管是敏感信息的存儲、處理和傳遞方式,及存儲敏感信息的介質(zhì)等都發(fā)生了非常大的變化。首先,是敏感信息的存儲方式,從單一紙質(zhì)到攜帶方便的光盤、移動硬盤、U盤及筆記本電腦和臺式主機等設備,都給敏感信息的攜帶、傳播、復制等帶來了方便,但是,隨之帶來的安全隱患也愈演愈烈;其次,法律制度的不完善,也給敏感信息的管理帶來了管理監(jiān)制方面的困難;還有大容量硬盤的不斷出現(xiàn),更增加了敏感信息檢索的難度。針對以上問題,本文研究了電子文檔敏感信息深度挖掘技術,文章不但從深度上提高敏感信息挖掘能力,也從速度上提高了敏感信息挖掘技術的效率。 首先,本文在“引言”中介紹了有關該課題的研究背景及意義,總結了關于該課題的國內(nèi)外研究現(xiàn)狀、存在的問題以及本文需要研究的內(nèi)容等。 其次,本文通過分析現(xiàn)在非常流行的Windows系統(tǒng)下的NTFS文件系統(tǒng)格式,,直接從磁盤中讀取文件信息,并歸類到不同的文件類別里,為下章文本信息提取模塊提供解析的文件信息。 接著,本文又分析了復合文檔與PDF文檔的格式,通過分析其格式,設計了文本信息內(nèi)容提取算法,完成文本信息內(nèi)容提取的過程,并將提取的內(nèi)容按照不同的類型分類,為下章敏感信息的快速定位搜索提供文本內(nèi)容。 最后,針對大容量磁盤給敏感信息挖掘技術帶來的困難,本文利用多核處理器平臺的處理性能,通過并行循環(huán)搜索模式和多線程并行搜索模式,提高了敏感信息的搜索速度。最后給出搜索模型,對并行循環(huán)搜索模式和多線程并行搜索模式的搜索速度進行了比較,效果明顯,證明了本文算法設計的可行性及有效性。
【學位授予單位】:中原工學院
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP333;TP391.1
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 魏宏安;陳忠輝;;電紙書PDF閱讀器的設計與實現(xiàn)[J];福州大學學報(自然科學版);2012年06期
2 趙振洲;趙永峰;;Word文檔結構分析及恢復[J];安徽電子信息職業(yè)技術學院學報;2013年01期
3 付杰;李升;;NTFS文件系統(tǒng)的根目錄INDX文件結構[J];佳木斯大學學報(自然科學版);2009年01期
4 梁金千,張躍;NTFS文件系統(tǒng)的主要數(shù)據(jù)結構[J];計算機工程與應用;2003年08期
5 鐘尚平;陳鐵睿;;基于PDF文檔作為掩體的信息隱寫方法[J];計算機工程;2006年03期
6 高龍;賈宏;周儉;;基于網(wǎng)格技術的并行搜索引擎[J];計算機工程;2009年06期
7 賈廣微;牛銘晨;時英華;萬發(fā)仁;;硬盤數(shù)據(jù)恢復方法及建議[J];農(nóng)業(yè)網(wǎng)絡信息;2011年09期
8 陳慧中;陳永光;景寧;陳犖;;PCPF:一種面向多媒體數(shù)據(jù)庫中高維向量匹配的并行索引結構[J];計算機學報;2011年10期
9 李珍,田學東;PDF文件信息的抽取與分析[J];計算機應用;2003年12期
10 張秀秀;張立峰;;PDF文件文本內(nèi)容提取研究[J];科技情報開發(fā)與經(jīng)濟;2008年36期
本文編號:1201733
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1201733.html