一種基于改進(jìn)模糊哈希的文件比較算法研究
發(fā)布時(shí)間:2017-10-28 17:18
本文關(guān)鍵詞:一種基于改進(jìn)模糊哈希的文件比較算法研究
更多相關(guān)文章: 模糊哈希 局部敏感 文件比較 滾動(dòng)哈希
【摘要】:模糊哈希算法廣泛應(yīng)用于同源相似文件的檢索、惡意代碼檢測(cè)、電子數(shù)據(jù)取證等領(lǐng)域。模糊哈希算法首先依據(jù)文件長(zhǎng)度和文件內(nèi)容檢測(cè)對(duì)文件進(jìn)行分片,再對(duì)每一個(gè)分片進(jìn)行滾動(dòng)哈希運(yùn)算,最后將各分片的哈希值連接在一起,形成文件指紋,實(shí)現(xiàn)了具有局部敏感特性的近似最鄰近搜索。文章采用了關(guān)鍵詞觸發(fā)的變長(zhǎng)分片策略和基于simhash的滾動(dòng)哈希計(jì)算方法對(duì)現(xiàn)有的模糊哈希算法進(jìn)行改進(jìn),克服了分片長(zhǎng)度依賴于文件長(zhǎng)度、觸發(fā)條件與分片中內(nèi)容無(wú)緊密聯(lián)系、運(yùn)算性能受滾動(dòng)窗口長(zhǎng)度制約的缺陷。基于多種語(yǔ)料庫(kù)的文件比較實(shí)驗(yàn)表明,文章提出的改進(jìn)模糊哈希算法可以有效地實(shí)現(xiàn)同源相似文件的發(fā)現(xiàn),且具備支持多級(jí)信息粒度比較的能力。
【作者單位】: 北京明朝萬(wàn)達(dá)科技股份有限公司;國(guó)家質(zhì)檢總局信息中心;
【關(guān)鍵詞】: 模糊哈希 局部敏感 文件比較 滾動(dòng)哈希
【基金】:國(guó)家信息安全專項(xiàng)[20131309]
【分類號(hào)】:TP309
【正文快照】: 0引言隨著網(wǎng)絡(luò)化帶來(lái)的數(shù)字信息的爆炸式增長(zhǎng),信息檢索、冗余去除和安全檢測(cè)已經(jīng)成為信息交流與應(yīng)用中的關(guān)鍵環(huán)節(jié)。尤其在病毒查殺、數(shù)據(jù)防泄露等應(yīng)用領(lǐng)域,需要結(jié)合白名單或黑名單對(duì)海量的文件進(jìn)行同源相似性判斷,對(duì)病毒變種或包含企業(yè)涉密信息的文件進(jìn)行確認(rèn)、定位、隔離或清
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 肖美華,劉文革;優(yōu)化文件分配及磁盤(pán)文件存儲(chǔ)之策略[J];南昌航空工業(yè)學(xué)院學(xué)報(bào);2001年01期
2 嚴(yán)小衛(wèi);;通過(guò)改變文件分配簇進(jìn)行的加密和解密[J];微型機(jī)與應(yīng)用;1990年11期
3 陳俊杰,張武生,沈美明,鄭緯民;文件分配問(wèn)題的一種動(dòng)態(tài)解決算法[J];小型微型計(jì)算機(jī)系統(tǒng);2004年07期
4 邵志毅;;文件恢復(fù)的可行性分析[J];陜西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年S2期
5 賀新征;費(fèi)金龍;劉楠;祝躍飛;;基于文件過(guò)濾驅(qū)動(dòng)的數(shù)據(jù)安全系統(tǒng)的研究與實(shí)現(xiàn)[J];微電子學(xué)與計(jì)算機(jī);2008年03期
6 王明哲;;試談根據(jù),
本文編號(hào):1109201
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1109201.html
最近更新
教材專著