基于主成分分析和K近鄰的文件類(lèi)型識(shí)別算法
本文關(guān)鍵詞:基于主成分分析和K近鄰的文件類(lèi)型識(shí)別算法 出處:《計(jì)算機(jī)應(yīng)用》2016年11期 論文類(lèi)型:期刊論文
更多相關(guān)文章: 文件類(lèi)型識(shí)別 字節(jié)頻率分布 主成分分析 K近鄰
【摘要】:為解決基于文件后綴名和文件特征標(biāo)識(shí)識(shí)別文件類(lèi)型誤判率較高的問(wèn)題,在基于文件內(nèi)容識(shí)別文件類(lèi)型的算法基礎(chǔ)上,提出主成分分析(PCA)和K近鄰(KNN)算法相結(jié)合的文件類(lèi)型識(shí)別算法。首先,使用PCA方法對(duì)樣本預(yù)處理以降低樣本空間的維數(shù);然后,對(duì)降維后的訓(xùn)練樣本集進(jìn)行聚類(lèi)處理,即用聚類(lèi)質(zhì)心代表每種類(lèi)型的文件;最后,針對(duì)訓(xùn)練樣本分布不均勻可能造成的分類(lèi)誤差,提出基于距離加權(quán)的KNN算法。實(shí)驗(yàn)結(jié)果表明,改進(jìn)算法在樣本數(shù)較多的情況下,能降低分類(lèi)的計(jì)算復(fù)雜度,并保持了較高的識(shí)別正確率;而且該算法不依賴文件類(lèi)型的特征標(biāo)識(shí),應(yīng)用范圍更為廣泛。
[Abstract]:In order to solve the problem of high error rate of file type recognition based on file suffix name and file feature identification, the algorithm based on file content recognition file type is proposed. A file type recognition algorithm based on principal component analysis (PCA) and K-nearest neighbor (KNN) algorithm is proposed. Firstly, PCA method is used to preprocess the sample to reduce the dimension of the sample space. Then, the training sample set after dimensionality reduction is clustered, that is, the cluster centroid is used to represent each type of file. Finally, aiming at the classification error caused by uneven distribution of training samples, a distance-weighted KNN algorithm is proposed. The experimental results show that the improved algorithm has a large number of samples. It can reduce the computational complexity of classification and maintain a high recognition accuracy. Moreover, the algorithm does not depend on the feature identification of file type, so it is widely used.
【作者單位】: 中國(guó)科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院;
【基金】:中央高;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(WK2100100024)~~
【分類(lèi)號(hào)】:TP301.6
【正文快照】: 0引言文件類(lèi)型是指文件存儲(chǔ)在計(jì)算機(jī)中使用的特殊編碼方式,計(jì)算機(jī)根據(jù)文件類(lèi)型來(lái)識(shí)別內(nèi)部存儲(chǔ)。每一種類(lèi)型的文件,都對(duì)應(yīng)著一種或多種存儲(chǔ)格式和訪問(wèn)方式。文件類(lèi)型識(shí)別即通過(guò)某種途徑判別文件所屬類(lèi)型的過(guò)程。為了保證計(jì)算機(jī)信息安全,需要設(shè)計(jì)出能準(zhǔn)確且快速地判斷出文件的真
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 林和平;楊晨;;模糊主成分分析方法的研究與分析[J];航空計(jì)算技術(shù);2006年06期
2 林培龍;;基于主成分分析評(píng)價(jià)模型的研究與應(yīng)用[J];信息系統(tǒng)工程;2010年05期
3 張磊;;天津市電子信息產(chǎn)品制造業(yè)競(jìng)爭(zhēng)力分析與評(píng)價(jià)[J];科技和產(chǎn)業(yè);2011年07期
4 李瑜祥;;主成分分析程序及其應(yīng)用[J];自動(dòng)化儀表;1987年04期
5 朱寧;主成分分析在選拔競(jìng)賽隊(duì)員中的應(yīng)用[J];桂林電子工業(yè)學(xué)院學(xué)報(bào);1999年02期
6 姜春燕;林和平;劉丁慧;付希金;紀(jì)永鳳;;灰主成分分析研究及其應(yīng)用[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2007年05期
7 周春生;;主成分分析在大學(xué)生成績(jī)影響因素研究中的應(yīng)用[J];現(xiàn)代計(jì)算機(jī);2013年17期
8 顧紹紅;王永生;王光霞;;主成分分析模型在數(shù)據(jù)處理中的應(yīng)用[J];測(cè)繪科學(xué)技術(shù)學(xué)報(bào);2007年05期
9 李雪梅;張素琴;;主成分分析在區(qū)域經(jīng)濟(jì)分析中的應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2009年19期
10 黎夏,葉嘉安;主成分分析與Cellular Automata在空間決策與城市模擬中的應(yīng)用[J];中國(guó)科學(xué)(D輯:地球科學(xué));2001年08期
相關(guān)會(huì)議論文 前10條
1 么彩蓮;魏寧;;關(guān)于主成分分析的改進(jìn)方法探討[A];中國(guó)現(xiàn)場(chǎng)統(tǒng)計(jì)研究會(huì)第12屆學(xué)術(shù)年會(huì)論文集[C];2005年
2 陳明星;繆柏其;靳韜;;利率影響因素的主成分分析與因子分析[A];中國(guó)現(xiàn)場(chǎng)統(tǒng)計(jì)研究會(huì)第12屆學(xué)術(shù)年會(huì)論文集[C];2005年
3 孫曉東;胡勁松;焦s,
本文編號(hào):1393601
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1393601.html