天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于字頻分布的中文網(wǎng)頁(yè)編碼識(shí)別研究

發(fā)布時(shí)間:2018-10-29 14:23
【摘要】:隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)已然與人們的生活緊緊結(jié)合在一起,成為人們分享信息的重要途徑。然而,大量不良網(wǎng)頁(yè)的出現(xiàn)使得網(wǎng)絡(luò)安全的形勢(shì)日趨嚴(yán)峻,成為人們關(guān)注的熱點(diǎn)。網(wǎng)頁(yè)內(nèi)容過濾是網(wǎng)絡(luò)安全中的重要研究領(lǐng)域,而編碼識(shí)別是網(wǎng)頁(yè)內(nèi)容過濾的必要前提。由于歷史和地域原因,中文編碼標(biāo)準(zhǔn)甚多,多種中文編碼共存給中文網(wǎng)頁(yè)的內(nèi)容過濾帶來了不便。因此,如何快速準(zhǔn)確識(shí)別網(wǎng)頁(yè)的編碼成為人們研究的熱門課題。本文介紹了國(guó)標(biāo)碼、大五碼、萬國(guó)碼等中文編碼的特征,研究了貝葉斯分類、Unigram和CodeFinder等編碼識(shí)別算法。上述算法無法排除網(wǎng)頁(yè)中ASCII碼的干擾,導(dǎo)致識(shí)別準(zhǔn)確率和時(shí)間效率低下。針對(duì)這一不足,本文提出了一種基于字頻分布的中文網(wǎng)頁(yè)編碼識(shí)別算法——FKI。FKI根據(jù)漢字的字頻分布,選取使用頻度較高的字符構(gòu)成高頻字符表,以高頻字符編碼作為關(guān)鍵字,在待識(shí)別網(wǎng)頁(yè)中查找,跳過了噪聲(如ASCII碼等)的干擾。通過比較不同碼制的編碼在網(wǎng)頁(yè)中的匹配數(shù)目,最終判定待識(shí)別網(wǎng)頁(yè)的真實(shí)碼制。FKI算法選取高頻字符作為關(guān)鍵字,這些關(guān)鍵字在中文網(wǎng)頁(yè)內(nèi)具有超高的使用率,使得算法幾乎適用于所有中文網(wǎng)頁(yè)編碼的識(shí)別。對(duì)AC算法進(jìn)行改進(jìn),使之適合網(wǎng)頁(yè)內(nèi)中文高頻字符編碼的匹配。改進(jìn)的AC算法構(gòu)建反向狀態(tài)自動(dòng)機(jī),以字節(jié)為單位進(jìn)行關(guān)鍵字查找。當(dāng)出現(xiàn)字節(jié)失配時(shí),以“0”狀態(tài)所對(duì)應(yīng)的字節(jié)作為失配字節(jié)計(jì)算跳轉(zhuǎn)距離,.增大了失配時(shí)的跳轉(zhuǎn)距離,從而提高中文編碼的匹配效率。最后,對(duì)FKI算法、Unigram算法和CodeFinder算法進(jìn)行了對(duì)比測(cè)試。實(shí)驗(yàn)結(jié)果表明,與上述兩種算法相比,FKI算法的編碼識(shí)別準(zhǔn)確率較高且具有優(yōu)越的時(shí)間效率,適合對(duì)未知碼制類型的中文網(wǎng)頁(yè)進(jìn)行快速準(zhǔn)確的編碼識(shí)別。
[Abstract]:With the rapid development of computer technology, the Internet has become an important way for people to share information. However, with the emergence of a large number of bad web pages, the situation of network security is becoming more and more serious, which has become the focus of attention. Web content filtering is an important research field in network security, and coding and recognition is a necessary prerequisite for web content filtering. Due to historical and regional reasons, there are many Chinese coding standards, and the coexistence of multiple Chinese codes brings inconvenience to the content filtering of Chinese web pages. Therefore, how to quickly and accurately identify the coding of web pages has become a hot topic. This paper introduces the features of Chinese coding such as GB code, large five code and Wanguo code, and studies the coding recognition algorithms such as Bayesian classification, Unigram and CodeFinder. The above algorithms can not eliminate the interference of ASCII codes in web pages, resulting in low recognition accuracy and time efficiency. In order to solve this problem, a Chinese page coding recognition algorithm based on word frequency distribution is proposed in this paper. According to the word frequency distribution of Chinese characters, FKI.FKI selects the characters with high frequency to form a high frequency character table. The high frequency character encoding is used as the key word to be searched in the web page to be identified, and the noise (such as ASCII code) is avoided. By comparing the matching number of different codes in the web page, the real code system of the web page to be identified is finally determined. The FKI algorithm selects high-frequency characters as keywords, and these keywords have a high utilization rate in Chinese web pages. The algorithm is suitable for almost all Chinese web page coding recognition. The AC algorithm is improved to fit the matching of Chinese high frequency character encoding in web pages. The improved AC algorithm constructs the reverse state automaton and searches keywords in bytes. When a byte mismatch occurs, the jump distance is calculated by using the byte corresponding to the "0" state as the mismatch byte. The jump distance of mismatch is increased, and the matching efficiency of Chinese coding is improved. Finally, the FKI algorithm, Unigram algorithm and CodeFinder algorithm are compared and tested. The experimental results show that compared with the above two algorithms, the FKI algorithm has higher accuracy and superior time efficiency, and is suitable for fast and accurate coding recognition of Chinese web pages with unknown coding system.
【學(xué)位授予單位】:合肥工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.1;TP393.092

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 ;中文網(wǎng)頁(yè)薈萃(一)[J];信息經(jīng)濟(jì)與技術(shù);1997年03期

2 ;中文網(wǎng)頁(yè)薈萃(二)[J];信息經(jīng)濟(jì)與技術(shù);1997年04期

3 陽(yáng)愛民,孫星明,胡運(yùn)發(fā),李長(zhǎng)云;跨平臺(tái)中文網(wǎng)頁(yè)閱讀系統(tǒng)[J];計(jì)算機(jī)工程;2002年12期

4 馮是聰,王繼民;關(guān)于“中文網(wǎng)頁(yè)自動(dòng)分類競(jìng)賽”結(jié)果的分析[J];中文信息學(xué)報(bào);2003年05期

5 孫瑤琴;;基于內(nèi)容的中文網(wǎng)頁(yè)自動(dòng)分類系統(tǒng)[J];中國(guó)校外教育;2009年07期

6 楊俊峰;;一種中文網(wǎng)頁(yè)消重算法的設(shè)計(jì)與實(shí)現(xiàn)[J];電子技術(shù);2013年09期

7 王鵬;;ZDNet結(jié)識(shí)“人間煙火”[J];每周電腦報(bào);1997年48期

8 張莉,康耀紅,王曙光,張春元;中文網(wǎng)頁(yè)自動(dòng)分類現(xiàn)狀的研究[J];福建電腦;2004年05期

9 ;要聞集錦[J];計(jì)算機(jī)與農(nóng)業(yè);1997年04期

10 ;資訊快遞[J];航空港;2009年06期

相關(guān)會(huì)議論文 前1條

1 李靜靜;閆宏飛;;中文網(wǎng)頁(yè)信息檢索測(cè)試集的構(gòu)建、分析及應(yīng)用[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

相關(guān)重要報(bào)紙文章 前8條

1 ;網(wǎng)上書屋介紹[N];光明日?qǐng)?bào);2000年

2 劉亭;在線保護(hù)你的系統(tǒng)[N];中國(guó)電腦教育報(bào);2002年

3 天津 武金剛;豆仔熱線[N];電腦報(bào);2003年

4 奚東;網(wǎng)絡(luò)語言的“狗化”現(xiàn)象[N];財(cái)經(jīng)時(shí)報(bào);2000年

5 本報(bào)記者 趙齊;慧聰今秋對(duì)決GOOGLE[N];國(guó)際商報(bào);2003年

6 坦冰;圖片搜索引擎“巨無霸”亮相中國(guó)[N];國(guó)際商報(bào);2004年

7 記者 熊偉;慧聰搜索揚(yáng)言要趕超Google[N];計(jì)算機(jī)世界;2003年

8 王哲邋汪秀芬;火狐登陸中國(guó)能否“紅火”?[N];中國(guó)貿(mào)易報(bào);2007年

相關(guān)碩士學(xué)位論文 前10條

1 鄒加棋;中文網(wǎng)頁(yè)自動(dòng)分類關(guān)鍵技術(shù)研究[D];福州大學(xué);2006年

2 陳文斐;基于形式概念分析的中文網(wǎng)頁(yè)分類研究[D];西華大學(xué);2011年

3 劉文琦;中文網(wǎng)頁(yè)自動(dòng)分類技術(shù)的研究與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2007年

4 張浩;基于字頻分布的中文網(wǎng)頁(yè)編碼識(shí)別研究[D];合肥工業(yè)大學(xué);2014年

5 劉海春;基于樸素貝葉斯的中文網(wǎng)頁(yè)分類技術(shù)研究與應(yīng)用[D];華南理工大學(xué);2012年

6 金一寧;基于KNN及相關(guān)鏈接的中文網(wǎng)頁(yè)分類研究[D];哈爾濱工程大學(xué);2008年

7 王緒峰;基于SVM的中文網(wǎng)頁(yè)多類分類問題研究及實(shí)現(xiàn)[D];云南師范大學(xué);2007年

8 張博;基于內(nèi)容安全的中文網(wǎng)頁(yè)過濾系統(tǒng)[D];西安電子科技大學(xué);2006年

9 馮靜;基于向量空間模型的中文網(wǎng)頁(yè)自動(dòng)分類技術(shù)研究[D];中國(guó)石油大學(xué);2008年

10 葛永興;基于貝葉斯算法和后向鏈接的中文網(wǎng)頁(yè)組合分類研究[D];東北師范大學(xué);2009年



本文編號(hào):2297947

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2297947.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d7dc5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com