基于模糊文本還原的不良文本過濾方法研究
發(fā)布時間:2025-03-19 03:07
互聯(lián)網(wǎng)的高速發(fā)展為信息的及時共享創(chuàng)造了良好的條件,網(wǎng)絡中的信息也呈指數(shù)級的增長。但不容忽視的是,網(wǎng)絡的發(fā)展是把雙刃劍,一方面,大量豐富的信息涌入到互聯(lián)網(wǎng)中,這使得用戶能夠更加高效便捷地獲取所需要的信息;另一方面,不法分子也利用網(wǎng)絡傳播速度快這一特點,不斷散播反動、色情等不良信息,危害網(wǎng)絡健康環(huán)境,對現(xiàn)實社會的穩(wěn)定和人民生活帶來了不良影響,這種影響體現(xiàn)在青少年身上尤為明顯。因此,凈化網(wǎng)絡環(huán)境、實現(xiàn)對網(wǎng)絡中不良信息的有效過濾是當前網(wǎng)絡安全建設中亟待解決的問題。網(wǎng)絡中的信息存在的形式多種多樣,其中以文本形式的信息為主,因此對于不良文本的過濾是不良信息過濾的重要組成部分,F(xiàn)階段,對不良文本的過濾方法可以分為兩種,一是借用文本分類的思想,將文本分為正常文本和不良文本,然后通過一定的方式將不良文本進行過濾;二是使用收集到的敏感詞表對文本中的詞匯進行匹配。本文借鑒二者的長處,設計了不良文本的過濾方法,本文的主要工作包括:(1)給出了模糊文本的定義。不良文本中會包含有各種不良詞匯,不法分子為了能夠將這類不良文本在網(wǎng)絡中進行傳播,發(fā)送前通常會將這些不良文本進行模糊處理。我們通過對大量語料的統(tǒng)計和分析,在多...
【文章頁數(shù)】:54 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
變量注釋表
1 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文創(chuàng)新點
1.4 論文組織結構
2 相關理論與技術研究
2.1 信息熵與困惑度
2.2 中文自動分詞
2.3 循環(huán)神經(jīng)網(wǎng)絡
2.4 本章小結
3 模糊文本的判定與還原
3.1 模糊文本的定義
3.2 模糊文本的判定
3.3 字形模糊文本的還原
3.4 本章小結
4 基于拼音轉漢字的字音模糊還原方案
4.1 漢字轉拼音
4.2 拼音轉漢字
4.3 拼音模糊文本的還原
4.4 本章小結
5 基于模糊文本還原的不良文本過濾
5.1 實驗數(shù)據(jù)
5.2 實驗環(huán)境
5.3 評價指標
5.4 實驗對比與結果分析
5.5 本章小結
6 總結與展望
6.1 本文總結
6.2 未來工作展望
參考文獻
作者簡歷
致謝
學位論文數(shù)據(jù)集
本文編號:4036599
【文章頁數(shù)】:54 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
變量注釋表
1 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文創(chuàng)新點
1.4 論文組織結構
2 相關理論與技術研究
2.1 信息熵與困惑度
2.2 中文自動分詞
2.3 循環(huán)神經(jīng)網(wǎng)絡
2.4 本章小結
3 模糊文本的判定與還原
3.1 模糊文本的定義
3.2 模糊文本的判定
3.3 字形模糊文本的還原
3.4 本章小結
4 基于拼音轉漢字的字音模糊還原方案
4.1 漢字轉拼音
4.2 拼音轉漢字
4.3 拼音模糊文本的還原
4.4 本章小結
5 基于模糊文本還原的不良文本過濾
5.1 實驗數(shù)據(jù)
5.2 實驗環(huán)境
5.3 評價指標
5.4 實驗對比與結果分析
5.5 本章小結
6 總結與展望
6.1 本文總結
6.2 未來工作展望
參考文獻
作者簡歷
致謝
學位論文數(shù)據(jù)集
本文編號:4036599
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/4036599.html