移動互聯(lián)網垃圾即時消息檢測算法研究
發(fā)布時間:2024-06-15 04:08
隨著移動互聯(lián)網的快速發(fā)展和移動智能終端的普及,人們在體驗移動通信所帶來便利的同時,也時常遭受到大量垃圾信息的影響。目前,垃圾信息以各種媒體形式,并借助方便的即時通信進行傳播,給社會造成極大危害。為營造良好的通信環(huán)境,研究準確、高效的垃圾即時消息檢測及過濾方法一直是人們關注的焦點。針對移動互聯(lián)網環(huán)境下垃圾即時消息的特點,本文從即時消息文本內容出發(fā),設計并實現(xiàn)了基于樸素貝葉斯方法的垃圾即時消息檢測。首先將搜集的垃圾即時消息數據集分成訓練集和測試集兩部分,分別對其進行文本預處理,并將向量表示的即時消息文本特征用于訓練樸素貝葉斯分類器,再將測試集輸入給訓練好的分類器進行分類。實驗結果表明基于樸素貝葉斯算法的垃圾即時消息檢測方法訓練時間短,實現(xiàn)簡單。由于基于樸素貝葉斯算法的垃圾即時消息檢測方法忽略了即時消息文本特征之間的聯(lián)系,導致分類準確率和召回率都偏低。本文利用深度信念網絡模型能充分挖掘文本特征之間的相關性,設計并實現(xiàn)了基于深度信念網絡模型的文本分類器來實現(xiàn)垃圾即時消息的檢測。其過程為首先對垃圾即時消息進行預處理,之后采用信息增益(IG)方法提取有效特征,通過TF-IDF權重計算對選取的特征進...
【文章頁數】:62 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3994904
【文章頁數】:62 頁
【學位級別】:碩士
【部分圖文】:
圖2.1垃圾即時消息檢測流程圖
中南民族大學專業(yè)碩士學位論文基于樸素貝葉斯算法的垃圾即時消消息檢測總體設計學習算法的檢測方法通常分為兩個階段,一是構造分建的分類器進行檢測的測試階段。如圖2.1所示,即本分類器,主要包括構建垃圾即時消息語料庫、預處練分類器等一系列步驟。對于待檢測的數據樣本,也和文本表示等操....
圖2.2正向最大匹配法分詞過程
9圖2.2正向最大匹配法分詞過程向最大匹配法對垃圾即時消息進行分詞,得到表2.1分詞結果刷卡送好禮!即日起至11月20日,使用您名下任意中行付寶快捷支付消費任意一筆滿59元即可獲贈2萬積分(限千積分即可兌換星巴克任意大杯飲品,周日更享兌一送一刷卡送好禮....
圖2.3貝葉斯分類器設計流程圖
圖2.3貝葉斯分類器設計流程圖實現(xiàn)消息文本語料庫涉及個人隱私問題,目前還沒有一個公實驗數據是從網上搜集和移動手機終時消息,其中垃圾即時消息600條,分為騷擾類、廣告推銷類、違法類和詐消息和普通消息等。選取100條,正常消息100條共500條訓練集和測試集,其中....
圖2.4貝葉斯分類器訓練時長和分類時長對比圖
建貝葉斯分類器,首先提取出用于訓練分類器的特征{,,...12Ttt要構建訓練集和測試集,對訓練集中的特征進行提取,本文以詞為算詞頻,選取權重較大的詞作為特征項集合;對于選定的所有特征每個特征項的特征值以及在各類即時消息文本訓練集中出現(xiàn)的頻型庫,從而為分類器提供分類依據....
本文編號:3994904
本文鏈接:http://sikaile.net/kejilunwen/wltx/3994904.html
最近更新
教材專著