信息過濾技術(shù)在網(wǎng)站信息監(jiān)管中的應(yīng)用與研究
本文關(guān)鍵詞:信息過濾技術(shù)在網(wǎng)站信息監(jiān)管中的應(yīng)用與研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:目前在全球經(jīng)濟一體化的情勢下,各類網(wǎng)絡(luò)信息深入發(fā)展和傳播,已經(jīng)引起了世界各個國家的高度重視,社交網(wǎng)絡(luò)成為了彼此博弈的新的陣地。我們也發(fā)現(xiàn)在社交網(wǎng)絡(luò)出現(xiàn)了大量的虛假和欺騙信息,還有一些反黨反社會言論,這些都混淆了公眾的判斷,一旦被擴散傳播,還會造成社會恐慌和動蕩。隨著社交網(wǎng)絡(luò)逐漸影響人們的生活和各類信息在各個網(wǎng)絡(luò)的傳播,世界各國都對社交網(wǎng)絡(luò)言論給予了高度重視。對于我國來說,考慮到在世界各地出現(xiàn)的各類突發(fā)事件對國家的影響,應(yīng)該將社交網(wǎng)絡(luò)管理納入工作重點,通過對社交網(wǎng)絡(luò)的監(jiān)管,使它在健康、良性的軌道上發(fā)展,而不要成為別有居心的國家或個人為達到不可告人目的的工具。本文研究的方向就是利用信息過濾技術(shù),將社交網(wǎng)絡(luò)中涉及語言暴力、非法宣傳、色情類文字內(nèi)容從正常的網(wǎng)頁中分離出來,以有效保護社交網(wǎng)絡(luò)信息安全和網(wǎng)絡(luò)的凈化。信息過濾技術(shù)采用的主要方法有基于信息發(fā)布地址和基于信息內(nèi)容關(guān)鍵字,經(jīng)過分析研究發(fā)現(xiàn)其各有優(yōu)缺點。只有采取對信息的內(nèi)容進行詳盡分析,并具體分拆理解,再加上統(tǒng)計算法才能夠提高對網(wǎng)頁內(nèi)容的準確判斷。本文的主要工作包括內(nèi)容提取、中文分詞、特征選擇和提取、文本分類技術(shù)等。1)Web頁內(nèi)容提取;趩l(fā)式方法從web頁面提取用戶感興趣內(nèi)容的技術(shù)實現(xiàn)簡單,很有效。實驗結(jié)果表明,實施啟發(fā)式后生成的web頁面沒有無關(guān)緊要的內(nèi)容鏈接,廣告等內(nèi)容被過濾,用戶關(guān)注的主要內(nèi)容被正確顯示。2)中文分詞算法設(shè)計。以文本中的標點為標記,每兩個標點之間為一句。搜索整個句子進行匹配,當(dāng)遇到終止符時可以理解為得到了一個具有意義的詞,然后把這個詞作為繼續(xù)搜索匹配的基礎(chǔ)。這種循環(huán)匹配方式是線性的,每個字都需要在句子中做到全部匹配,無論該詞的長度是多少,都可以做到保證沒有漏詞。3)文本的向量空間模型。向量空間模型計算文檔之間的相似度,以及文檔的查詢頻率,為文本設(shè)置向量和為文檔的索引詞設(shè)置加權(quán)參數(shù)。4)特征選擇和特征提取。特征選擇是基于設(shè)定的規(guī)則選擇最能充分表現(xiàn)的特征作為代表;特征提取是對原始特征進行分類重組,這樣可以將離散化的原始特征聚集到較少的分類中,利于檢索。5)SVM支持向量機。SVM支持向量機的工作因為創(chuàng)建一個分類器,最大化正面和負面之間的差距,提高利益最大化,對文本分類很有效。通過與其他分類器比較得知:SVM向量機分類器準確性和分類速度都是非常好的。本文設(shè)計的網(wǎng)站信息監(jiān)管功能首先需要收集訓(xùn)練網(wǎng)頁數(shù)據(jù),并對數(shù)據(jù)進行預(yù)處理,去掉網(wǎng)頁中無用的廣告、圖片、視頻等信息內(nèi)容,然后采用文本文檔的方式保存數(shù)據(jù)。接著對文本文檔進行中文分詞和特征計算,這個過程中對較高維度進行特征抽取并執(zhí)行特征降維操作。對所得到的訓(xùn)練數(shù)據(jù)利用支持向量機來獲得用于各個分類的SVM分類器,進而完成訓(xùn)練過程。然后利用所得分類器對測試數(shù)據(jù)進行分類測試,經(jīng)過多次分類結(jié)果反饋評估,根據(jù)測試結(jié)果對參數(shù)做進一步調(diào)整以提高預(yù)測精度。
【關(guān)鍵詞】:Web內(nèi)容提取 中文分詞 特征提取 分類器 信息過濾
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092
【目錄】:
- 摘要4-7
- Abstract7-12
- 第一章 緒論12-17
- 1.1 課題研究背景和意義12-13
- 1.2 信息過濾系統(tǒng)研究現(xiàn)狀13-15
- 1.3 本文研究內(nèi)容和主要工作15-16
- 1.4 論文結(jié)構(gòu)16-17
- 第二章 信息過濾相關(guān)技術(shù)17-37
- 2.1 Web頁內(nèi)容提取17-26
- 2.1.1 啟發(fā)式Web頁內(nèi)容提取17-22
- 2.1.2 機器學(xué)習(xí)提取Web頁內(nèi)容22-26
- 2.2 中文分詞最大匹配算法26-29
- 2.2.1 設(shè)計目標27
- 2.2.2 詞庫27-28
- 2.2.3 中文分詞算法設(shè)計28
- 2.2.4 中文分詞算法的實現(xiàn)細節(jié)28-29
- 2.3 向量空間模型表示文本29-33
- 2.3.1 向量空間模型29-30
- 2.3.2 效果測試30-33
- 2.4 特征選擇和特征提取33-36
- 2.4.1 特征選擇33-35
- 2.4.2 特征提取35-36
- 2.5 本章小結(jié)36-37
- 第三章 文本文檔分類器37-45
- 3.1 歸納學(xué)習(xí)方法38-41
- 3.1.1 分類器38
- 3.1.2 文本表示和特征38-39
- 3.1.3 歸納學(xué)習(xí)的分類器39-41
- 3.2 數(shù)據(jù)集測試41-42
- 3.3 測試結(jié)果42-44
- 3.4 結(jié)論44
- 3.5 本章小結(jié)44-45
- 第四章 網(wǎng)站信息監(jiān)管功能設(shè)計45-51
- 4.1 總體框架設(shè)計45-46
- 4.2 訓(xùn)練集準備46-47
- 4.3 數(shù)據(jù)處理47
- 4.4 模型選擇47-50
- 4.4.1 RBF徑向基本函數(shù)核心47-48
- 4.4.2 交叉驗證和網(wǎng)格搜索48-50
- 4.5 本章小結(jié)50-51
- 第五章 網(wǎng)站信息監(jiān)管功能實現(xiàn)51-60
- 5.1 網(wǎng)站信息數(shù)據(jù)收集51-52
- 5.2 數(shù)據(jù)預(yù)處理52-56
- 5.3 SVM支持向量機訓(xùn)練和測試56-59
- 5.3.1 SVM分類器測試57
- 5.3.2 SVM分類器最終測試結(jié)果57-59
- 5.4 本章小結(jié)59-60
- 第六章 總結(jié)和展望60-62
- 6.1 總結(jié)60-61
- 6.2 展望61-62
- 作者簡介62-63
- 致謝63-64
- 參考文獻64-66
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前9條
1 張永;周振龍;侯莉莉;張世宏;;使用增量SVM進行文本分類[J];蘭州理工大學(xué)學(xué)報;2007年01期
2 陳淑珍;Web文本挖掘中的特征表示與特征提取技術(shù)[J];三明高等專科學(xué)校學(xué)報;2004年02期
3 李榮陸,胡運發(fā);基于密度的kNN文本分類器訓(xùn)練樣本裁剪方法[J];計算機研究與發(fā)展;2004年04期
4 楊曉懿 ,劉嘉勇;基于內(nèi)容的信息安全過濾技術(shù)[J];信息網(wǎng)絡(luò)安全;2004年04期
5 李保利,陳玉忠,俞士汶;信息抽取研究綜述[J];計算機工程與應(yīng)用;2003年10期
6 李效東,顧毓清;基于DOM的Web信息提取[J];計算機學(xué)報;2002年05期
7 唐懿芳 ,牛力 ,傅賽香 ,嚴小衛(wèi);文本的自動分類[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2001年04期
8 劉明吉;王秀峰;黃亞樓;;數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理[J];計算機科學(xué);2000年04期
9 陳濤;謝陽群;;文本分類中的特征降維方法綜述[J];情報學(xué)報;2005年06期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 張治平;Web信息精確獲取技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2004年
2 張海燕;基于分詞的中文文本自動分類研究與實現(xiàn)[D];湖南大學(xué);2002年
本文關(guān)鍵詞:信息過濾技術(shù)在網(wǎng)站信息監(jiān)管中的應(yīng)用與研究,由筆耕文化傳播整理發(fā)布。
本文編號:373728
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/373728.html