信息過濾技術(shù)在網(wǎng)站信息監(jiān)管中的應(yīng)用與研究
本文關(guān)鍵詞:信息過濾技術(shù)在網(wǎng)站信息監(jiān)管中的應(yīng)用與研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:目前在全球經(jīng)濟(jì)一體化的情勢(shì)下,各類網(wǎng)絡(luò)信息深入發(fā)展和傳播,已經(jīng)引起了世界各個(gè)國(guó)家的高度重視,社交網(wǎng)絡(luò)成為了彼此博弈的新的陣地。我們也發(fā)現(xiàn)在社交網(wǎng)絡(luò)出現(xiàn)了大量的虛假和欺騙信息,還有一些反黨反社會(huì)言論,這些都混淆了公眾的判斷,一旦被擴(kuò)散傳播,還會(huì)造成社會(huì)恐慌和動(dòng)蕩。隨著社交網(wǎng)絡(luò)逐漸影響人們的生活和各類信息在各個(gè)網(wǎng)絡(luò)的傳播,世界各國(guó)都對(duì)社交網(wǎng)絡(luò)言論給予了高度重視。對(duì)于我國(guó)來說,考慮到在世界各地出現(xiàn)的各類突發(fā)事件對(duì)國(guó)家的影響,應(yīng)該將社交網(wǎng)絡(luò)管理納入工作重點(diǎn),通過對(duì)社交網(wǎng)絡(luò)的監(jiān)管,使它在健康、良性的軌道上發(fā)展,而不要成為別有居心的國(guó)家或個(gè)人為達(dá)到不可告人目的的工具。本文研究的方向就是利用信息過濾技術(shù),將社交網(wǎng)絡(luò)中涉及語言暴力、非法宣傳、色情類文字內(nèi)容從正常的網(wǎng)頁中分離出來,以有效保護(hù)社交網(wǎng)絡(luò)信息安全和網(wǎng)絡(luò)的凈化。信息過濾技術(shù)采用的主要方法有基于信息發(fā)布地址和基于信息內(nèi)容關(guān)鍵字,經(jīng)過分析研究發(fā)現(xiàn)其各有優(yōu)缺點(diǎn)。只有采取對(duì)信息的內(nèi)容進(jìn)行詳盡分析,并具體分拆理解,再加上統(tǒng)計(jì)算法才能夠提高對(duì)網(wǎng)頁內(nèi)容的準(zhǔn)確判斷。本文的主要工作包括內(nèi)容提取、中文分詞、特征選擇和提取、文本分類技術(shù)等。1)Web頁內(nèi)容提取;趩l(fā)式方法從web頁面提取用戶感興趣內(nèi)容的技術(shù)實(shí)現(xiàn)簡(jiǎn)單,很有效。實(shí)驗(yàn)結(jié)果表明,實(shí)施啟發(fā)式后生成的web頁面沒有無關(guān)緊要的內(nèi)容鏈接,廣告等內(nèi)容被過濾,用戶關(guān)注的主要內(nèi)容被正確顯示。2)中文分詞算法設(shè)計(jì)。以文本中的標(biāo)點(diǎn)為標(biāo)記,每?jī)蓚(gè)標(biāo)點(diǎn)之間為一句。搜索整個(gè)句子進(jìn)行匹配,當(dāng)遇到終止符時(shí)可以理解為得到了一個(gè)具有意義的詞,然后把這個(gè)詞作為繼續(xù)搜索匹配的基礎(chǔ)。這種循環(huán)匹配方式是線性的,每個(gè)字都需要在句子中做到全部匹配,無論該詞的長(zhǎng)度是多少,都可以做到保證沒有漏詞。3)文本的向量空間模型。向量空間模型計(jì)算文檔之間的相似度,以及文檔的查詢頻率,為文本設(shè)置向量和為文檔的索引詞設(shè)置加權(quán)參數(shù)。4)特征選擇和特征提取。特征選擇是基于設(shè)定的規(guī)則選擇最能充分表現(xiàn)的特征作為代表;特征提取是對(duì)原始特征進(jìn)行分類重組,這樣可以將離散化的原始特征聚集到較少的分類中,利于檢索。5)SVM支持向量機(jī)。SVM支持向量機(jī)的工作因?yàn)閯?chuàng)建一個(gè)分類器,最大化正面和負(fù)面之間的差距,提高利益最大化,對(duì)文本分類很有效。通過與其他分類器比較得知:SVM向量機(jī)分類器準(zhǔn)確性和分類速度都是非常好的。本文設(shè)計(jì)的網(wǎng)站信息監(jiān)管功能首先需要收集訓(xùn)練網(wǎng)頁數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,去掉網(wǎng)頁中無用的廣告、圖片、視頻等信息內(nèi)容,然后采用文本文檔的方式保存數(shù)據(jù)。接著對(duì)文本文檔進(jìn)行中文分詞和特征計(jì)算,這個(gè)過程中對(duì)較高維度進(jìn)行特征抽取并執(zhí)行特征降維操作。對(duì)所得到的訓(xùn)練數(shù)據(jù)利用支持向量機(jī)來獲得用于各個(gè)分類的SVM分類器,進(jìn)而完成訓(xùn)練過程。然后利用所得分類器對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類測(cè)試,經(jīng)過多次分類結(jié)果反饋評(píng)估,根據(jù)測(cè)試結(jié)果對(duì)參數(shù)做進(jìn)一步調(diào)整以提高預(yù)測(cè)精度。
【關(guān)鍵詞】:Web內(nèi)容提取 中文分詞 特征提取 分類器 信息過濾
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092
【目錄】:
- 摘要4-7
- Abstract7-12
- 第一章 緒論12-17
- 1.1 課題研究背景和意義12-13
- 1.2 信息過濾系統(tǒng)研究現(xiàn)狀13-15
- 1.3 本文研究?jī)?nèi)容和主要工作15-16
- 1.4 論文結(jié)構(gòu)16-17
- 第二章 信息過濾相關(guān)技術(shù)17-37
- 2.1 Web頁內(nèi)容提取17-26
- 2.1.1 啟發(fā)式Web頁內(nèi)容提取17-22
- 2.1.2 機(jī)器學(xué)習(xí)提取Web頁內(nèi)容22-26
- 2.2 中文分詞最大匹配算法26-29
- 2.2.1 設(shè)計(jì)目標(biāo)27
- 2.2.2 詞庫(kù)27-28
- 2.2.3 中文分詞算法設(shè)計(jì)28
- 2.2.4 中文分詞算法的實(shí)現(xiàn)細(xì)節(jié)28-29
- 2.3 向量空間模型表示文本29-33
- 2.3.1 向量空間模型29-30
- 2.3.2 效果測(cè)試30-33
- 2.4 特征選擇和特征提取33-36
- 2.4.1 特征選擇33-35
- 2.4.2 特征提取35-36
- 2.5 本章小結(jié)36-37
- 第三章 文本文檔分類器37-45
- 3.1 歸納學(xué)習(xí)方法38-41
- 3.1.1 分類器38
- 3.1.2 文本表示和特征38-39
- 3.1.3 歸納學(xué)習(xí)的分類器39-41
- 3.2 數(shù)據(jù)集測(cè)試41-42
- 3.3 測(cè)試結(jié)果42-44
- 3.4 結(jié)論44
- 3.5 本章小結(jié)44-45
- 第四章 網(wǎng)站信息監(jiān)管功能設(shè)計(jì)45-51
- 4.1 總體框架設(shè)計(jì)45-46
- 4.2 訓(xùn)練集準(zhǔn)備46-47
- 4.3 數(shù)據(jù)處理47
- 4.4 模型選擇47-50
- 4.4.1 RBF徑向基本函數(shù)核心47-48
- 4.4.2 交叉驗(yàn)證和網(wǎng)格搜索48-50
- 4.5 本章小結(jié)50-51
- 第五章 網(wǎng)站信息監(jiān)管功能實(shí)現(xiàn)51-60
- 5.1 網(wǎng)站信息數(shù)據(jù)收集51-52
- 5.2 數(shù)據(jù)預(yù)處理52-56
- 5.3 SVM支持向量機(jī)訓(xùn)練和測(cè)試56-59
- 5.3.1 SVM分類器測(cè)試57
- 5.3.2 SVM分類器最終測(cè)試結(jié)果57-59
- 5.4 本章小結(jié)59-60
- 第六章 總結(jié)和展望60-62
- 6.1 總結(jié)60-61
- 6.2 展望61-62
- 作者簡(jiǎn)介62-63
- 致謝63-64
- 參考文獻(xiàn)64-66
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條
1 張永;周振龍;侯莉莉;張世宏;;使用增量SVM進(jìn)行文本分類[J];蘭州理工大學(xué)學(xué)報(bào);2007年01期
2 陳淑珍;Web文本挖掘中的特征表示與特征提取技術(shù)[J];三明高等?茖W(xué)校學(xué)報(bào);2004年02期
3 李榮陸,胡運(yùn)發(fā);基于密度的kNN文本分類器訓(xùn)練樣本裁剪方法[J];計(jì)算機(jī)研究與發(fā)展;2004年04期
4 楊曉懿 ,劉嘉勇;基于內(nèi)容的信息安全過濾技術(shù)[J];信息網(wǎng)絡(luò)安全;2004年04期
5 李保利,陳玉忠,俞士汶;信息抽取研究綜述[J];計(jì)算機(jī)工程與應(yīng)用;2003年10期
6 李效東,顧毓清;基于DOM的Web信息提取[J];計(jì)算機(jī)學(xué)報(bào);2002年05期
7 唐懿芳 ,牛力 ,傅賽香 ,嚴(yán)小衛(wèi);文本的自動(dòng)分類[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年04期
8 劉明吉;王秀峰;黃亞樓;;數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理[J];計(jì)算機(jī)科學(xué);2000年04期
9 陳濤;謝陽群;;文本分類中的特征降維方法綜述[J];情報(bào)學(xué)報(bào);2005年06期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 張治平;Web信息精確獲取技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2004年
2 張海燕;基于分詞的中文文本自動(dòng)分類研究與實(shí)現(xiàn)[D];湖南大學(xué);2002年
本文關(guān)鍵詞:信息過濾技術(shù)在網(wǎng)站信息監(jiān)管中的應(yīng)用與研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):373728
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/373728.html