互聯(lián)網(wǎng)不良信息采集抽取及識別技術(shù)研究
發(fā)布時間:2017-08-10 17:30
本文關(guān)鍵詞:互聯(lián)網(wǎng)不良信息采集抽取及識別技術(shù)研究
更多相關(guān)文章: 信息采集 信息抽取 不良信息識別 word2vec
【摘要】:近年來隨著論壇、社區(qū)、微博等社交網(wǎng)絡(luò)的迅猛發(fā)展,加快了網(wǎng)民在互聯(lián)網(wǎng)上發(fā)布、傳播信息的速度,網(wǎng)民可以毫無拘束的在社交網(wǎng)絡(luò)上表述自己的政治觀點、評述突發(fā)事件、監(jiān)督公共事件等。這也使得網(wǎng)絡(luò)上發(fā)布黃色、暴力、賭博甚至反動言論等不良信息時有發(fā)生,這類不良網(wǎng)頁信息隨著現(xiàn)代互聯(lián)網(wǎng)的蓬勃發(fā)展呈現(xiàn)著蔓延之勢,引起社會各界的極大關(guān)注。因此如何強化網(wǎng)頁不良內(nèi)容的識別的能力,提高輿情監(jiān)測的質(zhì)量和效率,成為一個技術(shù)工作者需要解決的一個重要課題。論文的研究工作依托“互聯(lián)網(wǎng)不良信息監(jiān)測管理平臺”為支撐,從項目實際應(yīng)用需求出發(fā),對互聯(lián)網(wǎng)不良信息監(jiān)測管理平臺、網(wǎng)頁信息抓取和抽取以及不良信息識別的國內(nèi)外研究現(xiàn)狀及存在的問題進行了分析,設(shè)計并實現(xiàn)了基于論壇微博信息采集抽取以及不良信息識別方案,引入基于隱馬爾科夫的詞極性標注對word2vec詞擴展的改進,對敏感基礎(chǔ)詞庫中的特征詞進行了擴充,并對方法的準確性、可行性進行了評估與驗證。在論壇、微博采集與抽取的研究中,通過對論壇與微博的結(jié)構(gòu)進行分析,制定出了一套針對論壇、微博的頁面采集方案,可靈活的針對不同待解析的“元素”做出相應(yīng)的針對性抽取,并可在可視化網(wǎng)頁中對相應(yīng)的抓取和抽取的配置進行設(shè)置。解析某個站點時,根據(jù)各個“元素”的抽取規(guī)則,解析出站點頁面中各個“元素”的文本,并封裝成標準化文檔。實驗表明,該方法可以根據(jù)制定的規(guī)則快速、便捷的抽取頁面信息,且有較好的準確率及召回率。在不良信息識別的研究中,利用word2vec對敏感基礎(chǔ)詞庫進行相關(guān)詞擴展時,引入基于隱馬爾科夫的詞極性標注,篩選掉“背離詞”形成特征詞集,最后根據(jù)特征詞的權(quán)值計算并結(jié)合SVM分類器完成對不良信息的識別工作,獲得了良好的識別效果。
【關(guān)鍵詞】:信息采集 信息抽取 不良信息識別 word2vec
【學位授予單位】:昆明理工大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP274.2;TP393.09;TP391.1
【目錄】:
- 摘要5-6
- Abstract6-11
- 第一章 緒論11-17
- 1.1 論文的研究背景及意義11-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-14
- 1.3 論文課題來源14
- 1.4 論文主要研究內(nèi)容14-15
- 1.5 論文結(jié)構(gòu)15-16
- 1.6 本章小結(jié)16-17
- 第二章 相關(guān)技術(shù)簡介17-27
- 2.1 Web信息抽取相關(guān)技術(shù)17-19
- 2.1.1 Web信息抽取17
- 2.1.2 Web信息抽取技術(shù)分析17-18
- 2.1.3 抽取評價指標18-19
- 2.2 文本預處理19-20
- 2.3 SVM分類算法20
- 2.4 隱馬爾科夫模型20-21
- 2.4.1 離散馬爾科夫(Markov)過程20-21
- 2.4.2 隱馬爾科夫模型21
- 2.4.3 HMM模型的三個基本問題21
- 2.5 詞向量21-22
- 2.5.1 單一表示22
- 2.5.2 分散表示22
- 2.6 統(tǒng)計語言模型22-24
- 2.7 神經(jīng)網(wǎng)絡(luò)模型24-26
- 2.8 本章小結(jié)26-27
- 第三章 互聯(lián)網(wǎng)不良信息監(jiān)測管理平臺概述27-33
- 3.1 互聯(lián)網(wǎng)不良信息監(jiān)測管理平臺簡介27
- 3.2 互聯(lián)網(wǎng)不良信息監(jiān)測管理平臺中信息采集及抽取子系統(tǒng)概述27-29
- 3.3 互聯(lián)網(wǎng)不良信息監(jiān)測管理平臺中的不良信息識別子系統(tǒng)概述29-31
- 3.4 論文研究的關(guān)鍵問題分析31
- 3.5 本章小結(jié)31-33
- 第四章 信息采集抽取的設(shè)計與實現(xiàn)33-53
- 4.1 論壇、微博信息采集抽取子系統(tǒng)框架設(shè)計33-34
- 4.1.1 信息采集的設(shè)計目標33
- 4.1.2 信息抽取的設(shè)計目標33-34
- 4.1.3 系統(tǒng)框架設(shè)計34
- 4.2 爬取策略34-41
- 4.2.1 論壇爬取策略35-38
- 4.2.1.1 通用網(wǎng)絡(luò)爬蟲采集原理35
- 4.2.1.2 針對論壇結(jié)構(gòu)特點分析35-37
- 4.2.1.3 針對論壇信息采集的抓取任務(wù)定制37
- 4.2.1.4 論壇采集策略37-38
- 4.2.2 微博采集策略38-41
- 4.2.2.1 針對微博結(jié)構(gòu)特點分析38-40
- 4.2.2.2 針對微博采集的抓取任務(wù)定制40
- 4.2.2.3 微博采集策略40-41
- 4.3 基于結(jié)構(gòu)的論壇、微博信息抽取的方法41-42
- 4.4 信息采集子系統(tǒng)的設(shè)計與實現(xiàn)42-46
- 4.4.1 信息采集子系統(tǒng)的實現(xiàn)42-45
- 4.4.1.1 信息采集子系統(tǒng)的靜態(tài)結(jié)構(gòu)圖42-44
- 4.4.1.2 信息采集子系統(tǒng)的動態(tài)模型44-45
- 4.4.2 信息采集子系統(tǒng)的存儲結(jié)構(gòu)45-46
- 4.5 信息抽取子系統(tǒng)的設(shè)計與實現(xiàn)46-49
- 4.5.1 信息抽取子系統(tǒng)的實現(xiàn)46-48
- 4.5.1.1 信息抽取子系統(tǒng)的靜態(tài)結(jié)構(gòu)圖46-48
- 4.5.1.2 信息抽取子系統(tǒng)的動態(tài)模型48
- 4.5.2 信息抽取子系統(tǒng)的存儲結(jié)構(gòu)48-49
- 4.6 系統(tǒng)部分界面概覽49-50
- 4.7 實驗結(jié)果及分析50-51
- 4.8 本章小結(jié)51-53
- 第五章 基于特征的不良信息識別研究與設(shè)計53-71
- 5.1 不良信息識別設(shè)計目標53
- 5.2 不良信息識別系統(tǒng)設(shè)計53-63
- 5.2.1 特征詞擴展分析54
- 5.2.2 不良信息識別系統(tǒng)框架54-56
- 5.2.3 數(shù)據(jù)預處理器56
- 5.2.4 特征擴展器56-63
- 5.2.4.1 特征擴展的總體框架57
- 5.2.4.2 基于HMM的詞極性標注57-61
- 5.2.4.3 基于word2vec的詞擴展61-63
- 5.2.4.4 特征權(quán)重計算器63
- 5.3 不良信息識別子系統(tǒng)設(shè)計與實現(xiàn)63-66
- 5.3.1 不良信息識別子系統(tǒng)的靜態(tài)結(jié)構(gòu)圖63-65
- 5.3.2 不良信息識別子系統(tǒng)的動態(tài)模型65
- 5.3.3 不良信息識別子系統(tǒng)的存儲結(jié)構(gòu)65-66
- 5.4 系統(tǒng)部分界面概覽66-67
- 5.5 實驗結(jié)果與分析67-69
- 5.6 本章小結(jié)69-71
- 第六章 總結(jié)與展望71-73
- 6.1 論文總結(jié)71
- 6.2 研究展望71-73
- 致謝73-75
- 參考文獻75-79
- 附錄A:攻讀碩士學位期間發(fā)表的論文79-81
- 附錄B:攻讀碩士學位期間參與完成的科研成果81
本文編號:652014
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/652014.html
最近更新
教材專著