基于SVM的網絡輿情文本分類研究
發(fā)布時間:2017-04-30 07:02
本文關鍵詞:基于SVM的網絡輿情文本分類研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著微博、論壇的不斷發(fā)展,越來越多的人喜歡在網絡上發(fā)表自己的觀點與看法,網絡事件層出不窮。網絡輿情成為社會輿情的主要反映方式和重點關注對象。但是,面對海量的、快速更新的網絡信息和復雜的網絡信息形式,相關部門難以有效進行收集和分類。因此,對網絡輿情進行自動分類具有現(xiàn)實的需要。本文從網絡輿情的相關概念出發(fā),介紹了網絡輿情數(shù)據(jù)的特點與類型,并深入分析網絡輿情分類主體的特點。在研究分析網絡輿情文本特點及規(guī)律的基礎上,研究現(xiàn)有的各種主題分類技術,如:向量空間模型、特征選擇方法、網絡文本分類方法、評價指標、權重計算方法。其中,重點研究互信息、信息增益、CHI統(tǒng)計、交叉熵、證據(jù)權值等特征選擇算法以及貝葉斯算法、K鄰近值、支持向量機算法等文本分類算法。本文按照最近幾年輿情熱點構建了網絡輿情風險分類體系,分為國家安全、政府執(zhí)政、社會穩(wěn)定、金融經濟、日常生活、資源環(huán)境、精神文明、無風險等八大類。為驗證分類算法的準確性,必須建立自己的輿情語料庫,而國內在語料庫方面尤其是輿情方面極為欠缺,因此需要人工分類。通過對2012年3月份的天涯網帖進行加工整理,建立了基于天涯論壇的網絡輿情語料庫。本文在深入研究支持向量機的算法,重點介紹現(xiàn)有的SVM算法后,提出了一種基于BT-SVM的分類算法。分析比較了目前研究較多的幾種多類支持向量機算法,并對其算法進行詳細描述,比較它們的優(yōu)缺點及性能。重點研究了基于二叉樹的多類SVM分類算法,其類間距離定義方法采用馬氏距離。為驗證該算法分類的效率和準確度,本文設計和實現(xiàn)了網絡輿情文本分類系統(tǒng),該系統(tǒng)分為五個功能模塊,分別為預處理模塊、特征降維模塊、權重計算模塊、文本分類模塊與結果評估模塊。其中,預處理的分詞運用中科院的ICTCLAS系統(tǒng),特征降維模塊實現(xiàn)了互信息、信息增益、CHI統(tǒng)計、證據(jù)權值、交叉熵等多種特征選擇方法,能夠提高特征項選擇的精度。權重計算模塊在對TF*IDF和TF*IG及TF*IDF*IG進行研究后,實現(xiàn)了這三種方法。在文本分類模塊中實現(xiàn)了SVM算法。在結果評估模塊中,使用查準率和查全率對分類結果進行評測,并可對8個類別分別進行評測。結果評估模塊可顯示分類結果并與人工分類結果進行對比。最后,從查準率和查全率兩個方面,對網絡輿情分類系統(tǒng)進行測試。把天涯論壇語料庫語料作為樣本集,對人工分類所得的樣本集進行測試,測試結果準確率達到94.88%。通過實驗驗證了特征選擇、權重計算以及SVM分類算法的有效性和可行性。通過設置不同的特征選擇方式、方法及權重方法分別進行實驗,得出查準率、查全率后進行對比,選擇各種算法中最優(yōu)的方式,分別為:特征選擇方式選取全局方式,特征選擇方法選取期望交叉熵,權重計算方法選取TF*IDF*IG。
【關鍵詞】:支持向量機 文本分類 網絡輿情 天涯語料庫
【學位授予單位】:曲阜師范大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:G254
【目錄】:
- 摘要3-5
- Abstract5-9
- 第1章 緒論9-13
- 1.1 研究背景及意義9-10
- 1.2 國內外研究現(xiàn)狀10-11
- 1.2.1 網絡輿情研究現(xiàn)狀10
- 1.2.2 文本自動分類研究現(xiàn)狀10-11
- 1.3 本文研究內容與組織結構11-13
- 第2章 網絡輿情文本分類基礎研究13-30
- 2.1 網絡輿情與自然語言處理的基礎理論13-18
- 2.1.1 網絡輿情的概念及特點13-15
- 2.1.2 自然語言處理相關研究15-16
- 2.1.3 網絡輿情分類對象的特點分析16-18
- 2.2 網絡輿情文本分類技術18-28
- 2.2.1 主題分類模型18-19
- 2.2.2 文本特征選取19-20
- 2.2.3 文檔表示20-22
- 2.2.4 特征降維方法22-25
- 2.2.5 文本分類方法25-28
- 2.3 實驗分析28-30
- 第3章 支持向量機理論概述及方法30-35
- 3.1 支持向量機基礎理論30-32
- 3.1.1 統(tǒng)計學習理論核心內容30
- 3.1.2 SVM的基本原理30-32
- 3.2 支持向量機分類的基本方法32-35
- 3.2.1 線性可分支持向量機32-33
- 3.2.2 線性不可分支持向量機33
- 3.2.3 非線性可分支持向量機33-34
- 3.2.4 核函數(shù)簡介及選擇34-35
- 第4章 基于BT-SVM的改進算法35-39
- 4.1 常用的多類支持向量機分類方法35
- 4.2 基于二叉樹的多類支持向量機算法(BT-SVM)35-37
- 4.2.1 BT-SVM的基本原理35-36
- 4.2.2 常見二叉樹改進策略36-37
- 4.3 支持向量機算法改進37-38
- 4.4 改進算法實驗驗證38-39
- 第5章 基于BT-SVM的網絡輿情分類系統(tǒng)設計39-54
- 5.1 分類主題的確立39-41
- 5.2 系統(tǒng)總體設計41-42
- 5.2.1 系統(tǒng)的設計目標41
- 5.2.2 系統(tǒng)的基本功能41
- 5.2.3 系統(tǒng)架構41-42
- 5.3 系統(tǒng)模塊設計42-47
- 5.3.1 系統(tǒng)流程42-43
- 5.3.2 系統(tǒng)各功能模塊設計43-47
- 5.4 網絡輿情文本分類系統(tǒng)實現(xiàn)47-54
- 5.4.1 系統(tǒng)的總體界面47-48
- 5.4.2 各模塊的具體實現(xiàn)48-54
- 第6章 基于天涯雜談版的輿情語料分類實驗54-66
- 6.1 天涯雜談版輿情語料使用原因及簡介54
- 6.2 文本分類評估標準54-56
- 6.3 實驗流程56-59
- 6.4 實驗與結果分析59-66
- 6.4.1 概率估算方法實驗59-60
- 6.4.2 特征選擇方式實驗60-62
- 6.4.3 特征評估函數(shù)實驗62-63
- 6.4.4 權重計算實驗63-64
- 6.4.5 支持向量機核函數(shù)實驗64-66
- 第7章 總結與展望66-68
- 7.1 總結66
- 7.2 后續(xù)工作展望66-68
- 參考文獻68-71
- 在校期間發(fā)表的學術論文71-72
- 致謝72
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 田卉;柯惠新;;網絡環(huán)境下的輿論形成模式及調控分析[J];現(xiàn)代傳播(中國傳媒大學學報);2010年01期
本文關鍵詞:基于SVM的網絡輿情文本分類研究,由筆耕文化傳播整理發(fā)布。
本文編號:336434
本文鏈接:http://sikaile.net/tushudanganlunwen/336434.html
教材專著