天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 圖書檔案論文 >

基于SVM的網絡輿情文本分類研究

發(fā)布時間:2017-04-30 07:02

  本文關鍵詞:基于SVM的網絡輿情文本分類研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著微博、論壇的不斷發(fā)展,越來越多的人喜歡在網絡上發(fā)表自己的觀點與看法,網絡事件層出不窮。網絡輿情成為社會輿情的主要反映方式和重點關注對象。但是,面對海量的、快速更新的網絡信息和復雜的網絡信息形式,相關部門難以有效進行收集和分類。因此,對網絡輿情進行自動分類具有現(xiàn)實的需要。本文從網絡輿情的相關概念出發(fā),介紹了網絡輿情數(shù)據(jù)的特點與類型,并深入分析網絡輿情分類主體的特點。在研究分析網絡輿情文本特點及規(guī)律的基礎上,研究現(xiàn)有的各種主題分類技術,如:向量空間模型、特征選擇方法、網絡文本分類方法、評價指標、權重計算方法。其中,重點研究互信息、信息增益、CHI統(tǒng)計、交叉熵、證據(jù)權值等特征選擇算法以及貝葉斯算法、K鄰近值、支持向量機算法等文本分類算法。本文按照最近幾年輿情熱點構建了網絡輿情風險分類體系,分為國家安全、政府執(zhí)政、社會穩(wěn)定、金融經濟、日常生活、資源環(huán)境、精神文明、無風險等八大類。為驗證分類算法的準確性,必須建立自己的輿情語料庫,而國內在語料庫方面尤其是輿情方面極為欠缺,因此需要人工分類。通過對2012年3月份的天涯網帖進行加工整理,建立了基于天涯論壇的網絡輿情語料庫。本文在深入研究支持向量機的算法,重點介紹現(xiàn)有的SVM算法后,提出了一種基于BT-SVM的分類算法。分析比較了目前研究較多的幾種多類支持向量機算法,并對其算法進行詳細描述,比較它們的優(yōu)缺點及性能。重點研究了基于二叉樹的多類SVM分類算法,其類間距離定義方法采用馬氏距離。為驗證該算法分類的效率和準確度,本文設計和實現(xiàn)了網絡輿情文本分類系統(tǒng),該系統(tǒng)分為五個功能模塊,分別為預處理模塊、特征降維模塊、權重計算模塊、文本分類模塊與結果評估模塊。其中,預處理的分詞運用中科院的ICTCLAS系統(tǒng),特征降維模塊實現(xiàn)了互信息、信息增益、CHI統(tǒng)計、證據(jù)權值、交叉熵等多種特征選擇方法,能夠提高特征項選擇的精度。權重計算模塊在對TF*IDF和TF*IG及TF*IDF*IG進行研究后,實現(xiàn)了這三種方法。在文本分類模塊中實現(xiàn)了SVM算法。在結果評估模塊中,使用查準率和查全率對分類結果進行評測,并可對8個類別分別進行評測。結果評估模塊可顯示分類結果并與人工分類結果進行對比。最后,從查準率和查全率兩個方面,對網絡輿情分類系統(tǒng)進行測試。把天涯論壇語料庫語料作為樣本集,對人工分類所得的樣本集進行測試,測試結果準確率達到94.88%。通過實驗驗證了特征選擇、權重計算以及SVM分類算法的有效性和可行性。通過設置不同的特征選擇方式、方法及權重方法分別進行實驗,得出查準率、查全率后進行對比,選擇各種算法中最優(yōu)的方式,分別為:特征選擇方式選取全局方式,特征選擇方法選取期望交叉熵,權重計算方法選取TF*IDF*IG。
【關鍵詞】:支持向量機 文本分類 網絡輿情 天涯語料庫
【學位授予單位】:曲阜師范大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:G254
【目錄】:
  • 摘要3-5
  • Abstract5-9
  • 第1章 緒論9-13
  • 1.1 研究背景及意義9-10
  • 1.2 國內外研究現(xiàn)狀10-11
  • 1.2.1 網絡輿情研究現(xiàn)狀10
  • 1.2.2 文本自動分類研究現(xiàn)狀10-11
  • 1.3 本文研究內容與組織結構11-13
  • 第2章 網絡輿情文本分類基礎研究13-30
  • 2.1 網絡輿情與自然語言處理的基礎理論13-18
  • 2.1.1 網絡輿情的概念及特點13-15
  • 2.1.2 自然語言處理相關研究15-16
  • 2.1.3 網絡輿情分類對象的特點分析16-18
  • 2.2 網絡輿情文本分類技術18-28
  • 2.2.1 主題分類模型18-19
  • 2.2.2 文本特征選取19-20
  • 2.2.3 文檔表示20-22
  • 2.2.4 特征降維方法22-25
  • 2.2.5 文本分類方法25-28
  • 2.3 實驗分析28-30
  • 第3章 支持向量機理論概述及方法30-35
  • 3.1 支持向量機基礎理論30-32
  • 3.1.1 統(tǒng)計學習理論核心內容30
  • 3.1.2 SVM的基本原理30-32
  • 3.2 支持向量機分類的基本方法32-35
  • 3.2.1 線性可分支持向量機32-33
  • 3.2.2 線性不可分支持向量機33
  • 3.2.3 非線性可分支持向量機33-34
  • 3.2.4 核函數(shù)簡介及選擇34-35
  • 第4章 基于BT-SVM的改進算法35-39
  • 4.1 常用的多類支持向量機分類方法35
  • 4.2 基于二叉樹的多類支持向量機算法(BT-SVM)35-37
  • 4.2.1 BT-SVM的基本原理35-36
  • 4.2.2 常見二叉樹改進策略36-37
  • 4.3 支持向量機算法改進37-38
  • 4.4 改進算法實驗驗證38-39
  • 第5章 基于BT-SVM的網絡輿情分類系統(tǒng)設計39-54
  • 5.1 分類主題的確立39-41
  • 5.2 系統(tǒng)總體設計41-42
  • 5.2.1 系統(tǒng)的設計目標41
  • 5.2.2 系統(tǒng)的基本功能41
  • 5.2.3 系統(tǒng)架構41-42
  • 5.3 系統(tǒng)模塊設計42-47
  • 5.3.1 系統(tǒng)流程42-43
  • 5.3.2 系統(tǒng)各功能模塊設計43-47
  • 5.4 網絡輿情文本分類系統(tǒng)實現(xiàn)47-54
  • 5.4.1 系統(tǒng)的總體界面47-48
  • 5.4.2 各模塊的具體實現(xiàn)48-54
  • 第6章 基于天涯雜談版的輿情語料分類實驗54-66
  • 6.1 天涯雜談版輿情語料使用原因及簡介54
  • 6.2 文本分類評估標準54-56
  • 6.3 實驗流程56-59
  • 6.4 實驗與結果分析59-66
  • 6.4.1 概率估算方法實驗59-60
  • 6.4.2 特征選擇方式實驗60-62
  • 6.4.3 特征評估函數(shù)實驗62-63
  • 6.4.4 權重計算實驗63-64
  • 6.4.5 支持向量機核函數(shù)實驗64-66
  • 第7章 總結與展望66-68
  • 7.1 總結66
  • 7.2 后續(xù)工作展望66-68
  • 參考文獻68-71
  • 在校期間發(fā)表的學術論文71-72
  • 致謝72

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前1條

1 田卉;柯惠新;;網絡環(huán)境下的輿論形成模式及調控分析[J];現(xiàn)代傳播(中國傳媒大學學報);2010年01期


  本文關鍵詞:基于SVM的網絡輿情文本分類研究,由筆耕文化傳播整理發(fā)布。



本文編號:336434

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/336434.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶1a02c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com