天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 社科論文 > 圖書檔案論文 >

基于SVM的網(wǎng)絡(luò)輿情文本分類研究

發(fā)布時(shí)間:2017-04-30 07:02

  本文關(guān)鍵詞:基于SVM的網(wǎng)絡(luò)輿情文本分類研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著微博、論壇的不斷發(fā)展,越來越多的人喜歡在網(wǎng)絡(luò)上發(fā)表自己的觀點(diǎn)與看法,網(wǎng)絡(luò)事件層出不窮。網(wǎng)絡(luò)輿情成為社會(huì)輿情的主要反映方式和重點(diǎn)關(guān)注對(duì)象。但是,面對(duì)海量的、快速更新的網(wǎng)絡(luò)信息和復(fù)雜的網(wǎng)絡(luò)信息形式,相關(guān)部門難以有效進(jìn)行收集和分類。因此,對(duì)網(wǎng)絡(luò)輿情進(jìn)行自動(dòng)分類具有現(xiàn)實(shí)的需要。本文從網(wǎng)絡(luò)輿情的相關(guān)概念出發(fā),介紹了網(wǎng)絡(luò)輿情數(shù)據(jù)的特點(diǎn)與類型,并深入分析網(wǎng)絡(luò)輿情分類主體的特點(diǎn)。在研究分析網(wǎng)絡(luò)輿情文本特點(diǎn)及規(guī)律的基礎(chǔ)上,研究現(xiàn)有的各種主題分類技術(shù),如:向量空間模型、特征選擇方法、網(wǎng)絡(luò)文本分類方法、評(píng)價(jià)指標(biāo)、權(quán)重計(jì)算方法。其中,重點(diǎn)研究互信息、信息增益、CHI統(tǒng)計(jì)、交叉熵、證據(jù)權(quán)值等特征選擇算法以及貝葉斯算法、K鄰近值、支持向量機(jī)算法等文本分類算法。本文按照最近幾年輿情熱點(diǎn)構(gòu)建了網(wǎng)絡(luò)輿情風(fēng)險(xiǎn)分類體系,分為國(guó)家安全、政府執(zhí)政、社會(huì)穩(wěn)定、金融經(jīng)濟(jì)、日常生活、資源環(huán)境、精神文明、無風(fēng)險(xiǎn)等八大類。為驗(yàn)證分類算法的準(zhǔn)確性,必須建立自己的輿情語料庫,而國(guó)內(nèi)在語料庫方面尤其是輿情方面極為欠缺,因此需要人工分類。通過對(duì)2012年3月份的天涯網(wǎng)帖進(jìn)行加工整理,建立了基于天涯論壇的網(wǎng)絡(luò)輿情語料庫。本文在深入研究支持向量機(jī)的算法,重點(diǎn)介紹現(xiàn)有的SVM算法后,提出了一種基于BT-SVM的分類算法。分析比較了目前研究較多的幾種多類支持向量機(jī)算法,并對(duì)其算法進(jìn)行詳細(xì)描述,比較它們的優(yōu)缺點(diǎn)及性能。重點(diǎn)研究了基于二叉樹的多類SVM分類算法,其類間距離定義方法采用馬氏距離。為驗(yàn)證該算法分類的效率和準(zhǔn)確度,本文設(shè)計(jì)和實(shí)現(xiàn)了網(wǎng)絡(luò)輿情文本分類系統(tǒng),該系統(tǒng)分為五個(gè)功能模塊,分別為預(yù)處理模塊、特征降維模塊、權(quán)重計(jì)算模塊、文本分類模塊與結(jié)果評(píng)估模塊。其中,預(yù)處理的分詞運(yùn)用中科院的ICTCLAS系統(tǒng),特征降維模塊實(shí)現(xiàn)了互信息、信息增益、CHI統(tǒng)計(jì)、證據(jù)權(quán)值、交叉熵等多種特征選擇方法,能夠提高特征項(xiàng)選擇的精度。權(quán)重計(jì)算模塊在對(duì)TF*IDF和TF*IG及TF*IDF*IG進(jìn)行研究后,實(shí)現(xiàn)了這三種方法。在文本分類模塊中實(shí)現(xiàn)了SVM算法。在結(jié)果評(píng)估模塊中,使用查準(zhǔn)率和查全率對(duì)分類結(jié)果進(jìn)行評(píng)測(cè),并可對(duì)8個(gè)類別分別進(jìn)行評(píng)測(cè)。結(jié)果評(píng)估模塊可顯示分類結(jié)果并與人工分類結(jié)果進(jìn)行對(duì)比。最后,從查準(zhǔn)率和查全率兩個(gè)方面,對(duì)網(wǎng)絡(luò)輿情分類系統(tǒng)進(jìn)行測(cè)試。把天涯論壇語料庫語料作為樣本集,對(duì)人工分類所得的樣本集進(jìn)行測(cè)試,測(cè)試結(jié)果準(zhǔn)確率達(dá)到94.88%。通過實(shí)驗(yàn)驗(yàn)證了特征選擇、權(quán)重計(jì)算以及SVM分類算法的有效性和可行性。通過設(shè)置不同的特征選擇方式、方法及權(quán)重方法分別進(jìn)行實(shí)驗(yàn),得出查準(zhǔn)率、查全率后進(jìn)行對(duì)比,選擇各種算法中最優(yōu)的方式,分別為:特征選擇方式選取全局方式,特征選擇方法選取期望交叉熵,權(quán)重計(jì)算方法選取TF*IDF*IG。
【關(guān)鍵詞】:支持向量機(jī) 文本分類 網(wǎng)絡(luò)輿情 天涯語料庫
【學(xué)位授予單位】:曲阜師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:G254
【目錄】:
  • 摘要3-5
  • Abstract5-9
  • 第1章 緒論9-13
  • 1.1 研究背景及意義9-10
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-11
  • 1.2.1 網(wǎng)絡(luò)輿情研究現(xiàn)狀10
  • 1.2.2 文本自動(dòng)分類研究現(xiàn)狀10-11
  • 1.3 本文研究?jī)?nèi)容與組織結(jié)構(gòu)11-13
  • 第2章 網(wǎng)絡(luò)輿情文本分類基礎(chǔ)研究13-30
  • 2.1 網(wǎng)絡(luò)輿情與自然語言處理的基礎(chǔ)理論13-18
  • 2.1.1 網(wǎng)絡(luò)輿情的概念及特點(diǎn)13-15
  • 2.1.2 自然語言處理相關(guān)研究15-16
  • 2.1.3 網(wǎng)絡(luò)輿情分類對(duì)象的特點(diǎn)分析16-18
  • 2.2 網(wǎng)絡(luò)輿情文本分類技術(shù)18-28
  • 2.2.1 主題分類模型18-19
  • 2.2.2 文本特征選取19-20
  • 2.2.3 文檔表示20-22
  • 2.2.4 特征降維方法22-25
  • 2.2.5 文本分類方法25-28
  • 2.3 實(shí)驗(yàn)分析28-30
  • 第3章 支持向量機(jī)理論概述及方法30-35
  • 3.1 支持向量機(jī)基礎(chǔ)理論30-32
  • 3.1.1 統(tǒng)計(jì)學(xué)習(xí)理論核心內(nèi)容30
  • 3.1.2 SVM的基本原理30-32
  • 3.2 支持向量機(jī)分類的基本方法32-35
  • 3.2.1 線性可分支持向量機(jī)32-33
  • 3.2.2 線性不可分支持向量機(jī)33
  • 3.2.3 非線性可分支持向量機(jī)33-34
  • 3.2.4 核函數(shù)簡(jiǎn)介及選擇34-35
  • 第4章 基于BT-SVM的改進(jìn)算法35-39
  • 4.1 常用的多類支持向量機(jī)分類方法35
  • 4.2 基于二叉樹的多類支持向量機(jī)算法(BT-SVM)35-37
  • 4.2.1 BT-SVM的基本原理35-36
  • 4.2.2 常見二叉樹改進(jìn)策略36-37
  • 4.3 支持向量機(jī)算法改進(jìn)37-38
  • 4.4 改進(jìn)算法實(shí)驗(yàn)驗(yàn)證38-39
  • 第5章 基于BT-SVM的網(wǎng)絡(luò)輿情分類系統(tǒng)設(shè)計(jì)39-54
  • 5.1 分類主題的確立39-41
  • 5.2 系統(tǒng)總體設(shè)計(jì)41-42
  • 5.2.1 系統(tǒng)的設(shè)計(jì)目標(biāo)41
  • 5.2.2 系統(tǒng)的基本功能41
  • 5.2.3 系統(tǒng)架構(gòu)41-42
  • 5.3 系統(tǒng)模塊設(shè)計(jì)42-47
  • 5.3.1 系統(tǒng)流程42-43
  • 5.3.2 系統(tǒng)各功能模塊設(shè)計(jì)43-47
  • 5.4 網(wǎng)絡(luò)輿情文本分類系統(tǒng)實(shí)現(xiàn)47-54
  • 5.4.1 系統(tǒng)的總體界面47-48
  • 5.4.2 各模塊的具體實(shí)現(xiàn)48-54
  • 第6章 基于天涯雜談版的輿情語料分類實(shí)驗(yàn)54-66
  • 6.1 天涯雜談版輿情語料使用原因及簡(jiǎn)介54
  • 6.2 文本分類評(píng)估標(biāo)準(zhǔn)54-56
  • 6.3 實(shí)驗(yàn)流程56-59
  • 6.4 實(shí)驗(yàn)與結(jié)果分析59-66
  • 6.4.1 概率估算方法實(shí)驗(yàn)59-60
  • 6.4.2 特征選擇方式實(shí)驗(yàn)60-62
  • 6.4.3 特征評(píng)估函數(shù)實(shí)驗(yàn)62-63
  • 6.4.4 權(quán)重計(jì)算實(shí)驗(yàn)63-64
  • 6.4.5 支持向量機(jī)核函數(shù)實(shí)驗(yàn)64-66
  • 第7章 總結(jié)與展望66-68
  • 7.1 總結(jié)66
  • 7.2 后續(xù)工作展望66-68
  • 參考文獻(xiàn)68-71
  • 在校期間發(fā)表的學(xué)術(shù)論文71-72
  • 致謝72

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫 前1條

1 田卉;柯惠新;;網(wǎng)絡(luò)環(huán)境下的輿論形成模式及調(diào)控分析[J];現(xiàn)代傳播(中國(guó)傳媒大學(xué)學(xué)報(bào));2010年01期


  本文關(guān)鍵詞:基于SVM的網(wǎng)絡(luò)輿情文本分類研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):336434

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/336434.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1a02c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产男女激情在线视频| 中文字幕欧美精品人妻一区| 国产一级精品色特级色国产| 四季精品人妻av一区二区三区 | 日韩熟妇人妻一区二区三区| 人妻熟女中文字幕在线| 三级理论午夜福利在线看| 亚洲一级在线免费观看| 精品丝袜一区二区三区性色| 欧美日韩亚洲国产综合网| 日韩精品小视频在线观看| 亚洲做性视频在线播放| 国产精品久久久久久久久久久痴汉| 欧美精品久久一二三区| 日韩精品免费一区二区三区| 国产亚洲神马午夜福利| 精品国产亚洲一区二区三区| 国产精品久久熟女吞精| 亚洲成人免费天堂诱惑| 欧美精品亚洲精品日韩专区| 欧美日韩免费观看视频| 好吊视频有精品永久免费| 国产大屁股喷水在线观看视频| 十八禁日本一区二区三区| 亚洲一区二区三区国产| 日韩精品一级片免费看 | 美女黄片大全在线观看| 熟女高潮一区二区三区| 精品国自产拍天天青青草原| 中文字幕久久精品亚洲乱码| 国产一区一一一区麻豆| 日本二区三区在线播放| 国产欧美性成人精品午夜| 亚洲一区二区三区精选| 午夜福利视频六七十路熟女| 欧美又大又黄刺激视频| 在线亚洲成人中文字幕高清 | 日本 一区二区 在线| 亚洲精品一二三区不卡| 麻豆剧果冻传媒一二三区| 国产欧美日韩视频91|