天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于SVM的微博話題跟蹤方法及其應用

發(fā)布時間:2017-03-30 14:10

  本文關(guān)鍵詞:基于SVM的微博話題跟蹤方法及其應用,由筆耕文化傳播整理發(fā)布。


【摘要】:話題跟蹤作為信息處理領(lǐng)域中的一項重要問題,自提出以來就受到了廣泛的關(guān)注,被應用于數(shù)字圖書館、輿情分析等領(lǐng)域。目前,大多數(shù)的話題跟蹤系統(tǒng)研究都是針對新聞信息、博客信息等長文本,關(guān)于微博等社交網(wǎng)絡(luò)短文本信息的研究還比較少。近些年,隨著自然語言處理、機器學習等技術(shù)方法的發(fā)展,話題跟蹤系統(tǒng)構(gòu)建方法也不斷豐富。本文針對微博信息,設(shè)計了一種基于SVM的微博話題自適應跟蹤方法。本方法的最大優(yōu)勢在于能夠?qū)ξ⒉┰掝}進行自動自適應的持續(xù)跟蹤,同時自動對話題演變發(fā)展進行了分析歸納,只有最初的話題模型訓練語料收集以及特征詞表構(gòu)建環(huán)節(jié)需要一些人工處理。 本文的主要工作和研究內(nèi)容如下: 第一,設(shè)計了一種基于SVM的微博話題自適應跟蹤方法,該方法主要包括以下幾個步驟:微博數(shù)據(jù)采集、特征詞表構(gòu)建、分類模型訓練、微博話題發(fā)展演變分析。其中特征詞表構(gòu)建與微博話題發(fā)展演變分析是本文的重點研究內(nèi)容。 第二,研究特征詞表的構(gòu)建,采用了特征選擇的方法,分為三個部分:中文分詞、特征選擇指標選取、特征全局權(quán)重計算。在中文分詞環(huán)節(jié),加入了新詞發(fā)現(xiàn)模塊,提高分詞準確率。比較不同的特征選擇指標,選擇適合話題的評價指標對特征進行篩選。最后,根據(jù)評價指標計算特征詞的全局權(quán)重。 第三,研究話題模型的發(fā)展演變。采用反饋機制對分類模型進行動態(tài)更新,保證跟蹤系統(tǒng)持續(xù)有效地跟蹤后續(xù)微博信息,同時利用LDA方法對新話題進行抽取并進行歸納,檢測話題的遷移轉(zhuǎn)變。 第四,將基于SVM的微博話題自適應跟蹤方法應用到實際微博數(shù)據(jù),,對熱點微博話題進行自動持續(xù)的跟蹤,最后嘗試分析話題的發(fā)展演變軌跡。該方法能夠自動持續(xù)準確地跟蹤話題相關(guān)的微博信息。
【關(guān)鍵詞】:話題跟蹤 特征選擇 SVM 話題演變
【學位授予單位】:北京理工大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1;TP393.092
【目錄】:
  • 摘要4-5
  • Abstract5-7
  • 目錄7-9
  • 第1章 緒論9-14
  • 1.1 本文的研究背景和意義9-10
  • 1.2 國內(nèi)外研究現(xiàn)狀10-12
  • 1.2.1 國外研究現(xiàn)狀10-11
  • 1.2.2 國內(nèi)研究現(xiàn)狀11-12
  • 1.3 主要研究內(nèi)容和創(chuàng)新點12-13
  • 1.4 論文結(jié)構(gòu)及安排13-14
  • 第2章 話題跟蹤相關(guān)技術(shù)14-26
  • 2.1 話題跟蹤技術(shù)14-16
  • 2.1.1 基本概念14
  • 2.1.2 話題跟蹤基本流程14-16
  • 2.2 新詞發(fā)現(xiàn)技術(shù)16-18
  • 2.3 文本表示模型18-20
  • 2.3.1 主題概率模型18-19
  • 2.3.2 向量空間模型19-20
  • 2.4 文本分類技術(shù)20-25
  • 2.4.1 K 最鄰近分類算法(K-Nearest Neighbor,KNN)21
  • 2.4.2 決策樹分類算法(Decision Tree,DT)21-22
  • 2.4.3 樸素貝葉斯分類算法(Naive Bayesian,NB)22-23
  • 2.4.4 支持向量機(Support Vector Machine,SVM)23-25
  • 2.5 本章小結(jié)25-26
  • 第3章 微博話題跟蹤文本模型26-35
  • 3.1 特征選擇和特征抽取26-30
  • 3.1.1 特征選擇(Feature Selection)26-29
  • 3.1.2 特征抽取(Feature Extraction)29-30
  • 3.2 微博文本表示30-33
  • 3.2.1 權(quán)重算法改進必要性30-31
  • 3.2.2 特征權(quán)重計算31-33
  • 3.3 實驗及分析33-34
  • 3.4 本章小結(jié)34-35
  • 第4章 微博話題跟蹤算法35-54
  • 4.1 SVM 模型話題跟蹤算法35-36
  • 4.2 微博話題跟蹤流程36-44
  • 4.2.1 微博數(shù)據(jù)采集與過濾37-38
  • 4.2.2 微博文本分詞38-42
  • 4.2.3 微博文本表示42-44
  • 4.2.4 分類模型訓練44
  • 4.3 微博話題模型更新演變44-48
  • 4.3.1 微博話題模型更新45
  • 4.3.2 微博話題遷移發(fā)現(xiàn)45-47
  • 4.3.3 新話題的抽取和歸納47
  • 4.3.4 微博話題更新演變子系統(tǒng)47-48
  • 4.4 實驗及分析48-53
  • 4.5 本章小結(jié)53-54
  • 第5章 微博話題跟蹤系統(tǒng)設(shè)計及實現(xiàn)54-64
  • 5.1 微博數(shù)據(jù)采集54
  • 5.2 特征詞表構(gòu)建54-59
  • 5.2.1 基于新詞發(fā)現(xiàn)的中文分詞54-57
  • 5.2.2 特征選擇57-58
  • 5.2.3 特征權(quán)重計算58-59
  • 5.3 SVM 分類模型構(gòu)建59
  • 5.4 微博話題跟蹤實驗59-62
  • 5.5 微博話題演變實驗62-63
  • 5.6 本章小結(jié)63-64
  • 結(jié)論64-66
  • 參考文獻66-70
  • 攻讀學位期間發(fā)表論文與研究成果清單70-71
  • 致謝71

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前2條

1 吳悅;燕鵬舉;翟魯峰;;基于二元背景模型的新詞發(fā)現(xiàn)[J];清華大學學報(自然科學版);2011年09期

2 諶志群;徐寧;王榮波;;基于主題演化圖的網(wǎng)絡(luò)論壇熱點跟蹤[J];情報科學;2013年03期

中國博士學位論文全文數(shù)據(jù)庫 前1條

1 彭菲菲;網(wǎng)絡(luò)熱點話題發(fā)現(xiàn)的關(guān)鍵技術(shù)研究[D];中國礦業(yè)大學(北京);2012年


  本文關(guān)鍵詞:基于SVM的微博話題跟蹤方法及其應用,由筆耕文化傳播整理發(fā)布。



本文編號:277305

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/277305.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶36ff0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
亚洲国产丝袜一区二区三区四 | 日韩欧美三级视频在线| 亚洲人午夜精品射精日韩| 嫩草国产福利视频一区二区| 成人三级视频在线观看不卡| 国产日韩欧美在线亚洲| 国产内射一级一片内射高清| 亚洲欧美中文日韩综合| 日韩专区欧美中文字幕| 欧美日韩亚洲国产精品| 一区二区三区免费公开| 亚洲精品小视频在线观看| 午夜福利直播在线视频| 日韩一区二区三区嘿嘿| 视频一区日韩经典中文字幕| 精品老司机视频在线观看| 午夜精品一区二区av| 欧美丰满人妻少妇精品| 麻豆tv传媒在线观看| 国产又长又粗又爽免费视频| 老外那个很粗大做起来很爽| 久久热在线视频免费观看| 欧美成人精品一区二区久久| 国产精品免费自拍视频| 国产精品尹人香蕉综合网| 精品精品国产欧美在线| 久久99精品日韩人妻| 人妻少妇系列中文字幕| 国产精品一区二区三区欧美| 欧美日韩免费观看视频| 日韩欧美国产精品中文字幕| 亚洲最新的黄色录像在线| 日本精品免费在线观看| 偷拍美女洗澡免费视频| 少妇一区二区三区精品| 国产91人妻精品一区二区三区| 亚洲人午夜精品射精日韩| 久久精品一区二区少妇| 人人妻人人澡人人夜夜| 欧美日韩校园春色激情偷拍| 国产一区二区三区不卡|