基于SVM的微博話題跟蹤方法及其應用
發(fā)布時間:2017-03-30 14:10
本文關(guān)鍵詞:基于SVM的微博話題跟蹤方法及其應用,由筆耕文化傳播整理發(fā)布。
【摘要】:話題跟蹤作為信息處理領(lǐng)域中的一項重要問題,自提出以來就受到了廣泛的關(guān)注,被應用于數(shù)字圖書館、輿情分析等領(lǐng)域。目前,大多數(shù)的話題跟蹤系統(tǒng)研究都是針對新聞信息、博客信息等長文本,關(guān)于微博等社交網(wǎng)絡(luò)短文本信息的研究還比較少。近些年,隨著自然語言處理、機器學習等技術(shù)方法的發(fā)展,話題跟蹤系統(tǒng)構(gòu)建方法也不斷豐富。本文針對微博信息,設(shè)計了一種基于SVM的微博話題自適應跟蹤方法。本方法的最大優(yōu)勢在于能夠?qū)ξ⒉┰掝}進行自動自適應的持續(xù)跟蹤,同時自動對話題演變發(fā)展進行了分析歸納,只有最初的話題模型訓練語料收集以及特征詞表構(gòu)建環(huán)節(jié)需要一些人工處理。 本文的主要工作和研究內(nèi)容如下: 第一,設(shè)計了一種基于SVM的微博話題自適應跟蹤方法,該方法主要包括以下幾個步驟:微博數(shù)據(jù)采集、特征詞表構(gòu)建、分類模型訓練、微博話題發(fā)展演變分析。其中特征詞表構(gòu)建與微博話題發(fā)展演變分析是本文的重點研究內(nèi)容。 第二,研究特征詞表的構(gòu)建,采用了特征選擇的方法,分為三個部分:中文分詞、特征選擇指標選取、特征全局權(quán)重計算。在中文分詞環(huán)節(jié),加入了新詞發(fā)現(xiàn)模塊,提高分詞準確率。比較不同的特征選擇指標,選擇適合話題的評價指標對特征進行篩選。最后,根據(jù)評價指標計算特征詞的全局權(quán)重。 第三,研究話題模型的發(fā)展演變。采用反饋機制對分類模型進行動態(tài)更新,保證跟蹤系統(tǒng)持續(xù)有效地跟蹤后續(xù)微博信息,同時利用LDA方法對新話題進行抽取并進行歸納,檢測話題的遷移轉(zhuǎn)變。 第四,將基于SVM的微博話題自適應跟蹤方法應用到實際微博數(shù)據(jù),,對熱點微博話題進行自動持續(xù)的跟蹤,最后嘗試分析話題的發(fā)展演變軌跡。該方法能夠自動持續(xù)準確地跟蹤話題相關(guān)的微博信息。
【關(guān)鍵詞】:話題跟蹤 特征選擇 SVM 話題演變
【學位授予單位】:北京理工大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1;TP393.092
【目錄】:
- 摘要4-5
- Abstract5-7
- 目錄7-9
- 第1章 緒論9-14
- 1.1 本文的研究背景和意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-12
- 1.2.1 國外研究現(xiàn)狀10-11
- 1.2.2 國內(nèi)研究現(xiàn)狀11-12
- 1.3 主要研究內(nèi)容和創(chuàng)新點12-13
- 1.4 論文結(jié)構(gòu)及安排13-14
- 第2章 話題跟蹤相關(guān)技術(shù)14-26
- 2.1 話題跟蹤技術(shù)14-16
- 2.1.1 基本概念14
- 2.1.2 話題跟蹤基本流程14-16
- 2.2 新詞發(fā)現(xiàn)技術(shù)16-18
- 2.3 文本表示模型18-20
- 2.3.1 主題概率模型18-19
- 2.3.2 向量空間模型19-20
- 2.4 文本分類技術(shù)20-25
- 2.4.1 K 最鄰近分類算法(K-Nearest Neighbor,KNN)21
- 2.4.2 決策樹分類算法(Decision Tree,DT)21-22
- 2.4.3 樸素貝葉斯分類算法(Naive Bayesian,NB)22-23
- 2.4.4 支持向量機(Support Vector Machine,SVM)23-25
- 2.5 本章小結(jié)25-26
- 第3章 微博話題跟蹤文本模型26-35
- 3.1 特征選擇和特征抽取26-30
- 3.1.1 特征選擇(Feature Selection)26-29
- 3.1.2 特征抽取(Feature Extraction)29-30
- 3.2 微博文本表示30-33
- 3.2.1 權(quán)重算法改進必要性30-31
- 3.2.2 特征權(quán)重計算31-33
- 3.3 實驗及分析33-34
- 3.4 本章小結(jié)34-35
- 第4章 微博話題跟蹤算法35-54
- 4.1 SVM 模型話題跟蹤算法35-36
- 4.2 微博話題跟蹤流程36-44
- 4.2.1 微博數(shù)據(jù)采集與過濾37-38
- 4.2.2 微博文本分詞38-42
- 4.2.3 微博文本表示42-44
- 4.2.4 分類模型訓練44
- 4.3 微博話題模型更新演變44-48
- 4.3.1 微博話題模型更新45
- 4.3.2 微博話題遷移發(fā)現(xiàn)45-47
- 4.3.3 新話題的抽取和歸納47
- 4.3.4 微博話題更新演變子系統(tǒng)47-48
- 4.4 實驗及分析48-53
- 4.5 本章小結(jié)53-54
- 第5章 微博話題跟蹤系統(tǒng)設(shè)計及實現(xiàn)54-64
- 5.1 微博數(shù)據(jù)采集54
- 5.2 特征詞表構(gòu)建54-59
- 5.2.1 基于新詞發(fā)現(xiàn)的中文分詞54-57
- 5.2.2 特征選擇57-58
- 5.2.3 特征權(quán)重計算58-59
- 5.3 SVM 分類模型構(gòu)建59
- 5.4 微博話題跟蹤實驗59-62
- 5.5 微博話題演變實驗62-63
- 5.6 本章小結(jié)63-64
- 結(jié)論64-66
- 參考文獻66-70
- 攻讀學位期間發(fā)表論文與研究成果清單70-71
- 致謝71
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 吳悅;燕鵬舉;翟魯峰;;基于二元背景模型的新詞發(fā)現(xiàn)[J];清華大學學報(自然科學版);2011年09期
2 諶志群;徐寧;王榮波;;基于主題演化圖的網(wǎng)絡(luò)論壇熱點跟蹤[J];情報科學;2013年03期
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 彭菲菲;網(wǎng)絡(luò)熱點話題發(fā)現(xiàn)的關(guān)鍵技術(shù)研究[D];中國礦業(yè)大學(北京);2012年
本文關(guān)鍵詞:基于SVM的微博話題跟蹤方法及其應用,由筆耕文化傳播整理發(fā)布。
本文編號:277305
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/277305.html
最近更新
教材專著