當(dāng)前位置：主頁(yè) > 管理論文 > 移動(dòng)網(wǎng)絡(luò)論文 >

基于SVM的微博話題跟蹤方法及其應(yīng)用

發(fā)布時(shí)間：2017-03-30 14:10

本文關(guān)鍵詞：基于SVM的微博話題跟蹤方法及其應(yīng)用，由筆耕文化傳播整理發(fā)布。

【摘要】：話題跟蹤作為信息處理領(lǐng)域中的一項(xiàng)重要問題，自提出以來就受到了廣泛的關(guān)注，被應(yīng)用于數(shù)字圖書館、輿情分析等領(lǐng)域。目前，大多數(shù)的話題跟蹤系統(tǒng)研究都是針對(duì)新聞信息、博客信息等長(zhǎng)文本，關(guān)于微博等社交網(wǎng)絡(luò)短文本信息的研究還比較少。近些年，隨著自然語言處理、機(jī)器學(xué)習(xí)等技術(shù)方法的發(fā)展，話題跟蹤系統(tǒng)構(gòu)建方法也不斷豐富。本文針對(duì)微博信息，設(shè)計(jì)了一種基于SVM的微博話題自適應(yīng)跟蹤方法。本方法的最大優(yōu)勢(shì)在于能夠?qū)ξ⒉┰掝}進(jìn)行自動(dòng)自適應(yīng)的持續(xù)跟蹤，同時(shí)自動(dòng)對(duì)話題演變發(fā)展進(jìn)行了分析歸納，只有最初的話題模型訓(xùn)練語料收集以及特征詞表構(gòu)建環(huán)節(jié)需要一些人工處理。本文的主要工作和研究?jī)?nèi)容如下：第一，設(shè)計(jì)了一種基于SVM的微博話題自適應(yīng)跟蹤方法，該方法主要包括以下幾個(gè)步驟：微博數(shù)據(jù)采集、特征詞表構(gòu)建、分類模型訓(xùn)練、微博話題發(fā)展演變分析。其中特征詞表構(gòu)建與微博話題發(fā)展演變分析是本文的重點(diǎn)研究?jī)?nèi)容。第二，研究特征詞表的構(gòu)建，采用了特征選擇的方法，分為三個(gè)部分：中文分詞、特征選擇指標(biāo)選取、特征全局權(quán)重計(jì)算。在中文分詞環(huán)節(jié)，加入了新詞發(fā)現(xiàn)模塊，提高分詞準(zhǔn)確率。比較不同的特征選擇指標(biāo)，選擇適合話題的評(píng)價(jià)指標(biāo)對(duì)特征進(jìn)行篩選。最后，根據(jù)評(píng)價(jià)指標(biāo)計(jì)算特征詞的全局權(quán)重。第三，研究話題模型的發(fā)展演變。采用反饋機(jī)制對(duì)分類模型進(jìn)行動(dòng)態(tài)更新，保證跟蹤系統(tǒng)持續(xù)有效地跟蹤后續(xù)微博信息，同時(shí)利用LDA方法對(duì)新話題進(jìn)行抽取并進(jìn)行歸納，檢測(cè)話題的遷移轉(zhuǎn)變。第四，將基于SVM的微博話題自適應(yīng)跟蹤方法應(yīng)用到實(shí)際微博數(shù)據(jù)，，對(duì)熱點(diǎn)微博話題進(jìn)行自動(dòng)持續(xù)的跟蹤，最后嘗試分析話題的發(fā)展演變軌跡。該方法能夠自動(dòng)持續(xù)準(zhǔn)確地跟蹤話題相關(guān)的微博信息。
【關(guān)鍵詞】：話題跟蹤 特征選擇 SVM 話題演變
【學(xué)位授予單位】：北京理工大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2015
【分類號(hào)】：TP391.1;TP393.092
【目錄】：

摘要4-5
Abstract5-7
目錄7-9
第1章緒論9-14
1.1 本文的研究背景和意義9-10
1.2 國(guó)內(nèi)外研究現(xiàn)狀10-12
1.2.1 國(guó)外研究現(xiàn)狀10-11
1.2.2 國(guó)內(nèi)研究現(xiàn)狀11-12
1.3 主要研究?jī)?nèi)容和創(chuàng)新點(diǎn)12-13
1.4 論文結(jié)構(gòu)及安排13-14
第2章話題跟蹤相關(guān)技術(shù)14-26
2.1 話題跟蹤技術(shù)14-16
2.1.1 基本概念14
2.1.2 話題跟蹤基本流程14-16
2.2 新詞發(fā)現(xiàn)技術(shù)16-18
2.3 文本表示模型18-20
2.3.1 主題概率模型18-19
2.3.2 向量空間模型19-20
2.4 文本分類技術(shù)20-25
2.4.1 K 最鄰近分類算法(K-Nearest Neighbor，KNN)21
2.4.2 決策樹分類算法(Decision Tree，DT)21-22
2.4.3 樸素貝葉斯分類算法(Naive Bayesian，NB)22-23
2.4.4 支持向量機(jī)(Support Vector Machine，SVM)23-25
2.5 本章小結(jié)25-26
第3章微博話題跟蹤文本模型26-35
3.1 特征選擇和特征抽取26-30
3.1.1 特征選擇(Feature Selection)26-29
3.1.2 特征抽取(Feature Extraction)29-30
3.2 微博文本表示30-33
3.2.1 權(quán)重算法改進(jìn)必要性30-31
3.2.2 特征權(quán)重計(jì)算31-33
3.3 實(shí)驗(yàn)及分析33-34
3.4 本章小結(jié)34-35
第4章微博話題跟蹤算法35-54
4.1 SVM 模型話題跟蹤算法35-36
4.2 微博話題跟蹤流程36-44
4.2.1 微博數(shù)據(jù)采集與過濾37-38
4.2.2 微博文本分詞38-42
4.2.3 微博文本表示42-44
4.2.4 分類模型訓(xùn)練44
4.3 微博話題模型更新演變44-48
4.3.1 微博話題模型更新45
4.3.2 微博話題遷移發(fā)現(xiàn)45-47
4.3.3 新話題的抽取和歸納47
4.3.4 微博話題更新演變子系統(tǒng)47-48
4.4 實(shí)驗(yàn)及分析48-53
4.5 本章小結(jié)53-54
第5章微博話題跟蹤系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)54-64
5.1 微博數(shù)據(jù)采集54
5.2 特征詞表構(gòu)建54-59
5.2.1 基于新詞發(fā)現(xiàn)的中文分詞54-57
5.2.2 特征選擇57-58
5.2.3 特征權(quán)重計(jì)算58-59
5.3 SVM 分類模型構(gòu)建59
5.4 微博話題跟蹤實(shí)驗(yàn)59-62
5.5 微博話題演變實(shí)驗(yàn)62-63
5.6 本章小結(jié)63-64
結(jié)論64-66
參考文獻(xiàn)66-70
攻讀學(xué)位期間發(fā)表論文與研究成果清單70-71
致謝71

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 吳悅;燕鵬舉;翟魯峰;;基于二元背景模型的新詞發(fā)現(xiàn)[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年09期

2 諶志群;徐寧;王榮波;;基于主題演化圖的網(wǎng)絡(luò)論壇熱點(diǎn)跟蹤[J];情報(bào)科學(xué);2013年03期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 彭菲菲;網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的關(guān)鍵技術(shù)研究[D];中國(guó)礦業(yè)大學(xué)(北京);2012年

本文關(guān)鍵詞：基于SVM的微博話題跟蹤方法及其應(yīng)用，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：277305

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/277305.html

上一篇：基于異質(zhì)性的OKC知識(shí)與社會(huì)系統(tǒng)協(xié)同演化研究
下一篇：基于云的復(fù)雜事件檢測(cè)服務(wù)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于SVM的微博話題跟蹤方法及其應(yīng)用