面向微博文本的熱詞分析技術(shù)研究
發(fā)布時間:2021-03-15 05:10
隨著互聯(lián)網(wǎng)平臺信息傳播方式的多樣化,微博作為一種最受歡迎的社交網(wǎng)絡(luò)平臺,實現(xiàn)了信息從發(fā)布、傳播到接收的實時性,用戶可以最快地獲取實時熱點話題。微博作為事件、情緒的文字表達(dá),利用自然語言處理技術(shù)為自動檢測微博熱點提供了可能。但因其實時性的特點,其文本處理過程有別于常規(guī)的文本,故面向微博數(shù)據(jù)進(jìn)行熱點話題的挖掘有著重要的意義。本文分析微博的數(shù)據(jù)特點,給出可量化熱詞定義,提出一種挖掘?qū)崟r熱點話題的熱詞分析算法。該算法首先對微博數(shù)據(jù)進(jìn)行預(yù)處理,利用方差消除高頻詞對后續(xù)熱詞分析的干擾,然后將熱力學(xué)中的牛頓冷卻定律變形后進(jìn)行適用于微博的熱詞發(fā)現(xiàn),并提出基于動態(tài)閾值的剔除規(guī)則去除詞頻變化率大的低頻詞;跓嵩~發(fā)現(xiàn)的結(jié)果本文又研究提取熱詞之間的關(guān)聯(lián)性,利用左右信息熵和互信息進(jìn)行熱詞的初步關(guān)聯(lián),并引入詞共現(xiàn)模型,實現(xiàn)熱詞的二次關(guān)聯(lián),將表達(dá)同一熱點話題的熱詞集合合并,輸出最終的熱點話題。本文提出的一種適用于新浪微博數(shù)據(jù)的熱詞分析算法,結(jié)合實際數(shù)據(jù)進(jìn)行實驗,實驗結(jié)果表明,算法識別熱點話題的準(zhǔn)確率為71.23%,誤差率控制在8.17%的范圍內(nèi),使得基于熱詞分析進(jìn)行實時熱點話題挖掘更為合理。
【文章來源】:昆明理工大學(xué)云南省
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
技術(shù)路線圖
新浪微博用戶的主界面圖
熱詞詞頻隨時間的變化圖
【參考文獻(xiàn)】:
期刊論文
[1]基于主題標(biāo)簽和CRF的中文微博命名實體識別[J]. 朱顥東,楊立志,丁溫雪,馮嘉美. 華中師范大學(xué)學(xué)報(自然科學(xué)版). 2018(03)
[2]方差分析法的線性回歸建模重構(gòu)[J]. 陳崇雙,唐家銀,何平. 統(tǒng)計與決策. 2018(07)
[3]雙因素方差分析方法的比較[J]. 戴金輝,韓存. 統(tǒng)計與決策. 2018(04)
[4]統(tǒng)計模型在中文文本挖掘中的應(yīng)用[J]. 王健,張俊妮. 數(shù)理統(tǒng)計與管理. 2017(04)
[5]基于詞頻類別相關(guān)的特征權(quán)重算法[J]. 張羚,陸余良,楊國正. 計算機應(yīng)用研究. 2017(02)
[6]大數(shù)據(jù)相關(guān)分析綜述[J]. 梁吉業(yè),馮晨嬌,宋鵬. 計算機學(xué)報. 2016(01)
[7]深度學(xué)習(xí)研究進(jìn)展[J]. 郭麗麗,丁世飛. 計算機科學(xué). 2015(05)
[8]基于字符的中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型[J]. 郭振,張玉潔,蘇晨,徐金安. 中文信息學(xué)報. 2014(06)
[9]微博語境特點的認(rèn)知語言學(xué)分析研究——以新浪微博為例[J]. 程夢秋. 海外英語. 2014(06)
[10]一種面向微博主題挖掘的改進(jìn)LDA模型[J]. 謝昊,江紅. 華東師范大學(xué)學(xué)報(自然科學(xué)版). 2013(06)
博士論文
[1]基于大規(guī)模語料的中文新詞識別技術(shù)研究[D]. 張海軍.中國科學(xué)技術(shù)大學(xué) 2011
碩士論文
[1]基于組合頻率的中文新詞發(fā)現(xiàn)算法[D]. 歐陽冠宇.北京郵電大學(xué) 2018
[2]基于詞共現(xiàn)模型的微博熱點話題發(fā)現(xiàn)方法研究[D]. 曹龍.中國地質(zhì)大學(xué)(北京) 2015
[3]基于微博熱詞挖掘的新聞話題提取研究[D]. 唐蓉青.湖南大學(xué) 2014
[4]新詞識別和熱詞排名方法研究[D]. 耿升華.重慶大學(xué) 2013
[5]微博客熱點話題發(fā)現(xiàn)策略研究[D]. 楊冠超.浙江大學(xué) 2011
本文編號:3083616
【文章來源】:昆明理工大學(xué)云南省
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
技術(shù)路線圖
新浪微博用戶的主界面圖
熱詞詞頻隨時間的變化圖
【參考文獻(xiàn)】:
期刊論文
[1]基于主題標(biāo)簽和CRF的中文微博命名實體識別[J]. 朱顥東,楊立志,丁溫雪,馮嘉美. 華中師范大學(xué)學(xué)報(自然科學(xué)版). 2018(03)
[2]方差分析法的線性回歸建模重構(gòu)[J]. 陳崇雙,唐家銀,何平. 統(tǒng)計與決策. 2018(07)
[3]雙因素方差分析方法的比較[J]. 戴金輝,韓存. 統(tǒng)計與決策. 2018(04)
[4]統(tǒng)計模型在中文文本挖掘中的應(yīng)用[J]. 王健,張俊妮. 數(shù)理統(tǒng)計與管理. 2017(04)
[5]基于詞頻類別相關(guān)的特征權(quán)重算法[J]. 張羚,陸余良,楊國正. 計算機應(yīng)用研究. 2017(02)
[6]大數(shù)據(jù)相關(guān)分析綜述[J]. 梁吉業(yè),馮晨嬌,宋鵬. 計算機學(xué)報. 2016(01)
[7]深度學(xué)習(xí)研究進(jìn)展[J]. 郭麗麗,丁世飛. 計算機科學(xué). 2015(05)
[8]基于字符的中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型[J]. 郭振,張玉潔,蘇晨,徐金安. 中文信息學(xué)報. 2014(06)
[9]微博語境特點的認(rèn)知語言學(xué)分析研究——以新浪微博為例[J]. 程夢秋. 海外英語. 2014(06)
[10]一種面向微博主題挖掘的改進(jìn)LDA模型[J]. 謝昊,江紅. 華東師范大學(xué)學(xué)報(自然科學(xué)版). 2013(06)
博士論文
[1]基于大規(guī)模語料的中文新詞識別技術(shù)研究[D]. 張海軍.中國科學(xué)技術(shù)大學(xué) 2011
碩士論文
[1]基于組合頻率的中文新詞發(fā)現(xiàn)算法[D]. 歐陽冠宇.北京郵電大學(xué) 2018
[2]基于詞共現(xiàn)模型的微博熱點話題發(fā)現(xiàn)方法研究[D]. 曹龍.中國地質(zhì)大學(xué)(北京) 2015
[3]基于微博熱詞挖掘的新聞話題提取研究[D]. 唐蓉青.湖南大學(xué) 2014
[4]新詞識別和熱詞排名方法研究[D]. 耿升華.重慶大學(xué) 2013
[5]微博客熱點話題發(fā)現(xiàn)策略研究[D]. 楊冠超.浙江大學(xué) 2011
本文編號:3083616
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3083616.html
最近更新
教材專著