基于LDA和隨機森林的活躍微博預測研究
本文選題:活躍微博 切入點:主題模型 出處:《合肥工業(yè)大學》2017年碩士論文
【摘要】:隨著移動互聯(lián)網(wǎng)的快速發(fā)展,微博以其豐富及時的信息、舒適的用戶體驗在人們的生活中被廣泛應用。微博已經(jīng)成為人們信息交流、展示自我的一個重要平臺。當下,微博平臺的用戶規(guī)模巨大,而且涵蓋的社會階層十分廣泛。微博用戶每天在微博平臺產(chǎn)生海量內(nèi)容,這些內(nèi)容既有普通民眾對日常生活的記錄分享,也有政府、企業(yè)以及其他組織發(fā)布的關于社會事務的公告。總的來說,對社會熱點事件的關注與探討才是微博平臺的主流,從這個意義來說,微博是當下社會的一個縮影。鑒于微博平臺如此巨大的社會影響力,微博活躍內(nèi)容的及時掌控對微博平臺的內(nèi)容分發(fā)控制、網(wǎng)絡輿情管理有著及其重要的理論意義和應用價值。目前微博預測已經(jīng)成為研究熱點,其涉及的范疇也非常廣泛。本文就活躍微博的預測進行了研究,研究的主要內(nèi)容包括研究問題建模和解決問題的基于LDA和隨機森林的活躍微博預測模型。對于研究問題建模,本文首先分析了和微博“互動”相關的三個操作(點贊、轉發(fā)、評論),并通過權重求解的方式構建了微博互動的數(shù)學模型;然后本文分析了微博活躍度和互動值以及微博活躍度與粉絲數(shù)之間的相關性;最后給出了微博是否活躍的數(shù)學判定模型。對于活躍微博預測模型,本文首先根據(jù)影響微博活躍因素的分析以及研究特體的特殊性分析,設計了爬蟲并爬取了相關微博數(shù)據(jù)。然后基于預處理后的數(shù)據(jù)集,本文利用微博活躍判定模型對微博是否活躍進行標注,構造特征集。接著本文使用LDA建模的方式的對微博博文的主題進行發(fā)掘,經(jīng)過Gibbs采樣之后獲得文檔-主題的概率分布矩陣,概率矩陣經(jīng)過離散化處理之后并入原始特征集獲得優(yōu)化后的(即包含主題信息的)特征集。對于預測模型的算法選擇,本文基于微博平臺的的數(shù)據(jù)特點,對比分析了多種預測算法;然后選擇了和數(shù)據(jù)特點契合度較高的隨機森林模型;最后本文對隨機森林算法進行了平衡化處理。最后本文在模型訓練、參數(shù)調(diào)優(yōu)的基礎上,采用對比實驗的方式對本文的活躍微博預測模型進行效果驗證。實驗結果表明,本文提出的基于隨機森林算法和LDA主題模型的活躍微博預測模型取得了良好的預測效果,是切實可行的。
[Abstract]:With the rapid development of mobile Internet, Weibo is widely used in people's life with its rich and timely information and comfortable user experience.Weibo has become an important platform for people to exchange information and show themselves.At present, Weibo platform user scale is huge, and the social stratum that covers is very wide.Weibo users generate huge amounts of content every day on the Weibo platform, which includes records of daily life shared by ordinary people and announcements on social affairs issued by governments, enterprises and other organizations.In general, the focus and discussion on social hot issues is the mainstream of Weibo's platform. In this sense, Weibo is a microcosm of the present society.In view of the huge social influence of Weibo platform, the timely control of Weibo's active content has important theoretical significance and application value to the content distribution control of Weibo platform, and the management of network public opinion is of great theoretical significance and application value.At present Weibo forecast has become the research hotspot, its scope is also very extensive.In this paper, the prediction of active Weibo is studied. The main contents of the study include problem modeling and problem solving based on LDA and stochastic forest active Weibo prediction model.For the modeling of research problems, this paper first analyzes the three operations related to Weibo's "interaction" (likes, forwards, comments), and constructs the mathematical model of Weibo interaction by solving the weights.Then, this paper analyzes the correlation between Weibo's activity and interaction value, as well as Weibo's activity and the number of fans, and finally gives a mathematical model to determine whether Weibo is active or not.For the active Weibo prediction model, according to the analysis of the active factors and the particularity analysis of the special body, the crawler is designed and crawling the data of Weibo.Then, based on the preprocessed data set, this paper uses Weibo active decision model to label Weibo and construct the feature set.Then this paper uses LDA modeling method to excavate the theme of Weibo's blog, after Gibbs sampling, we get the probability distribution matrix of document-topic.The probability matrix is discretized and incorporated into the original feature set to obtain the optimized feature set.For the algorithm selection of the prediction model, based on the data characteristics of Weibo platform, this paper compares and analyzes various prediction algorithms, and then selects the random forest model with high consistency with the data characteristics.Finally, the stochastic forest algorithm is balanced.Finally, on the basis of model training and parameter optimization, this paper verifies the effect of active Weibo prediction model by contrast experiment.The experimental results show that the active Weibo prediction model based on stochastic forest algorithm and LDA subject model has good prediction effect and is feasible.
【學位授予單位】:合肥工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:F224;F49
【相似文獻】
相關期刊論文 前10條
1 馬景義;謝邦昌;;擬適應再加權分類隨機森林[J];統(tǒng)計與信息論壇;2010年03期
2 張啟敏,聶贊坎;隨機森林發(fā)展系統(tǒng)解的存在性和唯一性(英文)[J];應用數(shù)學;2003年04期
3 李建更;高志坤;;隨機森林:一種重要的腫瘤特征基因選擇法[J];生物物理學報;2009年01期
4 袁敏;胡秀珍;;隨機森林方法預測膜蛋白類型[J];生物物理學報;2009年05期
5 方匡南;吳見彬;朱建平;謝邦昌;;隨機森林方法研究綜述[J];統(tǒng)計與信息論壇;2011年03期
6 方正;李益洲;肖嘉敏;李功兵;文志寧;李夢龍;;基于復雜網(wǎng)絡的隨機森林算法預測氨基酸突變對蛋白質(zhì)穩(wěn)定性的影響(英文)[J];化學研究與應用;2011年05期
7 王象剛;;基于K均值隨機森林快速算法及入侵檢測中的應用[J];科技通報;2013年08期
8 曹正鳳;謝邦昌;紀宏;;一種隨機森林的混合算法[J];統(tǒng)計與決策;2014年04期
9 張光亞;方柏山;;基于氨基酸組成分布的嗜熱和嗜冷蛋白隨機森林分類模型[J];生物工程學報;2008年02期
10 馬景義;吳喜之;謝邦昌;;擬自適應分類隨機森林算法[J];數(shù)理統(tǒng)計與管理;2010年05期
相關會議論文 前7條
1 謝程利;王金橋;盧漢清;;核森林及其在目標檢測中的應用[A];第六屆和諧人機環(huán)境聯(lián)合學術會議(HHME2010)、第19屆全國多媒體學術會議(NCMT2010)、第6屆全國人機交互學術會議(CHCI2010)、第5屆全國普適計算學術會議(PCC2010)論文集[C];2010年
2 武曉巖;方慶偉;;基因表達數(shù)據(jù)分析的隨機森林方法及算法改進[A];黑龍江省第十次統(tǒng)計科學討論會論文集[C];2008年
3 張?zhí)忑?梁龍;王康;李華;;隨機森林結合激光誘導擊穿光譜技術用于的鋼鐵分類[A];中國化學會第29屆學術年會摘要集——第19分會:化學信息學與化學計量學[C];2014年
4 相玉紅;張卓勇;;組蛋白去乙;敢种苿┑臉嬓шP系研究[A];第十一屆全國計算(機)化學學術會議論文摘要集[C];2011年
5 張濤;李貞子;武曉巖;李康;;隨機森林回歸分析方法及在代謝組學中的應用[A];2011年中國衛(wèi)生統(tǒng)計學年會會議論文集[C];2011年
6 馮飛翔;馮輔周;江鵬程;劉菁;劉建敏;;隨機森林和k-近鄰法在某型坦克變速箱狀態(tài)識別中的應用[A];第八屆全國轉子動力學學術討論會論文集[C];2008年
7 曹東升;許青松;梁逸曾;陳憲;李洪東;;組合樹的集合體和后向消除策略去分類P-糖蛋白化合物[A];第十屆全國計算(機)化學學術會議論文摘要集[C];2009年
相關博士學位論文 前6條
1 張乾;基于隨機森林的視覺數(shù)據(jù)分類關鍵技術研究[D];華南理工大學;2016年
2 薛小明;基于時頻分析與特征約簡的水電機組故障診斷方法研究[D];華中科技大學;2016年
3 曹正鳳;隨機森林算法優(yōu)化研究[D];首都經(jīng)濟貿(mào)易大學;2014年
4 雷震;隨機森林及其在遙感影像處理中應用研究[D];上海交通大學;2012年
5 岳明;基于隨機森林和規(guī)則集成法的酒類市場預測與發(fā)展戰(zhàn)略[D];天津大學;2008年
6 李書艷;單點氨基酸多態(tài)性與疾病相關關系的預測及其機制研究[D];蘭州大學;2010年
相關碩士學位論文 前10條
1 錢維;藥品不良反應監(jiān)測中隨機森林方法的建立與實現(xiàn)[D];第二軍醫(yī)大學;2012年
2 韓燕龍;基于隨機森林的指數(shù)化投資組合構建研究[D];華南理工大學;2015年
3 賀捷;隨機森林在文本分類中的應用[D];華南理工大學;2015年
4 張文婷;交通環(huán)境下基于改進霍夫森林的目標檢測與跟蹤[D];華南理工大學;2015年
5 李強;基于多視角特征融合與隨機森林的蛋白質(zhì)結晶預測[D];南京理工大學;2015年
6 朱玟謙;一種收斂性隨機森林在人臉檢測中的應用研究[D];武漢理工大學;2015年
7 肖宇;基于序列圖像的手勢檢測與識別算法研究[D];電子科技大學;2014年
8 李慧;一種改進的隨機森林并行分類方法在運營商大數(shù)據(jù)的應用[D];電子科技大學;2015年
9 趙亞紅;面向多類標分類的隨機森林算法研究[D];哈爾濱工業(yè)大學;2014年
10 黎成;基于隨機森林和ReliefF的致病SNP識別方法[D];西安電子科技大學;2014年
,本文編號:1696108
本文鏈接:http://sikaile.net/jingjifazhanlunwen/1696108.html