基于LDA和隨機(jī)森林的活躍微博預(yù)測(cè)研究
本文選題:活躍微博 切入點(diǎn):主題模型 出處:《合肥工業(yè)大學(xué)》2017年碩士論文
【摘要】:隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,微博以其豐富及時(shí)的信息、舒適的用戶體驗(yàn)在人們的生活中被廣泛應(yīng)用。微博已經(jīng)成為人們信息交流、展示自我的一個(gè)重要平臺(tái)。當(dāng)下,微博平臺(tái)的用戶規(guī)模巨大,而且涵蓋的社會(huì)階層十分廣泛。微博用戶每天在微博平臺(tái)產(chǎn)生海量?jī)?nèi)容,這些內(nèi)容既有普通民眾對(duì)日常生活的記錄分享,也有政府、企業(yè)以及其他組織發(fā)布的關(guān)于社會(huì)事務(wù)的公告。總的來(lái)說(shuō),對(duì)社會(huì)熱點(diǎn)事件的關(guān)注與探討才是微博平臺(tái)的主流,從這個(gè)意義來(lái)說(shuō),微博是當(dāng)下社會(huì)的一個(gè)縮影。鑒于微博平臺(tái)如此巨大的社會(huì)影響力,微博活躍內(nèi)容的及時(shí)掌控對(duì)微博平臺(tái)的內(nèi)容分發(fā)控制、網(wǎng)絡(luò)輿情管理有著及其重要的理論意義和應(yīng)用價(jià)值。目前微博預(yù)測(cè)已經(jīng)成為研究熱點(diǎn),其涉及的范疇也非常廣泛。本文就活躍微博的預(yù)測(cè)進(jìn)行了研究,研究的主要內(nèi)容包括研究問(wèn)題建模和解決問(wèn)題的基于LDA和隨機(jī)森林的活躍微博預(yù)測(cè)模型。對(duì)于研究問(wèn)題建模,本文首先分析了和微博“互動(dòng)”相關(guān)的三個(gè)操作(點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論),并通過(guò)權(quán)重求解的方式構(gòu)建了微博互動(dòng)的數(shù)學(xué)模型;然后本文分析了微博活躍度和互動(dòng)值以及微博活躍度與粉絲數(shù)之間的相關(guān)性;最后給出了微博是否活躍的數(shù)學(xué)判定模型。對(duì)于活躍微博預(yù)測(cè)模型,本文首先根據(jù)影響微博活躍因素的分析以及研究特體的特殊性分析,設(shè)計(jì)了爬蟲(chóng)并爬取了相關(guān)微博數(shù)據(jù)。然后基于預(yù)處理后的數(shù)據(jù)集,本文利用微博活躍判定模型對(duì)微博是否活躍進(jìn)行標(biāo)注,構(gòu)造特征集。接著本文使用LDA建模的方式的對(duì)微博博文的主題進(jìn)行發(fā)掘,經(jīng)過(guò)Gibbs采樣之后獲得文檔-主題的概率分布矩陣,概率矩陣經(jīng)過(guò)離散化處理之后并入原始特征集獲得優(yōu)化后的(即包含主題信息的)特征集。對(duì)于預(yù)測(cè)模型的算法選擇,本文基于微博平臺(tái)的的數(shù)據(jù)特點(diǎn),對(duì)比分析了多種預(yù)測(cè)算法;然后選擇了和數(shù)據(jù)特點(diǎn)契合度較高的隨機(jī)森林模型;最后本文對(duì)隨機(jī)森林算法進(jìn)行了平衡化處理。最后本文在模型訓(xùn)練、參數(shù)調(diào)優(yōu)的基礎(chǔ)上,采用對(duì)比實(shí)驗(yàn)的方式對(duì)本文的活躍微博預(yù)測(cè)模型進(jìn)行效果驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文提出的基于隨機(jī)森林算法和LDA主題模型的活躍微博預(yù)測(cè)模型取得了良好的預(yù)測(cè)效果,是切實(shí)可行的。
[Abstract]:With the rapid development of mobile Internet, Weibo is widely used in people's life with its rich and timely information and comfortable user experience.Weibo has become an important platform for people to exchange information and show themselves.At present, Weibo platform user scale is huge, and the social stratum that covers is very wide.Weibo users generate huge amounts of content every day on the Weibo platform, which includes records of daily life shared by ordinary people and announcements on social affairs issued by governments, enterprises and other organizations.In general, the focus and discussion on social hot issues is the mainstream of Weibo's platform. In this sense, Weibo is a microcosm of the present society.In view of the huge social influence of Weibo platform, the timely control of Weibo's active content has important theoretical significance and application value to the content distribution control of Weibo platform, and the management of network public opinion is of great theoretical significance and application value.At present Weibo forecast has become the research hotspot, its scope is also very extensive.In this paper, the prediction of active Weibo is studied. The main contents of the study include problem modeling and problem solving based on LDA and stochastic forest active Weibo prediction model.For the modeling of research problems, this paper first analyzes the three operations related to Weibo's "interaction" (likes, forwards, comments), and constructs the mathematical model of Weibo interaction by solving the weights.Then, this paper analyzes the correlation between Weibo's activity and interaction value, as well as Weibo's activity and the number of fans, and finally gives a mathematical model to determine whether Weibo is active or not.For the active Weibo prediction model, according to the analysis of the active factors and the particularity analysis of the special body, the crawler is designed and crawling the data of Weibo.Then, based on the preprocessed data set, this paper uses Weibo active decision model to label Weibo and construct the feature set.Then this paper uses LDA modeling method to excavate the theme of Weibo's blog, after Gibbs sampling, we get the probability distribution matrix of document-topic.The probability matrix is discretized and incorporated into the original feature set to obtain the optimized feature set.For the algorithm selection of the prediction model, based on the data characteristics of Weibo platform, this paper compares and analyzes various prediction algorithms, and then selects the random forest model with high consistency with the data characteristics.Finally, the stochastic forest algorithm is balanced.Finally, on the basis of model training and parameter optimization, this paper verifies the effect of active Weibo prediction model by contrast experiment.The experimental results show that the active Weibo prediction model based on stochastic forest algorithm and LDA subject model has good prediction effect and is feasible.
【學(xué)位授予單位】:合肥工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:F224;F49
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 馬景義;謝邦昌;;擬適應(yīng)再加權(quán)分類隨機(jī)森林[J];統(tǒng)計(jì)與信息論壇;2010年03期
2 張啟敏,聶贊坎;隨機(jī)森林發(fā)展系統(tǒng)解的存在性和唯一性(英文)[J];應(yīng)用數(shù)學(xué);2003年04期
3 李建更;高志坤;;隨機(jī)森林:一種重要的腫瘤特征基因選擇法[J];生物物理學(xué)報(bào);2009年01期
4 袁敏;胡秀珍;;隨機(jī)森林方法預(yù)測(cè)膜蛋白類型[J];生物物理學(xué)報(bào);2009年05期
5 方匡南;吳見(jiàn)彬;朱建平;謝邦昌;;隨機(jī)森林方法研究綜述[J];統(tǒng)計(jì)與信息論壇;2011年03期
6 方正;李益洲;肖嘉敏;李功兵;文志寧;李夢(mèng)龍;;基于復(fù)雜網(wǎng)絡(luò)的隨機(jī)森林算法預(yù)測(cè)氨基酸突變對(duì)蛋白質(zhì)穩(wěn)定性的影響(英文)[J];化學(xué)研究與應(yīng)用;2011年05期
7 王象剛;;基于K均值隨機(jī)森林快速算法及入侵檢測(cè)中的應(yīng)用[J];科技通報(bào);2013年08期
8 曹正鳳;謝邦昌;紀(jì)宏;;一種隨機(jī)森林的混合算法[J];統(tǒng)計(jì)與決策;2014年04期
9 張光亞;方柏山;;基于氨基酸組成分布的嗜熱和嗜冷蛋白隨機(jī)森林分類模型[J];生物工程學(xué)報(bào);2008年02期
10 馬景義;吳喜之;謝邦昌;;擬自適應(yīng)分類隨機(jī)森林算法[J];數(shù)理統(tǒng)計(jì)與管理;2010年05期
相關(guān)會(huì)議論文 前7條
1 謝程利;王金橋;盧漢清;;核森林及其在目標(biāo)檢測(cè)中的應(yīng)用[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年
2 武曉巖;方慶偉;;基因表達(dá)數(shù)據(jù)分析的隨機(jī)森林方法及算法改進(jìn)[A];黑龍江省第十次統(tǒng)計(jì)科學(xué)討論會(huì)論文集[C];2008年
3 張?zhí)忑?梁龍;王康;李華;;隨機(jī)森林結(jié)合激光誘導(dǎo)擊穿光譜技術(shù)用于的鋼鐵分類[A];中國(guó)化學(xué)會(huì)第29屆學(xué)術(shù)年會(huì)摘要集——第19分會(huì):化學(xué)信息學(xué)與化學(xué)計(jì)量學(xué)[C];2014年
4 相玉紅;張卓勇;;組蛋白去乙;敢种苿┑臉(gòu)效關(guān)系研究[A];第十一屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2011年
5 張濤;李貞子;武曉巖;李康;;隨機(jī)森林回歸分析方法及在代謝組學(xué)中的應(yīng)用[A];2011年中國(guó)衛(wèi)生統(tǒng)計(jì)學(xué)年會(huì)會(huì)議論文集[C];2011年
6 馮飛翔;馮輔周;江鵬程;劉菁;劉建敏;;隨機(jī)森林和k-近鄰法在某型坦克變速箱狀態(tài)識(shí)別中的應(yīng)用[A];第八屆全國(guó)轉(zhuǎn)子動(dòng)力學(xué)學(xué)術(shù)討論會(huì)論文集[C];2008年
7 曹東升;許青松;梁逸曾;陳憲;李洪東;;組合樹(shù)的集合體和后向消除策略去分類P-糖蛋白化合物[A];第十屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2009年
相關(guān)博士學(xué)位論文 前6條
1 張乾;基于隨機(jī)森林的視覺(jué)數(shù)據(jù)分類關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2016年
2 薛小明;基于時(shí)頻分析與特征約簡(jiǎn)的水電機(jī)組故障診斷方法研究[D];華中科技大學(xué);2016年
3 曹正鳳;隨機(jī)森林算法優(yōu)化研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2014年
4 雷震;隨機(jī)森林及其在遙感影像處理中應(yīng)用研究[D];上海交通大學(xué);2012年
5 岳明;基于隨機(jī)森林和規(guī)則集成法的酒類市場(chǎng)預(yù)測(cè)與發(fā)展戰(zhàn)略[D];天津大學(xué);2008年
6 李書(shū)艷;單點(diǎn)氨基酸多態(tài)性與疾病相關(guān)關(guān)系的預(yù)測(cè)及其機(jī)制研究[D];蘭州大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 錢維;藥品不良反應(yīng)監(jiān)測(cè)中隨機(jī)森林方法的建立與實(shí)現(xiàn)[D];第二軍醫(yī)大學(xué);2012年
2 韓燕龍;基于隨機(jī)森林的指數(shù)化投資組合構(gòu)建研究[D];華南理工大學(xué);2015年
3 賀捷;隨機(jī)森林在文本分類中的應(yīng)用[D];華南理工大學(xué);2015年
4 張文婷;交通環(huán)境下基于改進(jìn)霍夫森林的目標(biāo)檢測(cè)與跟蹤[D];華南理工大學(xué);2015年
5 李強(qiáng);基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測(cè)[D];南京理工大學(xué);2015年
6 朱玟謙;一種收斂性隨機(jī)森林在人臉檢測(cè)中的應(yīng)用研究[D];武漢理工大學(xué);2015年
7 肖宇;基于序列圖像的手勢(shì)檢測(cè)與識(shí)別算法研究[D];電子科技大學(xué);2014年
8 李慧;一種改進(jìn)的隨機(jī)森林并行分類方法在運(yùn)營(yíng)商大數(shù)據(jù)的應(yīng)用[D];電子科技大學(xué);2015年
9 趙亞紅;面向多類標(biāo)分類的隨機(jī)森林算法研究[D];哈爾濱工業(yè)大學(xué);2014年
10 黎成;基于隨機(jī)森林和ReliefF的致病SNP識(shí)別方法[D];西安電子科技大學(xué);2014年
,本文編號(hào):1696108
本文鏈接:http://sikaile.net/jingjifazhanlunwen/1696108.html