基于中文社會媒體分析的股票行為預(yù)測
發(fā)布時間:2021-08-10 00:42
隨著Web2.0的普及與應(yīng)用,各種新興的社會化媒體如微博、論壇等開始出現(xiàn)和發(fā)展。社會媒體作為一種新型的網(wǎng)絡(luò)信息資源組織模式,其中蘊含著大量的對股票預(yù)測有重要參考價值的信息。因此,基于社會媒體的股票行為預(yù)測已經(jīng)成為目前金融和知識管理等領(lǐng)域的研究熱點。現(xiàn)有的研究認為分析社會媒體的信息活動強度和情感傾向有利于預(yù)測股票行為,然而其研究主要從整體層面上挖掘社會媒體的信息。事實上,社會媒體中用戶的討論內(nèi)容都是以不同主題呈現(xiàn)的,不同主題所蘊含的信息與股票行為的相關(guān)性存在明顯差異。因此,若要更加精確的反映股票行為的變化,必須進一步對社會媒體中的不同主題加以分類,細粒度的分析每類主題下各種信息(如情感傾向、信息量等)與股票行為的相關(guān)性。本文以中文社會媒體為背景,通過挖掘社會媒體下潛在主題和情感傾向等信息,預(yù)測與之相關(guān)的股票行為。主要完成以下工作:(1)基于中文社會媒體環(huán)境的潛在主題發(fā)現(xiàn)。分析中文社會媒體環(huán)境下主題特征,構(gòu)建潛在主題發(fā)現(xiàn)框架,利用潛在語義分析方法和EM聚類等文本分析技術(shù)完成潛在主題識別。該方法使得無分類的社會媒體信息轉(zhuǎn)變?yōu)榘床煌黝}加以區(qū)分的有分類信息。(2)基于主題分類的中文社會媒體情感...
【文章來源】:合肥工業(yè)大學安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
論文組織結(jié)構(gòu)圖
些優(yōu)勢特點的存在,社會媒體應(yīng)用研究依然面臨挑戰(zhàn)。享信息的平臺,社會媒體是一種新興的網(wǎng)絡(luò)信息資源組用戶生成內(nèi)容(UGC)具有海量異構(gòu)、多源異質(zhì)、動態(tài),這些特征給基于社會媒體信息挖掘的研究帶來困難。義分析理論分析 LSA(Latent Semantic Analysis)是一種用于知識獲方法[36]。目前被廣泛應(yīng)用于主題發(fā)現(xiàn)、文本分類/聚類、多領(lǐng)域。它使用統(tǒng)計分析的方法對所要研究的文本集進與詞之間潛在的語義結(jié)構(gòu)。這種詞語詞之間的潛在的語的原來文本所擁有的全部信息的總和。通過這種方法可相關(guān)性,從而實現(xiàn)對文本向量降維的目的[37]。潛在語義本中的詞與詞之間存在一定的相互關(guān)系,也就是有某種存在。這種潛在的語義結(jié)構(gòu)隱含在文本中詞語的上下文量文本的統(tǒng)計計算,可以挖掘出這種潛在語義。用語義以消除詞之間的相關(guān)性,簡化文本向量的目的[38]。下圖間示例圖。
圖 2-3 基于中文社會媒體的股票行為預(yù)測研究框架框架有三個層面構(gòu)成,基礎(chǔ)數(shù)據(jù)源層、社會媒體分析層、股票預(yù)實驗論證層。礎(chǔ)數(shù)據(jù)源層社會媒體作為股票預(yù)測研究的主要基礎(chǔ)數(shù)據(jù)來源,這些數(shù)據(jù)源具息、博客、微博、金融網(wǎng)站等,我們將通過爬蟲程序從這些數(shù)據(jù)社會媒體上的信息具有交互性、及時性、海量和開放性,從中可票市場相關(guān)的有用信息,為股票行為預(yù)測提供了良好的數(shù)據(jù)來源會媒體分析層媒體上的信息具有海量異構(gòu)、多源異質(zhì)、動態(tài)冗余和價值稀疏等從中甄別并提取有價值的信息,還需要利用科學的社會媒體分析特征提取構(gòu)建社會媒體文本的潛在語義向量空間,利用潛在語義析等技術(shù)識別社會媒體中與股票相關(guān)主題,通過情感分析技術(shù)挖不同主題的情感信息。社會媒體分析層是為股票預(yù)測建模提供模數(shù)據(jù)。
本文編號:3333103
【文章來源】:合肥工業(yè)大學安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
論文組織結(jié)構(gòu)圖
些優(yōu)勢特點的存在,社會媒體應(yīng)用研究依然面臨挑戰(zhàn)。享信息的平臺,社會媒體是一種新興的網(wǎng)絡(luò)信息資源組用戶生成內(nèi)容(UGC)具有海量異構(gòu)、多源異質(zhì)、動態(tài),這些特征給基于社會媒體信息挖掘的研究帶來困難。義分析理論分析 LSA(Latent Semantic Analysis)是一種用于知識獲方法[36]。目前被廣泛應(yīng)用于主題發(fā)現(xiàn)、文本分類/聚類、多領(lǐng)域。它使用統(tǒng)計分析的方法對所要研究的文本集進與詞之間潛在的語義結(jié)構(gòu)。這種詞語詞之間的潛在的語的原來文本所擁有的全部信息的總和。通過這種方法可相關(guān)性,從而實現(xiàn)對文本向量降維的目的[37]。潛在語義本中的詞與詞之間存在一定的相互關(guān)系,也就是有某種存在。這種潛在的語義結(jié)構(gòu)隱含在文本中詞語的上下文量文本的統(tǒng)計計算,可以挖掘出這種潛在語義。用語義以消除詞之間的相關(guān)性,簡化文本向量的目的[38]。下圖間示例圖。
圖 2-3 基于中文社會媒體的股票行為預(yù)測研究框架框架有三個層面構(gòu)成,基礎(chǔ)數(shù)據(jù)源層、社會媒體分析層、股票預(yù)實驗論證層。礎(chǔ)數(shù)據(jù)源層社會媒體作為股票預(yù)測研究的主要基礎(chǔ)數(shù)據(jù)來源,這些數(shù)據(jù)源具息、博客、微博、金融網(wǎng)站等,我們將通過爬蟲程序從這些數(shù)據(jù)社會媒體上的信息具有交互性、及時性、海量和開放性,從中可票市場相關(guān)的有用信息,為股票行為預(yù)測提供了良好的數(shù)據(jù)來源會媒體分析層媒體上的信息具有海量異構(gòu)、多源異質(zhì)、動態(tài)冗余和價值稀疏等從中甄別并提取有價值的信息,還需要利用科學的社會媒體分析特征提取構(gòu)建社會媒體文本的潛在語義向量空間,利用潛在語義析等技術(shù)識別社會媒體中與股票相關(guān)主題,通過情感分析技術(shù)挖不同主題的情感信息。社會媒體分析層是為股票預(yù)測建模提供模數(shù)據(jù)。
本文編號:3333103
本文鏈接:http://sikaile.net/tushudanganlunwen/3333103.html