年報文本與數(shù)據(jù)分析及可視化的設(shè)計與實(shí)現(xiàn)
發(fā)布時間:2023-06-23 19:21
企業(yè)年報由大量文本和經(jīng)濟(jì)數(shù)據(jù)構(gòu)成,這些文本和經(jīng)濟(jì)數(shù)據(jù)一直是我們數(shù)據(jù)分析和文本挖掘中的熱點(diǎn),如何快速準(zhǔn)確的提取這些信息,以及對提取的數(shù)據(jù)進(jìn)行預(yù)測,對文本進(jìn)行分析是本文研究的重點(diǎn)。在數(shù)據(jù)研究方面本文首先利用LSTM模型,對用戶關(guān)心的股票價格及其變化趨勢進(jìn)行預(yù)測,實(shí)驗(yàn)中利用相應(yīng)的特征比如開盤價,收盤價等和標(biāo)簽實(shí)現(xiàn)了預(yù)測任務(wù)。通過結(jié)果可以觀察到,模型可以預(yù)測出未來一段時間的股價走勢,以及預(yù)測的股價也和真實(shí)值較為貼近。其次,為了更好的捕捉行業(yè)未來的動向,我們進(jìn)行了股價收益排名預(yù)測,因?yàn)楸绕鸸蓛r,更多用戶更加關(guān)心每只股票的收益情況,但是傳統(tǒng)的回歸任務(wù)并不能很好的考慮排名中的位置信息,在每次迭代中,不能更好的利用位置信息進(jìn)行位置排序更新。為了解決這一問題,我們引入了排序?qū)W習(xí)的方法。結(jié)合排序?qū)W習(xí)的方法,我們提出基于排序?qū)W習(xí)的股價收益預(yù)測模型,實(shí)現(xiàn)對股價收益排名的合理預(yù)測,實(shí)驗(yàn)結(jié)果表明在股價排名預(yù)測任務(wù)中有顯著的提升效果,并最終在可視化環(huán)節(jié),對預(yù)測的排名進(jìn)行展示。在文本處理方面,首先著手于文本分類實(shí)驗(yàn),將報表中的財務(wù)指標(biāo)描述類文本從PDF中進(jìn)行提取,在進(jìn)行完分詞,去停用詞等預(yù)處理后,利用樸素貝葉斯分類器...
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 企業(yè)報表文本與數(shù)據(jù)挖掘的研究現(xiàn)狀
1.2 面向排序?qū)W習(xí)的經(jīng)濟(jì)數(shù)據(jù)預(yù)測模型
1.2.1 數(shù)據(jù)提取
1.2.2 數(shù)據(jù)處理
1.2.3 數(shù)據(jù)模型
1.3 年報文本與數(shù)據(jù)分析的研究意義
1.4 論文的整體架構(gòu)
2 報表數(shù)據(jù)預(yù)測
2.1 xgBoost方法
2.2 前饋神經(jīng)網(wǎng)絡(luò)
2.3 LSTM方法
2.4 排序?qū)W習(xí)方法
2.4.1 Random Forests
2.4.2 Rank Net
2.4.3 MART
2.4.4 Lambda MART
2.5 本章小結(jié)
3 報表文本處理
3.1 樸素貝葉斯文本分類
3.2 序列標(biāo)注與實(shí)體識別
3.3 基于依存分析的中文實(shí)體關(guān)系抽取
3.4 本章小結(jié)
4 數(shù)據(jù)分析與文本處理實(shí)驗(yàn)
4.1 股價收益排名預(yù)測
4.1.1 特征分析
4.1.2 數(shù)據(jù)標(biāo)注
4.1.3 數(shù)據(jù)格式
4.1.4 實(shí)驗(yàn)結(jié)果及分析
4.2 股價及趨勢預(yù)測
4.2.1 數(shù)據(jù)處理
4.2.2 模型構(gòu)建及訓(xùn)練
4.2.3 預(yù)測結(jié)果及分析
4.3 公司盈利虧損文本分類
4.3.1 數(shù)據(jù)準(zhǔn)備
4.3.2 文本預(yù)處理
4.3.3 權(quán)重策略
4.3.4 實(shí)驗(yàn)及結(jié)果
4.4 年報文本實(shí)體識別
4.4.1 數(shù)據(jù)準(zhǔn)備
4.4.2 實(shí)體識別實(shí)驗(yàn)
4.4.3 實(shí)驗(yàn)結(jié)果及分析
4.5 年報文本關(guān)系抽取
4.5.1 數(shù)據(jù)準(zhǔn)備
4.5.2 實(shí)體關(guān)系抽取
4.5.3 實(shí)體關(guān)系抽取結(jié)果及分析
4.6 本章小結(jié)
5 可視化設(shè)計與實(shí)現(xiàn)
5.1 可視化技術(shù)實(shí)現(xiàn)
5.1.1 前端和數(shù)據(jù)庫
5.1.2 SMM框架
5.1.3 可視化代碼結(jié)構(gòu)
5.2 可視化模塊
5.2.1 基礎(chǔ)數(shù)據(jù)展示
5.2.2 排名預(yù)測展示
5.2.3 利潤分類展示
5.2.4 股價及趨勢預(yù)測展示
5.2.5 關(guān)系圖譜展示
5.3 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況
本文編號:3835169
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 企業(yè)報表文本與數(shù)據(jù)挖掘的研究現(xiàn)狀
1.2 面向排序?qū)W習(xí)的經(jīng)濟(jì)數(shù)據(jù)預(yù)測模型
1.2.1 數(shù)據(jù)提取
1.2.2 數(shù)據(jù)處理
1.2.3 數(shù)據(jù)模型
1.3 年報文本與數(shù)據(jù)分析的研究意義
1.4 論文的整體架構(gòu)
2 報表數(shù)據(jù)預(yù)測
2.1 xgBoost方法
2.2 前饋神經(jīng)網(wǎng)絡(luò)
2.3 LSTM方法
2.4 排序?qū)W習(xí)方法
2.4.1 Random Forests
2.4.2 Rank Net
2.4.3 MART
2.4.4 Lambda MART
2.5 本章小結(jié)
3 報表文本處理
3.1 樸素貝葉斯文本分類
3.2 序列標(biāo)注與實(shí)體識別
3.3 基于依存分析的中文實(shí)體關(guān)系抽取
3.4 本章小結(jié)
4 數(shù)據(jù)分析與文本處理實(shí)驗(yàn)
4.1 股價收益排名預(yù)測
4.1.1 特征分析
4.1.2 數(shù)據(jù)標(biāo)注
4.1.3 數(shù)據(jù)格式
4.1.4 實(shí)驗(yàn)結(jié)果及分析
4.2 股價及趨勢預(yù)測
4.2.1 數(shù)據(jù)處理
4.2.2 模型構(gòu)建及訓(xùn)練
4.2.3 預(yù)測結(jié)果及分析
4.3 公司盈利虧損文本分類
4.3.1 數(shù)據(jù)準(zhǔn)備
4.3.2 文本預(yù)處理
4.3.3 權(quán)重策略
4.3.4 實(shí)驗(yàn)及結(jié)果
4.4 年報文本實(shí)體識別
4.4.1 數(shù)據(jù)準(zhǔn)備
4.4.2 實(shí)體識別實(shí)驗(yàn)
4.4.3 實(shí)驗(yàn)結(jié)果及分析
4.5 年報文本關(guān)系抽取
4.5.1 數(shù)據(jù)準(zhǔn)備
4.5.2 實(shí)體關(guān)系抽取
4.5.3 實(shí)體關(guān)系抽取結(jié)果及分析
4.6 本章小結(jié)
5 可視化設(shè)計與實(shí)現(xiàn)
5.1 可視化技術(shù)實(shí)現(xiàn)
5.1.1 前端和數(shù)據(jù)庫
5.1.2 SMM框架
5.1.3 可視化代碼結(jié)構(gòu)
5.2 可視化模塊
5.2.1 基礎(chǔ)數(shù)據(jù)展示
5.2.2 排名預(yù)測展示
5.2.3 利潤分類展示
5.2.4 股價及趨勢預(yù)測展示
5.2.5 關(guān)系圖譜展示
5.3 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況
本文編號:3835169
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3835169.html
最近更新
教材專著