當(dāng)前位置：主頁(yè) > 科技論文 > 計(jì)算機(jī)應(yīng)用論文 >

金融領(lǐng)域文本分類(lèi)算法的優(yōu)化

發(fā)布時(shí)間：2024-05-25 06:34

　　隨著金融產(chǎn)業(yè)的發(fā)展,人們對(duì)于金融相關(guān)信息的需求越來(lái)越多,金融領(lǐng)域資訊也隨之增多。金融領(lǐng)域資訊文本往往有助于分析相關(guān)個(gè)股和公司股價(jià)的走勢(shì)。然而,日漸增多的金融領(lǐng)域資訊文本雜而亂,充斥大量的非金融領(lǐng)域文本,如廣告類(lèi)文本、軟文類(lèi)文本、純技術(shù)類(lèi)文本等。為此,文本的金融領(lǐng)域相關(guān)性分析十分重要。已有的base版本的文本分類(lèi)方法受限于訓(xùn)練語(yǔ)料的數(shù)據(jù)量大小,且基于詞語(yǔ)的特征維度對(duì)文本建模,忽略了語(yǔ)義信息,準(zhǔn)確率和召回率都比較低。從而提出對(duì)base版本的文本分類(lèi)方法進(jìn)行改進(jìn)的措施,首先采用基于關(guān)鍵詞和pattern等規(guī)則的方法召回文本生成訓(xùn)練語(yǔ)料;其次采用基于active learning和聚類(lèi)等模型的方法標(biāo)注文本生成訓(xùn)練語(yǔ)料;緊接著從基于文本內(nèi)容和媒體賬號(hào)兩個(gè)維度對(duì)文本進(jìn)行清洗挑選出高質(zhì)量的訓(xùn)練文本;最后在文本分類(lèi)的特征中引入帶有語(yǔ)義信息的詞向量特征對(duì)文本建模,采用不同的文本分類(lèi)模型對(duì)文本建模做對(duì)比試驗(yàn),對(duì)模型預(yù)測(cè)概率做實(shí)驗(yàn)調(diào)整,從而更準(zhǔn)的去判斷文本與金融領(lǐng)域是否相關(guān)。與此同時(shí),為了更多更準(zhǔn)的召回金融領(lǐng)域相關(guān)文本,改進(jìn)的版本中在文本分類(lèi)模型策略識(shí)別之前,融入了基于金融領(lǐng)域關(guān)鍵詞識(shí)別的規(guī)則策略。實(shí)驗(yàn)結(jié)果...

【文章頁(yè)數(shù)】：63 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

圖4.2Activelearning示意圖

圖4.2Activelearning示意圖（2）Activelearning的應(yīng)用主動(dòng)學(xué)習(xí)在本項(xiàng)目中主要分三步來(lái)完成：第一步用編輯標(biāo)注的4444條數(shù)據(jù)，用fasttext模型訓(xùn)練一個(gè)初版的分類(lèi)器；第二步用已經(jīng)訓(xùn)練好的模型對(duì)歷史數(shù)據(jù)進(jìn)行預(yù)測(cè)，根據(jù)設(shè)定的查詢(xún)函數(shù)從....

本文編號(hào)：3981847

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3981847.html

上一篇：云平臺(tái)下Spark PaaS平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
下一篇：網(wǎng)絡(luò)用戶(hù)的情感傾向挖掘方法與系統(tǒng)研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

金融領(lǐng)域文本分類(lèi)算法的優(yōu)化