金融領(lǐng)域文本分類(lèi)算法的優(yōu)化
發(fā)布時(shí)間:2024-05-25 06:34
隨著金融產(chǎn)業(yè)的發(fā)展,人們對(duì)于金融相關(guān)信息的需求越來(lái)越多,金融領(lǐng)域資訊也隨之增多。金融領(lǐng)域資訊文本往往有助于分析相關(guān)個(gè)股和公司股價(jià)的走勢(shì)。然而,日漸增多的金融領(lǐng)域資訊文本雜而亂,充斥大量的非金融領(lǐng)域文本,如廣告類(lèi)文本、軟文類(lèi)文本、純技術(shù)類(lèi)文本等。為此,文本的金融領(lǐng)域相關(guān)性分析十分重要。已有的base版本的文本分類(lèi)方法受限于訓(xùn)練語(yǔ)料的數(shù)據(jù)量大小,且基于詞語(yǔ)的特征維度對(duì)文本建模,忽略了語(yǔ)義信息,準(zhǔn)確率和召回率都比較低。從而提出對(duì)base版本的文本分類(lèi)方法進(jìn)行改進(jìn)的措施,首先采用基于關(guān)鍵詞和pattern等規(guī)則的方法召回文本生成訓(xùn)練語(yǔ)料;其次采用基于active learning和聚類(lèi)等模型的方法標(biāo)注文本生成訓(xùn)練語(yǔ)料;緊接著從基于文本內(nèi)容和媒體賬號(hào)兩個(gè)維度對(duì)文本進(jìn)行清洗挑選出高質(zhì)量的訓(xùn)練文本;最后在文本分類(lèi)的特征中引入帶有語(yǔ)義信息的詞向量特征對(duì)文本建模,采用不同的文本分類(lèi)模型對(duì)文本建模做對(duì)比試驗(yàn),對(duì)模型預(yù)測(cè)概率做實(shí)驗(yàn)調(diào)整,從而更準(zhǔn)的去判斷文本與金融領(lǐng)域是否相關(guān)。與此同時(shí),為了更多更準(zhǔn)的召回金融領(lǐng)域相關(guān)文本,改進(jìn)的版本中在文本分類(lèi)模型策略識(shí)別之前,融入了基于金融領(lǐng)域關(guān)鍵詞識(shí)別的規(guī)則策略。實(shí)驗(yàn)結(jié)果...
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本文編號(hào):3981847
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖4.2Activelearning示意圖
圖4.2Activelearning示意圖(2)Activelearning的應(yīng)用主動(dòng)學(xué)習(xí)在本項(xiàng)目中主要分三步來(lái)完成:第一步用編輯標(biāo)注的4444條數(shù)據(jù),用fasttext模型訓(xùn)練一個(gè)初版的分類(lèi)器;第二步用已經(jīng)訓(xùn)練好的模型對(duì)歷史數(shù)據(jù)進(jìn)行預(yù)測(cè),根據(jù)設(shè)定的查詢(xún)函數(shù)從....
本文編號(hào):3981847
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3981847.html
最近更新
教材專(zhuān)著