金融領(lǐng)域文本分類算法的優(yōu)化
發(fā)布時間:2024-05-25 06:34
隨著金融產(chǎn)業(yè)的發(fā)展,人們對于金融相關(guān)信息的需求越來越多,金融領(lǐng)域資訊也隨之增多。金融領(lǐng)域資訊文本往往有助于分析相關(guān)個股和公司股價的走勢。然而,日漸增多的金融領(lǐng)域資訊文本雜而亂,充斥大量的非金融領(lǐng)域文本,如廣告類文本、軟文類文本、純技術(shù)類文本等。為此,文本的金融領(lǐng)域相關(guān)性分析十分重要。已有的base版本的文本分類方法受限于訓(xùn)練語料的數(shù)據(jù)量大小,且基于詞語的特征維度對文本建模,忽略了語義信息,準(zhǔn)確率和召回率都比較低。從而提出對base版本的文本分類方法進行改進的措施,首先采用基于關(guān)鍵詞和pattern等規(guī)則的方法召回文本生成訓(xùn)練語料;其次采用基于active learning和聚類等模型的方法標(biāo)注文本生成訓(xùn)練語料;緊接著從基于文本內(nèi)容和媒體賬號兩個維度對文本進行清洗挑選出高質(zhì)量的訓(xùn)練文本;最后在文本分類的特征中引入帶有語義信息的詞向量特征對文本建模,采用不同的文本分類模型對文本建模做對比試驗,對模型預(yù)測概率做實驗調(diào)整,從而更準(zhǔn)的去判斷文本與金融領(lǐng)域是否相關(guān)。與此同時,為了更多更準(zhǔn)的召回金融領(lǐng)域相關(guān)文本,改進的版本中在文本分類模型策略識別之前,融入了基于金融領(lǐng)域關(guān)鍵詞識別的規(guī)則策略。實驗結(jié)果...
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
本文編號:3981847
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖4.2Activelearning示意圖
圖4.2Activelearning示意圖(2)Activelearning的應(yīng)用主動學(xué)習(xí)在本項目中主要分三步來完成:第一步用編輯標(biāo)注的4444條數(shù)據(jù),用fasttext模型訓(xùn)練一個初版的分類器;第二步用已經(jīng)訓(xùn)練好的模型對歷史數(shù)據(jù)進行預(yù)測,根據(jù)設(shè)定的查詢函數(shù)從....
本文編號:3981847
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3981847.html
最近更新
教材專著