天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于NLP的金融公告分類與抽取系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間:2021-03-12 11:01
  隨著國家經(jīng)濟(jì)活力的進(jìn)一步增強(qiáng),上市公司總數(shù)不斷增多,金融公告數(shù)據(jù)分析的難度進(jìn)一步加大。為了更快速、準(zhǔn)確地為風(fēng)投公司、資金托管機(jī)構(gòu)提供分析數(shù)據(jù),金融公告分類與抽取平臺使用了大數(shù)據(jù)加自然語言處理技術(shù),使得每天全國上萬家上市公司的公告都能即時得到分析處理。為了提高公告的分類以及抽取準(zhǔn)確性,系統(tǒng)中使用二級改進(jìn)文本抽取方法,先分類出含有屬性值的文本行或段(潛在標(biāo)簽),再進(jìn)行屬性值抽取,大大提高了數(shù)據(jù)平臺的核心競爭力。本文首先闡述了項目背景、相關(guān)產(chǎn)品的國內(nèi)外現(xiàn)狀以及關(guān)鍵技術(shù)與理論,對整個系統(tǒng)進(jìn)行了功能性和非功能性需求分析。根據(jù)需求分析進(jìn)行了系統(tǒng)的整體架構(gòu)設(shè)計、劃分各個模塊的主要功能點與數(shù)據(jù)庫設(shè)計,然后著重對系統(tǒng)進(jìn)行了詳細(xì)設(shè)計與實現(xiàn)。筆者完整參與了整個研發(fā)過程,獨自完成了公告分類模塊、公告標(biāo)注模塊、公告屬性值抽取模塊的主要開發(fā)工作,并參與了樸素貝葉斯、潛在標(biāo)簽分類、NER命名實體識別算法的調(diào)研與實現(xiàn)工作。在基本需求完成的基礎(chǔ)上,筆者針對不同的分詞方法、文本分類模型進(jìn)行了大量的對比實驗,開發(fā)了分詞、數(shù)據(jù)預(yù)處理、調(diào)參模塊對模型進(jìn)行了性能優(yōu)化;并通過語法規(guī)則、正則表達(dá)式、NER命名實體識別相組合的實驗方法... 

【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:86 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于NLP的金融公告分類與抽取系統(tǒng)的設(shè)計與實現(xiàn)


Ow模型實現(xiàn)圖

基于NLP的金融公告分類與抽取系統(tǒng)的設(shè)計與實現(xiàn)


圖2-3?Skip-gram模型實現(xiàn)圖??Figure?2-3?Skip-gram?model?implementation?diagram??在實際的使用中,兩種預(yù)測方式都具有較好的詞向量表達(dá)能力

基于NLP的金融公告分類與抽取系統(tǒng)的設(shè)計與實現(xiàn)


圖3-1系統(tǒng)功能模塊圖??Figure?3-1?System?function?module?diagram??

【參考文獻(xiàn)】:
期刊論文
[1]Automatic extraction and structuration of soil–environment relationship information from soil survey reports[J]. WANG De-sheng,LIU Jun-zhi,ZHU A-xing,WANG Shu,ZENG Can-ying,MA Tian-wu.  Journal of Integrative Agriculture. 2019(02)
[2]Hadoop綜述[J]. 李元亨,鄒學(xué)玉.  電腦知識與技術(shù). 2018(09)
[3]基于規(guī)則的海事自由文本信息抽取方法研究[J]. 余晨,毛喆,高嵩.  交通信息與安全. 2017(02)
[4]知識圖譜的發(fā)展與構(gòu)建[J]. 李濤,王次臣,李華康.  南京理工大學(xué)學(xué)報. 2017(01)
[5]MapReduce大數(shù)據(jù)處理平臺與算法研究進(jìn)展[J]. 宋杰,孫宗哲,毛克明,鮑玉斌,于戈.  軟件學(xué)報. 2017(03)
[6]Word2vec的工作原理及應(yīng)用探究[J]. 周練.  科技情報開發(fā)與經(jīng)濟(jì). 2015(02)
[7]中文分詞與詞性標(biāo)注研究[J]. 梁喜濤,顧磊.  計算機(jī)技術(shù)與發(fā)展. 2015(02)
[8]大數(shù)據(jù)技術(shù)研究綜述[J]. 張鋒軍.  通信技術(shù). 2014(11)
[9]基于改進(jìn)TFIDF算法的文本分類研究[J]. 鄭霖,徐德華.  計算機(jī)與現(xiàn)代化. 2014(09)
[10]中文分詞研究[J]. 張黎,徐蔚然.  軟件. 2012(12)

博士論文
[1]基于n-gram的中文文本復(fù)制檢測研究[D]. 張偉.湖南大學(xué) 2014

碩士論文
[1]機(jī)器學(xué)習(xí)中損失函數(shù)問題研究[D]. 蘇美紅.西北大學(xué) 2015
[2]基于CRF和名詞短語識別的中文微博情感要素抽取[D]. 趙勛.大連理工大學(xué) 2014
[3]特征提取方法及其應(yīng)用研究[D]. 周濤.江南大學(xué) 2012



本文編號:3078191

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3078191.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶473d0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com