基于NLP的金融公告分類與抽取系統(tǒng)的設(shè)計與實現(xiàn)
發(fā)布時間:2021-03-12 11:01
隨著國家經(jīng)濟(jì)活力的進(jìn)一步增強(qiáng),上市公司總數(shù)不斷增多,金融公告數(shù)據(jù)分析的難度進(jìn)一步加大。為了更快速、準(zhǔn)確地為風(fēng)投公司、資金托管機(jī)構(gòu)提供分析數(shù)據(jù),金融公告分類與抽取平臺使用了大數(shù)據(jù)加自然語言處理技術(shù),使得每天全國上萬家上市公司的公告都能即時得到分析處理。為了提高公告的分類以及抽取準(zhǔn)確性,系統(tǒng)中使用二級改進(jìn)文本抽取方法,先分類出含有屬性值的文本行或段(潛在標(biāo)簽),再進(jìn)行屬性值抽取,大大提高了數(shù)據(jù)平臺的核心競爭力。本文首先闡述了項目背景、相關(guān)產(chǎn)品的國內(nèi)外現(xiàn)狀以及關(guān)鍵技術(shù)與理論,對整個系統(tǒng)進(jìn)行了功能性和非功能性需求分析。根據(jù)需求分析進(jìn)行了系統(tǒng)的整體架構(gòu)設(shè)計、劃分各個模塊的主要功能點與數(shù)據(jù)庫設(shè)計,然后著重對系統(tǒng)進(jìn)行了詳細(xì)設(shè)計與實現(xiàn)。筆者完整參與了整個研發(fā)過程,獨自完成了公告分類模塊、公告標(biāo)注模塊、公告屬性值抽取模塊的主要開發(fā)工作,并參與了樸素貝葉斯、潛在標(biāo)簽分類、NER命名實體識別算法的調(diào)研與實現(xiàn)工作。在基本需求完成的基礎(chǔ)上,筆者針對不同的分詞方法、文本分類模型進(jìn)行了大量的對比實驗,開發(fā)了分詞、數(shù)據(jù)預(yù)處理、調(diào)參模塊對模型進(jìn)行了性能優(yōu)化;并通過語法規(guī)則、正則表達(dá)式、NER命名實體識別相組合的實驗方法...
【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:86 頁
【學(xué)位級別】:碩士
【部分圖文】:
Ow模型實現(xiàn)圖
圖2-3?Skip-gram模型實現(xiàn)圖??Figure?2-3?Skip-gram?model?implementation?diagram??在實際的使用中,兩種預(yù)測方式都具有較好的詞向量表達(dá)能力
圖3-1系統(tǒng)功能模塊圖??Figure?3-1?System?function?module?diagram??
【參考文獻(xiàn)】:
期刊論文
[1]Automatic extraction and structuration of soil–environment relationship information from soil survey reports[J]. WANG De-sheng,LIU Jun-zhi,ZHU A-xing,WANG Shu,ZENG Can-ying,MA Tian-wu. Journal of Integrative Agriculture. 2019(02)
[2]Hadoop綜述[J]. 李元亨,鄒學(xué)玉. 電腦知識與技術(shù). 2018(09)
[3]基于規(guī)則的海事自由文本信息抽取方法研究[J]. 余晨,毛喆,高嵩. 交通信息與安全. 2017(02)
[4]知識圖譜的發(fā)展與構(gòu)建[J]. 李濤,王次臣,李華康. 南京理工大學(xué)學(xué)報. 2017(01)
[5]MapReduce大數(shù)據(jù)處理平臺與算法研究進(jìn)展[J]. 宋杰,孫宗哲,毛克明,鮑玉斌,于戈. 軟件學(xué)報. 2017(03)
[6]Word2vec的工作原理及應(yīng)用探究[J]. 周練. 科技情報開發(fā)與經(jīng)濟(jì). 2015(02)
[7]中文分詞與詞性標(biāo)注研究[J]. 梁喜濤,顧磊. 計算機(jī)技術(shù)與發(fā)展. 2015(02)
[8]大數(shù)據(jù)技術(shù)研究綜述[J]. 張鋒軍. 通信技術(shù). 2014(11)
[9]基于改進(jìn)TFIDF算法的文本分類研究[J]. 鄭霖,徐德華. 計算機(jī)與現(xiàn)代化. 2014(09)
[10]中文分詞研究[J]. 張黎,徐蔚然. 軟件. 2012(12)
博士論文
[1]基于n-gram的中文文本復(fù)制檢測研究[D]. 張偉.湖南大學(xué) 2014
碩士論文
[1]機(jī)器學(xué)習(xí)中損失函數(shù)問題研究[D]. 蘇美紅.西北大學(xué) 2015
[2]基于CRF和名詞短語識別的中文微博情感要素抽取[D]. 趙勛.大連理工大學(xué) 2014
[3]特征提取方法及其應(yīng)用研究[D]. 周濤.江南大學(xué) 2012
本文編號:3078191
【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:86 頁
【學(xué)位級別】:碩士
【部分圖文】:
Ow模型實現(xiàn)圖
圖2-3?Skip-gram模型實現(xiàn)圖??Figure?2-3?Skip-gram?model?implementation?diagram??在實際的使用中,兩種預(yù)測方式都具有較好的詞向量表達(dá)能力
圖3-1系統(tǒng)功能模塊圖??Figure?3-1?System?function?module?diagram??
【參考文獻(xiàn)】:
期刊論文
[1]Automatic extraction and structuration of soil–environment relationship information from soil survey reports[J]. WANG De-sheng,LIU Jun-zhi,ZHU A-xing,WANG Shu,ZENG Can-ying,MA Tian-wu. Journal of Integrative Agriculture. 2019(02)
[2]Hadoop綜述[J]. 李元亨,鄒學(xué)玉. 電腦知識與技術(shù). 2018(09)
[3]基于規(guī)則的海事自由文本信息抽取方法研究[J]. 余晨,毛喆,高嵩. 交通信息與安全. 2017(02)
[4]知識圖譜的發(fā)展與構(gòu)建[J]. 李濤,王次臣,李華康. 南京理工大學(xué)學(xué)報. 2017(01)
[5]MapReduce大數(shù)據(jù)處理平臺與算法研究進(jìn)展[J]. 宋杰,孫宗哲,毛克明,鮑玉斌,于戈. 軟件學(xué)報. 2017(03)
[6]Word2vec的工作原理及應(yīng)用探究[J]. 周練. 科技情報開發(fā)與經(jīng)濟(jì). 2015(02)
[7]中文分詞與詞性標(biāo)注研究[J]. 梁喜濤,顧磊. 計算機(jī)技術(shù)與發(fā)展. 2015(02)
[8]大數(shù)據(jù)技術(shù)研究綜述[J]. 張鋒軍. 通信技術(shù). 2014(11)
[9]基于改進(jìn)TFIDF算法的文本分類研究[J]. 鄭霖,徐德華. 計算機(jī)與現(xiàn)代化. 2014(09)
[10]中文分詞研究[J]. 張黎,徐蔚然. 軟件. 2012(12)
博士論文
[1]基于n-gram的中文文本復(fù)制檢測研究[D]. 張偉.湖南大學(xué) 2014
碩士論文
[1]機(jī)器學(xué)習(xí)中損失函數(shù)問題研究[D]. 蘇美紅.西北大學(xué) 2015
[2]基于CRF和名詞短語識別的中文微博情感要素抽取[D]. 趙勛.大連理工大學(xué) 2014
[3]特征提取方法及其應(yīng)用研究[D]. 周濤.江南大學(xué) 2012
本文編號:3078191
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3078191.html
最近更新
教材專著