基于NLP的金融公告分類與抽取系統(tǒng)的設計與實現(xiàn)
發(fā)布時間:2021-03-12 11:01
隨著國家經濟活力的進一步增強,上市公司總數(shù)不斷增多,金融公告數(shù)據(jù)分析的難度進一步加大。為了更快速、準確地為風投公司、資金托管機構提供分析數(shù)據(jù),金融公告分類與抽取平臺使用了大數(shù)據(jù)加自然語言處理技術,使得每天全國上萬家上市公司的公告都能即時得到分析處理。為了提高公告的分類以及抽取準確性,系統(tǒng)中使用二級改進文本抽取方法,先分類出含有屬性值的文本行或段(潛在標簽),再進行屬性值抽取,大大提高了數(shù)據(jù)平臺的核心競爭力。本文首先闡述了項目背景、相關產品的國內外現(xiàn)狀以及關鍵技術與理論,對整個系統(tǒng)進行了功能性和非功能性需求分析。根據(jù)需求分析進行了系統(tǒng)的整體架構設計、劃分各個模塊的主要功能點與數(shù)據(jù)庫設計,然后著重對系統(tǒng)進行了詳細設計與實現(xiàn)。筆者完整參與了整個研發(fā)過程,獨自完成了公告分類模塊、公告標注模塊、公告屬性值抽取模塊的主要開發(fā)工作,并參與了樸素貝葉斯、潛在標簽分類、NER命名實體識別算法的調研與實現(xiàn)工作。在基本需求完成的基礎上,筆者針對不同的分詞方法、文本分類模型進行了大量的對比實驗,開發(fā)了分詞、數(shù)據(jù)預處理、調參模塊對模型進行了性能優(yōu)化;并通過語法規(guī)則、正則表達式、NER命名實體識別相組合的實驗方法...
【文章來源】:北京交通大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:86 頁
【學位級別】:碩士
【部分圖文】:
Ow模型實現(xiàn)圖
圖2-3?Skip-gram模型實現(xiàn)圖??Figure?2-3?Skip-gram?model?implementation?diagram??在實際的使用中,兩種預測方式都具有較好的詞向量表達能力
圖3-1系統(tǒng)功能模塊圖??Figure?3-1?System?function?module?diagram??
【參考文獻】:
期刊論文
[1]Automatic extraction and structuration of soil–environment relationship information from soil survey reports[J]. WANG De-sheng,LIU Jun-zhi,ZHU A-xing,WANG Shu,ZENG Can-ying,MA Tian-wu. Journal of Integrative Agriculture. 2019(02)
[2]Hadoop綜述[J]. 李元亨,鄒學玉. 電腦知識與技術. 2018(09)
[3]基于規(guī)則的海事自由文本信息抽取方法研究[J]. 余晨,毛喆,高嵩. 交通信息與安全. 2017(02)
[4]知識圖譜的發(fā)展與構建[J]. 李濤,王次臣,李華康. 南京理工大學學報. 2017(01)
[5]MapReduce大數(shù)據(jù)處理平臺與算法研究進展[J]. 宋杰,孫宗哲,毛克明,鮑玉斌,于戈. 軟件學報. 2017(03)
[6]Word2vec的工作原理及應用探究[J]. 周練. 科技情報開發(fā)與經濟. 2015(02)
[7]中文分詞與詞性標注研究[J]. 梁喜濤,顧磊. 計算機技術與發(fā)展. 2015(02)
[8]大數(shù)據(jù)技術研究綜述[J]. 張鋒軍. 通信技術. 2014(11)
[9]基于改進TFIDF算法的文本分類研究[J]. 鄭霖,徐德華. 計算機與現(xiàn)代化. 2014(09)
[10]中文分詞研究[J]. 張黎,徐蔚然. 軟件. 2012(12)
博士論文
[1]基于n-gram的中文文本復制檢測研究[D]. 張偉.湖南大學 2014
碩士論文
[1]機器學習中損失函數(shù)問題研究[D]. 蘇美紅.西北大學 2015
[2]基于CRF和名詞短語識別的中文微博情感要素抽取[D]. 趙勛.大連理工大學 2014
[3]特征提取方法及其應用研究[D]. 周濤.江南大學 2012
本文編號:3078191
【文章來源】:北京交通大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:86 頁
【學位級別】:碩士
【部分圖文】:
Ow模型實現(xiàn)圖
圖2-3?Skip-gram模型實現(xiàn)圖??Figure?2-3?Skip-gram?model?implementation?diagram??在實際的使用中,兩種預測方式都具有較好的詞向量表達能力
圖3-1系統(tǒng)功能模塊圖??Figure?3-1?System?function?module?diagram??
【參考文獻】:
期刊論文
[1]Automatic extraction and structuration of soil–environment relationship information from soil survey reports[J]. WANG De-sheng,LIU Jun-zhi,ZHU A-xing,WANG Shu,ZENG Can-ying,MA Tian-wu. Journal of Integrative Agriculture. 2019(02)
[2]Hadoop綜述[J]. 李元亨,鄒學玉. 電腦知識與技術. 2018(09)
[3]基于規(guī)則的海事自由文本信息抽取方法研究[J]. 余晨,毛喆,高嵩. 交通信息與安全. 2017(02)
[4]知識圖譜的發(fā)展與構建[J]. 李濤,王次臣,李華康. 南京理工大學學報. 2017(01)
[5]MapReduce大數(shù)據(jù)處理平臺與算法研究進展[J]. 宋杰,孫宗哲,毛克明,鮑玉斌,于戈. 軟件學報. 2017(03)
[6]Word2vec的工作原理及應用探究[J]. 周練. 科技情報開發(fā)與經濟. 2015(02)
[7]中文分詞與詞性標注研究[J]. 梁喜濤,顧磊. 計算機技術與發(fā)展. 2015(02)
[8]大數(shù)據(jù)技術研究綜述[J]. 張鋒軍. 通信技術. 2014(11)
[9]基于改進TFIDF算法的文本分類研究[J]. 鄭霖,徐德華. 計算機與現(xiàn)代化. 2014(09)
[10]中文分詞研究[J]. 張黎,徐蔚然. 軟件. 2012(12)
博士論文
[1]基于n-gram的中文文本復制檢測研究[D]. 張偉.湖南大學 2014
碩士論文
[1]機器學習中損失函數(shù)問題研究[D]. 蘇美紅.西北大學 2015
[2]基于CRF和名詞短語識別的中文微博情感要素抽取[D]. 趙勛.大連理工大學 2014
[3]特征提取方法及其應用研究[D]. 周濤.江南大學 2012
本文編號:3078191
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3078191.html
最近更新
教材專著