基于Hadoop的金融事件的分析與計(jì)算
發(fā)布時(shí)間:2021-01-08 21:36
事件研究是金融行業(yè)的專有名詞。事件研究通過(guò)檢驗(yàn)企業(yè)股票價(jià)格在事件宣布前后的反應(yīng),來(lái)衡量事件發(fā)生(如企業(yè)合并、發(fā)布收益公告等)對(duì)企業(yè)估值的影響。目前事件研究的方法論比較成熟,但是并未走向?qū)嶋H應(yīng)用。主要是由于以下原因:1.事件分析:目前的事件采集主要是人工采集,然而面對(duì)越來(lái)越多的上市公司,越來(lái)越多的公司公告,人工采集不能及時(shí)獲得事件。本文基于Hadoop平臺(tái)和NLP技術(shù),在自動(dòng)獲取事件方面做了一些有意義的嘗試。2.事件研究的分布式計(jì)算:目前事件研究多是對(duì)于一個(gè)企業(yè)某個(gè)事件做事件研究,然后將結(jié)果用于其他企業(yè)的同類事件的異常收益計(jì)算上。本文基于Hadoop平臺(tái)的分布式計(jì)算能力,對(duì)于歷史上同類事件綜合計(jì)算其事件研究的結(jié)果。將這樣的結(jié)果應(yīng)用于未來(lái)發(fā)生事件的異常收益預(yù)計(jì),具有更高的準(zhǔn)確性。本文的主要工作內(nèi)容包括:(1)簡(jiǎn)化對(duì)文本數(shù)據(jù)的管理;贓TL工具M(jìn)orphline實(shí)現(xiàn)了公告數(shù)據(jù)解析、導(dǎo)入到分布式全文索引服務(wù)器SolrCloud的整個(gè)數(shù)據(jù)加工過(guò)程。最終,索引和文件信息則是存放在分布式文件系統(tǒng)HDFS之上。(2)將傳統(tǒng)的事件研究法的模型求解轉(zhuǎn)換為多元線性回歸問(wèn)題,進(jìn)而通過(guò)調(diào)用Spark MLli...
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:82 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1作業(yè)提交的執(zhí)行過(guò)程??8??
圖2-2?MapReduce的計(jì)算過(guò)程??Hadoop分布式文件系統(tǒng)(HDFS)是Hadoop項(xiàng)目中的文件存儲(chǔ)系統(tǒng)組件
?Mesos?Standalone??圖2-3?Spark基本架構(gòu)??2.1.3?Solr全文搜索服務(wù)器與分布式部署??Solr是基于Apache?Lucene構(gòu)建的全文搜索服務(wù)器。Solr于2004年由CNET??Networks公司啟動(dòng)研究項(xiàng)目。隨后,公司進(jìn)行項(xiàng)目開源,并作為Apache項(xiàng)目被??研究至今。Solr是基于Lucene核心索引庫(kù)實(shí)現(xiàn)的。該庫(kù)使用Java開發(fā),創(chuàng)建文??檔的倒排索引。??Solr具有高度可擴(kuò)展和容錯(cuò)的特性,支持全文搜索以及富文檔(如PDF)的??處理,提供近實(shí)時(shí)索引。為保證其可靠性,具備自動(dòng)故障轉(zhuǎn)移和恢復(fù)的能力等[|7】。??S〇lr具有類似REST的API,提供標(biāo)準(zhǔn)的開放接口。Solr可以通過(guò)HTTP、XML、??CSV、二進(jìn)制文件和JSON存入文檔,也可以通過(guò)HTTP的GET查詢請(qǐng)求接收??結(jié)果并解析,具有高度的可擴(kuò)展性。同時(shí),Soli??jī)?nèi)置了響應(yīng)式用戶管理界面,??通過(guò)界面可以實(shí)時(shí)監(jiān)測(cè)Solr的運(yùn)行情況
【參考文獻(xiàn)】:
期刊論文
[1]上市公司董事長(zhǎng)變更對(duì)盈余質(zhì)量的影響——一項(xiàng)基于事件研究法的經(jīng)驗(yàn)證據(jù)[J]. 劉亭立. 科學(xué)決策. 2009(02)
[2]中文事件抽取技術(shù)研究[J]. 趙妍妍,秦兵,車萬(wàn)翔,劉挺. 中文信息學(xué)報(bào). 2008(01)
[3]上市公司信息披露管理辦法[J]. 中國(guó)證券監(jiān)督管理委員會(huì)公告. 2007(01)
[4]事件研究方法及其在金融經(jīng)濟(jì)研究中的應(yīng)用[J]. 袁顯平,柯大鋼. 統(tǒng)計(jì)研究. 2006(10)
[5]基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[J]. 俞鴻魁,張華平,劉群,呂學(xué)強(qiáng),施水才. 通信學(xué)報(bào). 2006(02)
[6]“事件研究法”在并購(gòu)重組中的運(yùn)用[J]. 林世雄. 中山大學(xué)學(xué)報(bào)論叢. 2005(06)
[7]基于N-最短路徑方法的中文詞語(yǔ)粗分模型[J]. 張華平,劉群. 中文信息學(xué)報(bào). 2002(05)
本文編號(hào):2965341
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:82 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1作業(yè)提交的執(zhí)行過(guò)程??8??
圖2-2?MapReduce的計(jì)算過(guò)程??Hadoop分布式文件系統(tǒng)(HDFS)是Hadoop項(xiàng)目中的文件存儲(chǔ)系統(tǒng)組件
?Mesos?Standalone??圖2-3?Spark基本架構(gòu)??2.1.3?Solr全文搜索服務(wù)器與分布式部署??Solr是基于Apache?Lucene構(gòu)建的全文搜索服務(wù)器。Solr于2004年由CNET??Networks公司啟動(dòng)研究項(xiàng)目。隨后,公司進(jìn)行項(xiàng)目開源,并作為Apache項(xiàng)目被??研究至今。Solr是基于Lucene核心索引庫(kù)實(shí)現(xiàn)的。該庫(kù)使用Java開發(fā),創(chuàng)建文??檔的倒排索引。??Solr具有高度可擴(kuò)展和容錯(cuò)的特性,支持全文搜索以及富文檔(如PDF)的??處理,提供近實(shí)時(shí)索引。為保證其可靠性,具備自動(dòng)故障轉(zhuǎn)移和恢復(fù)的能力等[|7】。??S〇lr具有類似REST的API,提供標(biāo)準(zhǔn)的開放接口。Solr可以通過(guò)HTTP、XML、??CSV、二進(jìn)制文件和JSON存入文檔,也可以通過(guò)HTTP的GET查詢請(qǐng)求接收??結(jié)果并解析,具有高度的可擴(kuò)展性。同時(shí),Soli??jī)?nèi)置了響應(yīng)式用戶管理界面,??通過(guò)界面可以實(shí)時(shí)監(jiān)測(cè)Solr的運(yùn)行情況
【參考文獻(xiàn)】:
期刊論文
[1]上市公司董事長(zhǎng)變更對(duì)盈余質(zhì)量的影響——一項(xiàng)基于事件研究法的經(jīng)驗(yàn)證據(jù)[J]. 劉亭立. 科學(xué)決策. 2009(02)
[2]中文事件抽取技術(shù)研究[J]. 趙妍妍,秦兵,車萬(wàn)翔,劉挺. 中文信息學(xué)報(bào). 2008(01)
[3]上市公司信息披露管理辦法[J]. 中國(guó)證券監(jiān)督管理委員會(huì)公告. 2007(01)
[4]事件研究方法及其在金融經(jīng)濟(jì)研究中的應(yīng)用[J]. 袁顯平,柯大鋼. 統(tǒng)計(jì)研究. 2006(10)
[5]基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[J]. 俞鴻魁,張華平,劉群,呂學(xué)強(qiáng),施水才. 通信學(xué)報(bào). 2006(02)
[6]“事件研究法”在并購(gòu)重組中的運(yùn)用[J]. 林世雄. 中山大學(xué)學(xué)報(bào)論叢. 2005(06)
[7]基于N-最短路徑方法的中文詞語(yǔ)粗分模型[J]. 張華平,劉群. 中文信息學(xué)報(bào). 2002(05)
本文編號(hào):2965341
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2965341.html
最近更新
教材專著