基于Hadoop的金融事件的分析與計算
發(fā)布時間:2021-01-08 21:36
事件研究是金融行業(yè)的專有名詞。事件研究通過檢驗企業(yè)股票價格在事件宣布前后的反應,來衡量事件發(fā)生(如企業(yè)合并、發(fā)布收益公告等)對企業(yè)估值的影響。目前事件研究的方法論比較成熟,但是并未走向實際應用。主要是由于以下原因:1.事件分析:目前的事件采集主要是人工采集,然而面對越來越多的上市公司,越來越多的公司公告,人工采集不能及時獲得事件。本文基于Hadoop平臺和NLP技術,在自動獲取事件方面做了一些有意義的嘗試。2.事件研究的分布式計算:目前事件研究多是對于一個企業(yè)某個事件做事件研究,然后將結果用于其他企業(yè)的同類事件的異常收益計算上。本文基于Hadoop平臺的分布式計算能力,對于歷史上同類事件綜合計算其事件研究的結果。將這樣的結果應用于未來發(fā)生事件的異常收益預計,具有更高的準確性。本文的主要工作內容包括:(1)簡化對文本數據的管理;贓TL工具Morphline實現了公告數據解析、導入到分布式全文索引服務器SolrCloud的整個數據加工過程。最終,索引和文件信息則是存放在分布式文件系統(tǒng)HDFS之上。(2)將傳統(tǒng)的事件研究法的模型求解轉換為多元線性回歸問題,進而通過調用Spark MLli...
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數】:82 頁
【學位級別】:碩士
【部分圖文】:
圖2-1作業(yè)提交的執(zhí)行過程??8??
圖2-2?MapReduce的計算過程??Hadoop分布式文件系統(tǒng)(HDFS)是Hadoop項目中的文件存儲系統(tǒng)組件
?Mesos?Standalone??圖2-3?Spark基本架構??2.1.3?Solr全文搜索服務器與分布式部署??Solr是基于Apache?Lucene構建的全文搜索服務器。Solr于2004年由CNET??Networks公司啟動研究項目。隨后,公司進行項目開源,并作為Apache項目被??研究至今。Solr是基于Lucene核心索引庫實現的。該庫使用Java開發(fā),創(chuàng)建文??檔的倒排索引。??Solr具有高度可擴展和容錯的特性,支持全文搜索以及富文檔(如PDF)的??處理,提供近實時索引。為保證其可靠性,具備自動故障轉移和恢復的能力等[|7】。??S〇lr具有類似REST的API,提供標準的開放接口。Solr可以通過HTTP、XML、??CSV、二進制文件和JSON存入文檔,也可以通過HTTP的GET查詢請求接收??結果并解析,具有高度的可擴展性。同時,Soli?內置了響應式用戶管理界面,??通過界面可以實時監(jiān)測Solr的運行情況
【參考文獻】:
期刊論文
[1]上市公司董事長變更對盈余質量的影響——一項基于事件研究法的經驗證據[J]. 劉亭立. 科學決策. 2009(02)
[2]中文事件抽取技術研究[J]. 趙妍妍,秦兵,車萬翔,劉挺. 中文信息學報. 2008(01)
[3]上市公司信息披露管理辦法[J]. 中國證券監(jiān)督管理委員會公告. 2007(01)
[4]事件研究方法及其在金融經濟研究中的應用[J]. 袁顯平,柯大鋼. 統(tǒng)計研究. 2006(10)
[5]基于層疊隱馬爾可夫模型的中文命名實體識別[J]. 俞鴻魁,張華平,劉群,呂學強,施水才. 通信學報. 2006(02)
[6]“事件研究法”在并購重組中的運用[J]. 林世雄. 中山大學學報論叢. 2005(06)
[7]基于N-最短路徑方法的中文詞語粗分模型[J]. 張華平,劉群. 中文信息學報. 2002(05)
本文編號:2965341
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數】:82 頁
【學位級別】:碩士
【部分圖文】:
圖2-1作業(yè)提交的執(zhí)行過程??8??
圖2-2?MapReduce的計算過程??Hadoop分布式文件系統(tǒng)(HDFS)是Hadoop項目中的文件存儲系統(tǒng)組件
?Mesos?Standalone??圖2-3?Spark基本架構??2.1.3?Solr全文搜索服務器與分布式部署??Solr是基于Apache?Lucene構建的全文搜索服務器。Solr于2004年由CNET??Networks公司啟動研究項目。隨后,公司進行項目開源,并作為Apache項目被??研究至今。Solr是基于Lucene核心索引庫實現的。該庫使用Java開發(fā),創(chuàng)建文??檔的倒排索引。??Solr具有高度可擴展和容錯的特性,支持全文搜索以及富文檔(如PDF)的??處理,提供近實時索引。為保證其可靠性,具備自動故障轉移和恢復的能力等[|7】。??S〇lr具有類似REST的API,提供標準的開放接口。Solr可以通過HTTP、XML、??CSV、二進制文件和JSON存入文檔,也可以通過HTTP的GET查詢請求接收??結果并解析,具有高度的可擴展性。同時,Soli?內置了響應式用戶管理界面,??通過界面可以實時監(jiān)測Solr的運行情況
【參考文獻】:
期刊論文
[1]上市公司董事長變更對盈余質量的影響——一項基于事件研究法的經驗證據[J]. 劉亭立. 科學決策. 2009(02)
[2]中文事件抽取技術研究[J]. 趙妍妍,秦兵,車萬翔,劉挺. 中文信息學報. 2008(01)
[3]上市公司信息披露管理辦法[J]. 中國證券監(jiān)督管理委員會公告. 2007(01)
[4]事件研究方法及其在金融經濟研究中的應用[J]. 袁顯平,柯大鋼. 統(tǒng)計研究. 2006(10)
[5]基于層疊隱馬爾可夫模型的中文命名實體識別[J]. 俞鴻魁,張華平,劉群,呂學強,施水才. 通信學報. 2006(02)
[6]“事件研究法”在并購重組中的運用[J]. 林世雄. 中山大學學報論叢. 2005(06)
[7]基于N-最短路徑方法的中文詞語粗分模型[J]. 張華平,劉群. 中文信息學報. 2002(05)
本文編號:2965341
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2965341.html