金融大數(shù)據(jù)平臺部分模塊的設計與實現(xiàn)
本文關鍵詞:金融大數(shù)據(jù)平臺部分模塊的設計與實現(xiàn)
更多相關文章: 大數(shù)據(jù) SOLR 期刊論文數(shù)據(jù)庫 搜索引擎 數(shù)據(jù)展示 金融大數(shù)據(jù)
【摘要】:信息技術的發(fā)展進入大數(shù)據(jù)時代,金融行業(yè)的應用也在不斷的進行發(fā)展。國內(nèi)的大數(shù)據(jù)發(fā)展處于起步階段,很多單位都有建設大數(shù)據(jù)平臺的需求。國內(nèi)某金融研究機構,希望建立一個金融大數(shù)據(jù)平臺,以此來支持其金融研究工作。目前,該金融研究機構的數(shù)據(jù)來源包括內(nèi)部金融刊物、商業(yè)金融數(shù)據(jù)庫、內(nèi)部研究論文和國內(nèi)外公開的行業(yè)數(shù)據(jù),以這些數(shù)據(jù)為基礎建立一個金融大數(shù)據(jù)平臺。金融大數(shù)據(jù)平臺的建設目標是建設多尺度、多分辨率、多種類、多用戶的金融領域基礎經(jīng)濟數(shù)據(jù)體系,深入開發(fā)和應用金融信息資源,構建全國權威的、唯一的、通用的金融信息公共平臺和金融信息咨詢平臺,促進金融行業(yè)數(shù)據(jù)資源的整合、共享和利用,為國家金融領域信息化規(guī)劃、建設和管理服務,為政府、企業(yè)、專家、公眾提供金融服務。 本文根據(jù)上述情況,首先介紹了金融大數(shù)據(jù)平臺的建設背景,然后介紹了建設金融大數(shù)據(jù)平臺所涉及到的關鍵技術,本文所涉及到的關鍵技術有網(wǎng)絡爬蟲、網(wǎng)頁解析、中文分詞和數(shù)據(jù)展示技術。然后利用軟件工程的思想完成了對需求的識別和分析工作,進而從系統(tǒng)概要設計的角度介紹了金融大數(shù)據(jù)平臺的設計思想和整體框架。然后從詳細設計的角度介紹了作者獨立參與的金融大數(shù)據(jù)平臺中期刊論文數(shù)據(jù)庫、互聯(lián)網(wǎng)數(shù)據(jù)抓取和應用平臺中的兩個模塊,即理財產(chǎn)品專題和期刊論文檢索的設計思想與實現(xiàn)過程。最后介紹了系統(tǒng)的功能性測試和非功能性測試結果。針對期刊論文數(shù)據(jù)的特點,詳細介紹了其數(shù)據(jù)的采集、預處理、數(shù)據(jù)存儲、數(shù)據(jù)索引和數(shù)據(jù)檢索的設計和實現(xiàn)方式,采用SOLR搜索引擎的技術方案對期刊論文進行全文索引,并提供基本檢索、高級檢索、全文下載和在線閱讀的功能。在互聯(lián)網(wǎng)理財產(chǎn)品數(shù)據(jù)信息的處理部分,詳細介紹了互聯(lián)網(wǎng)理財產(chǎn)品數(shù)據(jù)的采集方案、存儲方案和數(shù)據(jù)展示方案。使用網(wǎng)絡爬蟲技術來抓取互聯(lián)網(wǎng)信息,采用JSOUP技術來解析和抽取頁面數(shù)據(jù),使用人工與程序結合的方式來每日更新理財產(chǎn)品數(shù)據(jù),同時使用SOLR索引技術對抓取到的數(shù)據(jù)進行索引,并完成了部分理財產(chǎn)品數(shù)據(jù)的統(tǒng)計結果展示。針對國家統(tǒng)計數(shù)據(jù),詳細介紹了統(tǒng)計數(shù)據(jù)的抓取策略以及數(shù)據(jù)的存儲策略。 目前,金融大數(shù)據(jù)平臺的建設正在如火如荼的建設當中,距離正式上線提供服務還有一定的時間,后續(xù)的工作有建立分布式的SOLR搜索引擎,完善數(shù)據(jù)挖掘算法等工作。
【學位授予單位】:北京交通大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP311.52
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李偉;黃穎;;基于HtmlParser的網(wǎng)頁信息提取[J];兵工自動化;2007年07期
2 董日壯;郭曙超;;網(wǎng)絡爬蟲的設計與實現(xiàn)[J];電腦知識與技術;2014年17期
3 郭展飛;;金融大數(shù)據(jù)的存儲層次規(guī)劃與設計[J];福建電腦;2014年02期
4 ;2014年中國金融大數(shù)據(jù)應用白皮書[J];國際融資;2014年11期
5 吳澤彬;魏潔;李蔚清;吳慧中;;面向服務架構的全文檢索研究[J];華中科技大學學報(自然科學版);2007年S1期
6 周德懋;李舟軍;;高性能網(wǎng)絡爬蟲:研究綜述[J];計算機科學;2009年08期
7 曹元大,賀海軍,涂哲明,王琴;全文檢索字索引技術的研究與實現(xiàn)[J];計算機工程;2002年06期
8 尹江;尹治本;黃洪;;網(wǎng)絡爬蟲效率瓶頸的分析與解決方案[J];計算機應用;2008年05期
9 劉金紅;陸余良;;主題網(wǎng)絡爬蟲研究綜述[J];計算機應用研究;2007年10期
10 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學報;2007年03期
,本文編號:1274878
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1274878.html