金融大數(shù)據(jù)平臺(tái)部分模塊的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:金融大數(shù)據(jù)平臺(tái)部分模塊的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 大數(shù)據(jù) SOLR 期刊論文數(shù)據(jù)庫 搜索引擎 數(shù)據(jù)展示 金融大數(shù)據(jù)
【摘要】:信息技術(shù)的發(fā)展進(jìn)入大數(shù)據(jù)時(shí)代,金融行業(yè)的應(yīng)用也在不斷的進(jìn)行發(fā)展。國內(nèi)的大數(shù)據(jù)發(fā)展處于起步階段,很多單位都有建設(shè)大數(shù)據(jù)平臺(tái)的需求。國內(nèi)某金融研究機(jī)構(gòu),希望建立一個(gè)金融大數(shù)據(jù)平臺(tái),以此來支持其金融研究工作。目前,該金融研究機(jī)構(gòu)的數(shù)據(jù)來源包括內(nèi)部金融刊物、商業(yè)金融數(shù)據(jù)庫、內(nèi)部研究論文和國內(nèi)外公開的行業(yè)數(shù)據(jù),以這些數(shù)據(jù)為基礎(chǔ)建立一個(gè)金融大數(shù)據(jù)平臺(tái)。金融大數(shù)據(jù)平臺(tái)的建設(shè)目標(biāo)是建設(shè)多尺度、多分辨率、多種類、多用戶的金融領(lǐng)域基礎(chǔ)經(jīng)濟(jì)數(shù)據(jù)體系,深入開發(fā)和應(yīng)用金融信息資源,構(gòu)建全國權(quán)威的、唯一的、通用的金融信息公共平臺(tái)和金融信息咨詢平臺(tái),促進(jìn)金融行業(yè)數(shù)據(jù)資源的整合、共享和利用,為國家金融領(lǐng)域信息化規(guī)劃、建設(shè)和管理服務(wù),為政府、企業(yè)、專家、公眾提供金融服務(wù)。 本文根據(jù)上述情況,首先介紹了金融大數(shù)據(jù)平臺(tái)的建設(shè)背景,然后介紹了建設(shè)金融大數(shù)據(jù)平臺(tái)所涉及到的關(guān)鍵技術(shù),本文所涉及到的關(guān)鍵技術(shù)有網(wǎng)絡(luò)爬蟲、網(wǎng)頁解析、中文分詞和數(shù)據(jù)展示技術(shù)。然后利用軟件工程的思想完成了對(duì)需求的識(shí)別和分析工作,進(jìn)而從系統(tǒng)概要設(shè)計(jì)的角度介紹了金融大數(shù)據(jù)平臺(tái)的設(shè)計(jì)思想和整體框架。然后從詳細(xì)設(shè)計(jì)的角度介紹了作者獨(dú)立參與的金融大數(shù)據(jù)平臺(tái)中期刊論文數(shù)據(jù)庫、互聯(lián)網(wǎng)數(shù)據(jù)抓取和應(yīng)用平臺(tái)中的兩個(gè)模塊,即理財(cái)產(chǎn)品專題和期刊論文檢索的設(shè)計(jì)思想與實(shí)現(xiàn)過程。最后介紹了系統(tǒng)的功能性測(cè)試和非功能性測(cè)試結(jié)果。針對(duì)期刊論文數(shù)據(jù)的特點(diǎn),詳細(xì)介紹了其數(shù)據(jù)的采集、預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)索引和數(shù)據(jù)檢索的設(shè)計(jì)和實(shí)現(xiàn)方式,采用SOLR搜索引擎的技術(shù)方案對(duì)期刊論文進(jìn)行全文索引,并提供基本檢索、高級(jí)檢索、全文下載和在線閱讀的功能。在互聯(lián)網(wǎng)理財(cái)產(chǎn)品數(shù)據(jù)信息的處理部分,詳細(xì)介紹了互聯(lián)網(wǎng)理財(cái)產(chǎn)品數(shù)據(jù)的采集方案、存儲(chǔ)方案和數(shù)據(jù)展示方案。使用網(wǎng)絡(luò)爬蟲技術(shù)來抓取互聯(lián)網(wǎng)信息,采用JSOUP技術(shù)來解析和抽取頁面數(shù)據(jù),使用人工與程序結(jié)合的方式來每日更新理財(cái)產(chǎn)品數(shù)據(jù),同時(shí)使用SOLR索引技術(shù)對(duì)抓取到的數(shù)據(jù)進(jìn)行索引,并完成了部分理財(cái)產(chǎn)品數(shù)據(jù)的統(tǒng)計(jì)結(jié)果展示。針對(duì)國家統(tǒng)計(jì)數(shù)據(jù),詳細(xì)介紹了統(tǒng)計(jì)數(shù)據(jù)的抓取策略以及數(shù)據(jù)的存儲(chǔ)策略。 目前,金融大數(shù)據(jù)平臺(tái)的建設(shè)正在如火如荼的建設(shè)當(dāng)中,距離正式上線提供服務(wù)還有一定的時(shí)間,后續(xù)的工作有建立分布式的SOLR搜索引擎,完善數(shù)據(jù)挖掘算法等工作。
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.52
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李偉;黃穎;;基于HtmlParser的網(wǎng)頁信息提取[J];兵工自動(dòng)化;2007年07期
2 董日壯;郭曙超;;網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2014年17期
3 郭展飛;;金融大數(shù)據(jù)的存儲(chǔ)層次規(guī)劃與設(shè)計(jì)[J];福建電腦;2014年02期
4 ;2014年中國金融大數(shù)據(jù)應(yīng)用白皮書[J];國際融資;2014年11期
5 吳澤彬;魏潔;李蔚清;吳慧中;;面向服務(wù)架構(gòu)的全文檢索研究[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年S1期
6 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計(jì)算機(jī)科學(xué);2009年08期
7 曹元大,賀海軍,涂哲明,王琴;全文檢索字索引技術(shù)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2002年06期
8 尹江;尹治本;黃洪;;網(wǎng)絡(luò)爬蟲效率瓶頸的分析與解決方案[J];計(jì)算機(jī)應(yīng)用;2008年05期
9 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期
10 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學(xué)報(bào);2007年03期
,本文編號(hào):1274878
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1274878.html