當(dāng)前位置：主頁(yè) > 管理論文 > 移動(dòng)網(wǎng)絡(luò)論文 >

基于生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)的分布式爬蟲(chóng)項(xiàng)目設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間：2018-05-11 19:23

本文選題：生物醫(yī)學(xué) + PubMeb　；參考：《寧夏大學(xué)》2017年碩士論文

【摘要】：隨著互聯(lián)網(wǎng)的快速發(fā)展,人們對(duì)于海量數(shù)據(jù)的發(fā)掘和應(yīng)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。國(guó)際數(shù)據(jù)公司的研究結(jié)果統(tǒng)計(jì),2011年全球產(chǎn)生的數(shù)據(jù)量高達(dá)1.82ZB。與此同時(shí),由于蛋白質(zhì)測(cè)序技術(shù)、基因測(cè)序技術(shù)的突破更一步促進(jìn)了生命科學(xué)領(lǐng)域數(shù)據(jù)的飛速增長(zhǎng)。生命科學(xué)領(lǐng)域的數(shù)據(jù)已經(jīng)達(dá)到了驚人的地步,相關(guān)醫(yī)學(xué)文獻(xiàn)的數(shù)據(jù)資源也隨之暴漲。但是,醫(yī)學(xué)研究者和醫(yī)療工作者對(duì)于醫(yī)療文獻(xiàn)的利用有缺陷,無(wú)法發(fā)揮文獻(xiàn)最大價(jià)值,因此,對(duì)于醫(yī)療文獻(xiàn)數(shù)據(jù)的爬蟲(chóng)和分析具有非常重要的價(jià)值。本文先研究了網(wǎng)絡(luò)爬蟲(chóng)的基本原理,網(wǎng)絡(luò)爬蟲(chóng)的分類和網(wǎng)頁(yè)分析算法。對(duì)于反爬蟲(chóng),分布式爬蟲(chóng)框架Scrapy和動(dòng)態(tài)網(wǎng)頁(yè)抓取技術(shù)進(jìn)行了介紹,由此提出了 Scrapy-Redis-Selenium+PhantomJS的分布式爬蟲(chóng)框架來(lái)實(shí)現(xiàn)對(duì)于PubMeb網(wǎng)站的爬蟲(chóng)系統(tǒng)。系統(tǒng)主要實(shí)現(xiàn)相關(guān)主題文獻(xiàn)的標(biāo)題和摘要的數(shù)據(jù)提取。最后為了方便于用戶使用,提出用Qt開(kāi)發(fā)框架來(lái)實(shí)現(xiàn)爬蟲(chóng)系統(tǒng)的UI界面,使得用戶能夠更加方便的操作使用爬蟲(chóng)。最后,對(duì)本文進(jìn)行了總結(jié),提出了進(jìn)一步優(yōu)化的方向�？傊�,本文的主要在于設(shè)計(jì)實(shí)現(xiàn)基于生物醫(yī)學(xué)數(shù)據(jù)的分布式爬蟲(chóng),該系統(tǒng)開(kāi)發(fā)過(guò)程容易,擴(kuò)展方便。系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)解決了以往爬蟲(chóng)對(duì)動(dòng)態(tài)網(wǎng)頁(yè)支持的問(wèn)題,同時(shí)信息采集速度得到了提高。為PubMeb網(wǎng)頁(yè)的分布式爬蟲(chóng)提供了技術(shù)手段,能夠更好的獲取相關(guān)醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)。
[Abstract]:With the rapid development of Internet , people ' s exploration and application of mass data portend the growth of new wave productivity and the arrival of consumer surplus .

【學(xué)位授予單位】：寧夏大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2017
【分類號(hào)】：TP393.092

【參考文獻(xiàn)】

相關(guān)期刊論文前9條

1 陳利婷;;大數(shù)據(jù)時(shí)代的反爬蟲(chóng)技術(shù)[J];電腦與信息技術(shù);2016年06期

2 寧康;陳挺;;生物醫(yī)學(xué)大數(shù)據(jù)的現(xiàn)狀與展望[J];科學(xué)通報(bào);2015年Z1期

3 康宏宇;李姣;;生物醫(yī)學(xué)文獻(xiàn)的知識(shí)發(fā)現(xiàn)與數(shù)據(jù)整合[J];中華醫(yī)學(xué)圖書(shū)情報(bào)雜志;2015年02期

4 周中華;張惠然;謝江;;基于Python的新浪微博數(shù)據(jù)爬蟲(chóng)[J];計(jì)算機(jī)應(yīng)用;2014年11期

5 張艷;;大數(shù)據(jù)背景下的生物醫(yī)學(xué)信息處理[J];生命科學(xué)儀器;2014年05期

6 肖毅;張林;聶笑一;;基于WEB挖掘的網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2013年09期

7 徐速;;國(guó)內(nèi)生物醫(yī)學(xué)文獻(xiàn)服務(wù)系統(tǒng)比較研究[J];大學(xué)圖書(shū)情報(bào)學(xué)刊;2011年06期

8 黃凱峰;何潔月;;基于生物醫(yī)學(xué)文獻(xiàn)的知識(shí)發(fā)現(xiàn)研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2008年02期

9 胡文豐,張正國(guó);生物醫(yī)學(xué)數(shù)據(jù)挖掘[J];國(guó)外醫(yī)學(xué)(生物醫(yī)學(xué)工程分冊(cè));2003年01期

相關(guān)博士學(xué)位論文前1條

1 徐和祥;Deep Web集成中若干技術(shù)研究[D];復(fù)旦大學(xué);2008年

相關(guān)碩士學(xué)位論文前9條

1 郭一峰;分布式在線圖書(shū)爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京交通大學(xué);2016年

2 劉群;我國(guó)入選PubMed數(shù)據(jù)庫(kù)的生物醫(yī)學(xué)期刊文獻(xiàn)計(jì)量學(xué)分析[D];南方醫(yī)科大學(xué);2016年

3 魏少鵬;基于Chrome瀏覽器插件的爬蟲(chóng)系統(tǒng)[D];東華大學(xué);2016年

4 趙鵬程;分布式書(shū)籍網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2014年

5 呂陽(yáng);分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2013年

6 黎鑫;關(guān)于生物醫(yī)學(xué)數(shù)據(jù)的聚類與分類算法研究及應(yīng)用[D];武漢科技大學(xué);2012年

7 張曉雷;面向Web挖掘的主題網(wǎng)絡(luò)爬蟲(chóng)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2012年

8 尚華;基于Web的醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)[D];武漢科技大學(xué);2011年

9 曾偉輝;支持AJAX的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年

，

本文編號(hào)：1875258

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/1875258.html

上一篇：基于通信特征的APT攻擊檢測(cè)方法
下一篇：APT攻擊分層表示模型

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)的分布式爬蟲(chóng)項(xiàng)目設(shè)計(jì)與實(shí)現(xiàn)