基于生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)的分布式爬蟲項(xiàng)目設(shè)計(jì)與實(shí)現(xiàn)
本文選題:生物醫(yī)學(xué) + PubMeb; 參考:《寧夏大學(xué)》2017年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,人們對(duì)于海量數(shù)據(jù)的發(fā)掘和應(yīng)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。國(guó)際數(shù)據(jù)公司的研究結(jié)果統(tǒng)計(jì),2011年全球產(chǎn)生的數(shù)據(jù)量高達(dá)1.82ZB。與此同時(shí),由于蛋白質(zhì)測(cè)序技術(shù)、基因測(cè)序技術(shù)的突破更一步促進(jìn)了生命科學(xué)領(lǐng)域數(shù)據(jù)的飛速增長(zhǎng)。生命科學(xué)領(lǐng)域的數(shù)據(jù)已經(jīng)達(dá)到了驚人的地步,相關(guān)醫(yī)學(xué)文獻(xiàn)的數(shù)據(jù)資源也隨之暴漲。但是,醫(yī)學(xué)研究者和醫(yī)療工作者對(duì)于醫(yī)療文獻(xiàn)的利用有缺陷,無(wú)法發(fā)揮文獻(xiàn)最大價(jià)值,因此,對(duì)于醫(yī)療文獻(xiàn)數(shù)據(jù)的爬蟲和分析具有非常重要的價(jià)值。本文先研究了網(wǎng)絡(luò)爬蟲的基本原理,網(wǎng)絡(luò)爬蟲的分類和網(wǎng)頁(yè)分析算法。對(duì)于反爬蟲,分布式爬蟲框架Scrapy和動(dòng)態(tài)網(wǎng)頁(yè)抓取技術(shù)進(jìn)行了介紹,由此提出了 Scrapy-Redis-Selenium+PhantomJS的分布式爬蟲框架來(lái)實(shí)現(xiàn)對(duì)于PubMeb網(wǎng)站的爬蟲系統(tǒng)。系統(tǒng)主要實(shí)現(xiàn)相關(guān)主題文獻(xiàn)的標(biāo)題和摘要的數(shù)據(jù)提取。最后為了方便于用戶使用,提出用Qt開發(fā)框架來(lái)實(shí)現(xiàn)爬蟲系統(tǒng)的UI界面,使得用戶能夠更加方便的操作使用爬蟲。最后,對(duì)本文進(jìn)行了總結(jié),提出了進(jìn)一步優(yōu)化的方向?傊,本文的主要在于設(shè)計(jì)實(shí)現(xiàn)基于生物醫(yī)學(xué)數(shù)據(jù)的分布式爬蟲,該系統(tǒng)開發(fā)過(guò)程容易,擴(kuò)展方便。系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)解決了以往爬蟲對(duì)動(dòng)態(tài)網(wǎng)頁(yè)支持的問題,同時(shí)信息采集速度得到了提高。為PubMeb網(wǎng)頁(yè)的分布式爬蟲提供了技術(shù)手段,能夠更好的獲取相關(guān)醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)。
[Abstract]:With the rapid development of Internet , people ' s exploration and application of mass data portend the growth of new wave productivity and the arrival of consumer surplus .
【學(xué)位授予單位】:寧夏大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前9條
1 陳利婷;;大數(shù)據(jù)時(shí)代的反爬蟲技術(shù)[J];電腦與信息技術(shù);2016年06期
2 寧康;陳挺;;生物醫(yī)學(xué)大數(shù)據(jù)的現(xiàn)狀與展望[J];科學(xué)通報(bào);2015年Z1期
3 康宏宇;李姣;;生物醫(yī)學(xué)文獻(xiàn)的知識(shí)發(fā)現(xiàn)與數(shù)據(jù)整合[J];中華醫(yī)學(xué)圖書情報(bào)雜志;2015年02期
4 周中華;張惠然;謝江;;基于Python的新浪微博數(shù)據(jù)爬蟲[J];計(jì)算機(jī)應(yīng)用;2014年11期
5 張艷;;大數(shù)據(jù)背景下的生物醫(yī)學(xué)信息處理[J];生命科學(xué)儀器;2014年05期
6 肖毅;張林;聶笑一;;基于WEB挖掘的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2013年09期
7 徐速;;國(guó)內(nèi)生物醫(yī)學(xué)文獻(xiàn)服務(wù)系統(tǒng)比較研究[J];大學(xué)圖書情報(bào)學(xué)刊;2011年06期
8 黃凱峰;何潔月;;基于生物醫(yī)學(xué)文獻(xiàn)的知識(shí)發(fā)現(xiàn)研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2008年02期
9 胡文豐,張正國(guó);生物醫(yī)學(xué)數(shù)據(jù)挖掘[J];國(guó)外醫(yī)學(xué)(生物醫(yī)學(xué)工程分冊(cè));2003年01期
相關(guān)博士學(xué)位論文 前1條
1 徐和祥;Deep Web集成中若干技術(shù)研究[D];復(fù)旦大學(xué);2008年
相關(guān)碩士學(xué)位論文 前9條
1 郭一峰;分布式在線圖書爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京交通大學(xué);2016年
2 劉群;我國(guó)入選PubMed數(shù)據(jù)庫(kù)的生物醫(yī)學(xué)期刊文獻(xiàn)計(jì)量學(xué)分析[D];南方醫(yī)科大學(xué);2016年
3 魏少鵬;基于Chrome瀏覽器插件的爬蟲系統(tǒng)[D];東華大學(xué);2016年
4 趙鵬程;分布式書籍網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2014年
5 呂陽(yáng);分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2013年
6 黎鑫;關(guān)于生物醫(yī)學(xué)數(shù)據(jù)的聚類與分類算法研究及應(yīng)用[D];武漢科技大學(xué);2012年
7 張曉雷;面向Web挖掘的主題網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2012年
8 尚華;基于Web的醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)[D];武漢科技大學(xué);2011年
9 曾偉輝;支持AJAX的網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年
,本文編號(hào):1875258
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1875258.html