基于Python的基因表達數(shù)據(jù)網(wǎng)絡爬蟲研究與設計
本文選題:GEO數(shù)據(jù)庫 + 網(wǎng)絡爬蟲; 參考:《山西醫(yī)科大學》2017年碩士論文
【摘要】:目的:以NCBI創(chuàng)建的開放式基因表達綜合數(shù)據(jù)庫(Gene Expression Omnibu,GEO)為例,開發(fā)爬蟲程序可以有效的解決日益增長的高通量基因表達的實驗數(shù)據(jù)帶來的問題。對信息進行挖掘和處理,而不被海量信息所淹沒,提高數(shù)據(jù)庫的利用率;減少生物醫(yī)學信息資源的浪費,為醫(yī)學工作者供給全面的基因表達數(shù)據(jù)信息,推動臨床生物信息學的發(fā)展。方法:1.文獻分析法:查閱網(wǎng)絡爬蟲系統(tǒng)、網(wǎng)頁抓取技術(shù)、GEO數(shù)據(jù)庫方面的相關(guān)文獻等,深入學習了解網(wǎng)絡爬蟲系統(tǒng)發(fā)展現(xiàn)狀,網(wǎng)頁抓取技術(shù)的策略和GEO數(shù)據(jù)庫發(fā)展現(xiàn)狀。為開發(fā)設計專門適用于GEO數(shù)據(jù)庫中RNA相關(guān)數(shù)據(jù)抓取的網(wǎng)絡爬蟲系統(tǒng)提供理論參考和實踐經(jīng)驗。2.編程語言:利用Python語言編寫爬蟲程序。3.數(shù)據(jù)庫技術(shù);使用MySQL數(shù)據(jù)庫技術(shù)儲存爬蟲程序爬取到的基因表達數(shù)據(jù)。結(jié)果:1.本研究成功開發(fā)一款爬蟲程序,爬蟲程序投入運行;2.爬蟲程序抓取GEO數(shù)據(jù)庫中全部基因表達數(shù)據(jù)共71032個,并保存在Mysql數(shù)據(jù)庫中。結(jié)論:爬蟲程序?qū)崿F(xiàn)GEO數(shù)據(jù)庫中基因表達信息相關(guān)數(shù)據(jù)的自動抓取,免去人工下載的繁瑣,有效的實現(xiàn)數(shù)據(jù)的大規(guī)模下載。高效地從數(shù)據(jù)庫的海量信息中挖掘出有效的信息或者生物知識,幫助臨床研究者瀏覽生物醫(yī)學文獻,允許數(shù)據(jù)資源的批量下載,很大程度上方便生物研究與信息的查詢與借鑒。其抓取到的成果不僅對基礎(chǔ)醫(yī)學研究有極大推動作用,而且對人類疾病防治,基因定位等都具有重要意義。
[Abstract]:Aim: to develop an open gene expression database, Gene Expression Omnibun GE O, created by NCBI, and to develop a reptile program to effectively solve the problems caused by the increasing experimental data of high throughput gene expression. To mine and process the information without being submerged by the massive information, to improve the utilization of the database, to reduce the waste of biomedical information resources, and to provide comprehensive gene expression data information for medical workers. To promote the development of clinical bioinformatics. Method 1: 1. Literature analysis: referring to web crawler system, web crawling technology and related documents of geo database, and studying deeply the current situation of web crawler system, the strategy of web crawler technology and the development status of GEO database. It provides a theoretical reference and practical experience for the development and design of a web crawler system that can be used to capture RNA related data in GEO database. Programming language: using Python language to write crawler program. 3. Database technology; the use of MySQL database technology to store crawler crawling gene expression data. The result is 1: 1. In this study, a reptile program was successfully developed, and the crawler program was put into operation. A total of 71032 gene expression data were captured from GEO database by crawler program and stored in Mysql database. Conclusion: the crawler program can automatically capture the data related to gene expression information in GEO database, and can effectively realize the large-scale data download without the tedious manual download. Efficient mining of effective information or biological knowledge from the massive information in the database helps clinical researchers browse biomedical literature and allow batch downloading of data resources, which greatly facilitates the inquiry and reference of biological research and information. The results not only promote the research of basic medicine, but also play an important role in the prevention and treatment of human diseases and gene location.
【學位授予單位】:山西醫(yī)科大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:Q811.4
【參考文獻】
相關(guān)期刊論文 前4條
1 羅林波;陳綺;吳清秀;;基于Shark-Search和Hits算法的主題爬蟲研究[J];計算機技術(shù)與發(fā)展;2010年11期
2 張翔;周明全;李智杰;董麗麗;;基于PageRank與Bagging的主題爬蟲研究[J];計算機工程與設計;2010年14期
3 熊筱晶;;GEO基因表達數(shù)據(jù)庫中芯片技術(shù)平臺的統(tǒng)計分析[J];生命的化學;2009年01期
4 羅霄,任勇,山秀明;基于Python的混合語言編程及其實現(xiàn)[J];計算機應用與軟件;2004年12期
相關(guān)博士學位論文 前2條
1 韋博;基于芯片數(shù)據(jù)和文本挖掘的膠質(zhì)瘤生物信息學分析[D];吉林大學;2015年
2 陳新美;基于基因表達譜的肝纖維化治療藥物篩選及相關(guān)實驗研究[D];南方醫(yī)科大學;2011年
相關(guān)碩士學位論文 前10條
1 于懷寶;面向建材信息的網(wǎng)絡爬蟲系統(tǒng)的設計與實現(xiàn)[D];北京交通大學;2015年
2 耿大偉;基于Python技術(shù)的校園網(wǎng)搜索引擎的設計與實現(xiàn)[D];燕山大學;2015年
3 胡忠?guī)?基于Python的企業(yè)安全漏洞管理方法研究[D];北京郵電大學;2015年
4 李勃;基于R語言的DNA微陣列數(shù)據(jù)分析與挖掘平臺的構(gòu)建[D];重慶大學;2013年
5 馬慧;面向特定網(wǎng)頁的Web爬蟲的設計與實現(xiàn)[D];吉林大學;2012年
6 王洪威;主題網(wǎng)絡爬蟲的分析與設計[D];北京郵電大學;2013年
7 劉晶晶;面向微博的網(wǎng)絡爬蟲研究與實現(xiàn)[D];復旦大學;2012年
8 郝以珍;基于頁面分析的網(wǎng)絡爬蟲系統(tǒng)的設計與實現(xiàn)[D];華中科技大學;2012年
9 鄭博文;基于Hadoop的分布式網(wǎng)絡爬蟲技術(shù)[D];哈爾濱工業(yè)大學;2011年
10 梁萍;搜索引擎中網(wǎng)絡爬蟲及結(jié)果聚類的研究與實現(xiàn)[D];中國科學技術(shù)大學;2011年
,本文編號:1904390
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/1904390.html