基于數(shù)據(jù)挖掘的乳腺癌基因篩選與藥物重定位方法研究
本文選題:數(shù)據(jù)挖掘 + 基因篩選; 參考:《華東師范大學(xué)》2016年碩士論文
【摘要】:乳腺癌疾病相關(guān)基因篩選與藥物研發(fā)是生物醫(yī)學(xué)研究領(lǐng)域的重要課題,有效篩選相關(guān)轉(zhuǎn)移基因和預(yù)測現(xiàn)有藥物的新用途對于該疾病的治療具有重要的科學(xué)意義。然而,如何挖掘和利用疾病與藥物相關(guān)的特征信息一直是目前該領(lǐng)域的難點。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,通過特征整合與數(shù)據(jù)模型算法的結(jié)合,為以上問題提供新的解決途徑。本文利用數(shù)據(jù)挖掘的特征篩選算法及分類算法研究乳腺癌相關(guān)基因篩選問題和藥物重定位問題。主要研究內(nèi)容如下:1.提出了一種基于隨機森林分類算法和病人基因特征信息的乳腺癌轉(zhuǎn)移標志基因篩選方法PPIRF。該方法的特點在于不僅考慮到基因表達值在疾病分類預(yù)測問題中的重要性,而且把蛋白質(zhì)-蛋白質(zhì)相互作用信息作為先驗知識融合到基因挑選過程。通過與其它方法進行對比,結(jié)果表明PPIRF篩選出的基因組合具有更好的預(yù)測能力和生物可解釋性。2.提出了一種基于藥物多類特征信息的重排序算法Ranking-based KNN用于乳腺癌等疾病的藥物重定位。Ranking-based KNN方法的特點在于不僅融合了化學(xué)結(jié)構(gòu)信息、靶標信息、副作用信息以及拓撲相關(guān)性信息多種藥物特征,而且通過Ranking-SVM算法得到了待測藥物的最可信近鄰的排序以使用加權(quán)打分策略來預(yù)測該藥物的新用途。實驗結(jié)果表明該方法可以幫助尋找治療乳腺癌等類疾病的藥物新用途。3.開發(fā)了名為DREP的藥物重定位可視化預(yù)測工具。該工具共包含了兩種藥物重定位方法:第一種是基于Ranking-based KNN算法的藥物重定位;第二種是基于邏輯回歸分類的藥物重定位。該工具可以對KEGG數(shù)據(jù)庫中1387種藥物與1514種疾病的未知關(guān)系進行預(yù)測,并根據(jù)預(yù)測出的藥物-疾病對分值數(shù)給出所查詢藥物可能治療的疾病名稱列表。DREP工具界面友好,操作簡單,便于生物學(xué)研究人員的使用。
[Abstract]:Screening of genes associated with breast cancer and drug research and development are important topics in biomedical research. It is of great scientific significance to screen relevant transfer genes and predict new uses of existing drugs for the treatment of breast cancer.However, how to mine and utilize the characteristic information of disease related to drugs has been a difficult problem in this field.With the development of data mining technology, the combination of feature integration and data model algorithm provides a new way to solve the above problems.In this paper, the feature screening algorithm and classification algorithm based on data mining are used to study the selection of breast cancer related genes and drug relocation.The main research contents are as follows: 1.The feature of this method is not only to consider the importance of gene expression value in disease classification prediction, but also to fuse protein-protein interaction information into gene selection process as a priori knowledge.Compared with other methods, the results show that the gene combination selected by PPIRF has better predictive ability and biointerpretability. 2.In this paper, a reordering algorithm based on multi-class characteristic information of drugs, Ranking-based KNN, is proposed for drug relocating. Ranking-based KNN method for breast cancer and other diseases is characterized by the fusion of not only the chemical structure information, but also the target information.The side-effect information and topological correlation information are used to predict the new use of the drug. Furthermore, the Ranking-SVM algorithm is used to get the ranking of the most reliable neighbor of the drug to be tested and to use the weighted scoring strategy to predict the new use of the drug.The results show that this method can help to find new use of drugs to treat breast cancer and other diseases.A visual prediction tool called DREP for drug relocalization was developed.The tool includes two drug relocalization methods: one is drug relocalization based on Ranking-based KNN algorithm, the other is drug relocalization based on logical regression classification.The tool can predict the unknown relationship between 1387 drugs and 1514 diseases in KEGG database. According to the predicted drug-disease score, the list of disease names that can be treated by the drugs queried. The DREP tool has friendly interface and simple operation.Easy to use by biological researchers.
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:R737.9
【相似文獻】
相關(guān)期刊論文 前10條
1 陳明;;醫(yī)學(xué)數(shù)據(jù)挖掘綜述[J];醫(yī)學(xué)信息;2008年01期
2 黃秋燕;金京皓;沈岳龍;鄭暉;;數(shù)據(jù)挖掘在醫(yī)學(xué)信息中的應(yīng)用[J];醫(yī)學(xué)信息(上旬刊);2010年08期
3 孫哲豐;王迎利;;中國藥品電子監(jiān)管數(shù)據(jù)挖掘現(xiàn)狀的分析與思考[J];中國醫(yī)藥導(dǎo)刊;2014年06期
4 劉春艷,張愛連,胡鐵軍;數(shù)據(jù)挖掘及其在信息服務(wù)業(yè)應(yīng)用的研究現(xiàn)狀[J];醫(yī)學(xué)情報工作;2004年06期
5 ;統(tǒng)計分析與數(shù)據(jù)挖掘的優(yōu)秀工作平臺[J];中國醫(yī)院統(tǒng)計;2006年02期
6 徐剛;袁兆康;;數(shù)據(jù)挖掘及其在醫(yī)學(xué)領(lǐng)域中的應(yīng)用和展望[J];實用臨床醫(yī)學(xué);2006年11期
7 黃艷玲;;數(shù)據(jù)挖掘在醫(yī)學(xué)領(lǐng)域中的文獻發(fā)展評價[J];現(xiàn)代醫(yī)院;2007年01期
8 丁維;蔣永光;宋姚屏;吳孟旭;李昆;;數(shù)據(jù)挖掘及其在中醫(yī)領(lǐng)域的應(yīng)用研究[J];數(shù)理醫(yī)藥學(xué)雜志;2007年03期
9 王華;江啟成;胡學(xué)鋼;;數(shù)據(jù)挖掘在醫(yī)學(xué)上的應(yīng)用[J];安徽醫(yī)藥;2008年08期
10 馬利;;基于數(shù)據(jù)挖掘的聚類分析和傳統(tǒng)聚類分析的對比研究[J];數(shù)理醫(yī)藥學(xué)雜志;2008年05期
相關(guān)會議論文 前10條
1 史東輝;蔡慶生;張春陽;;一種新的數(shù)據(jù)挖掘多策略方法研究[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2000年
2 張弦;;數(shù)據(jù)挖掘在農(nóng)業(yè)中的應(yīng)用[A];紀念中國農(nóng)業(yè)工程學(xué)會成立30周年暨中國農(nóng)業(yè)工程學(xué)會2009年學(xué)術(shù)年會(CSAE 2009)論文集[C];2009年
3 魏順平;;教育數(shù)據(jù)挖掘:現(xiàn)狀與趨勢[A];信息化、工業(yè)化融合與服務(wù)創(chuàng)新——第十三屆計算機模擬與信息技術(shù)學(xué)術(shù)會議論文集[C];2011年
4 關(guān)清平;沉培輝;;概率網(wǎng)絡(luò)在數(shù)據(jù)挖掘上的應(yīng)用[A];科技、工程與經(jīng)濟社會協(xié)調(diào)發(fā)展——中國科協(xié)第五屆青年學(xué)術(shù)年會論文集[C];2004年
5 丁瑾;;基于Web數(shù)據(jù)挖掘的綜述[A];山西省科學(xué)技術(shù)情報學(xué)會學(xué)術(shù)年會論文集[C];2004年
6 聶茹;田森平;;Web數(shù)據(jù)挖掘及其在電子商務(wù)中的應(yīng)用[A];中南六省(區(qū))自動化學(xué)會第24屆學(xué)術(shù)年會會議論文集[C];2006年
7 李菊;王軍;;數(shù)據(jù)挖掘在客戶關(guān)系管理的應(yīng)用[A];計算機技術(shù)與應(yīng)用進展·2007——全國第18屆計算機技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集[C];2007年
8 肖陽;李啟賢;;數(shù)據(jù)挖掘在中國鋼鐵行業(yè)中的應(yīng)用[A];中國計量協(xié)會冶金分會2012年會暨能源計量與節(jié)能降耗經(jīng)驗交流會論文集[C];2012年
9 楊磊;王貴成;汪勇;張占勝;;SQL Server 2005在數(shù)據(jù)挖掘中的應(yīng)用[A];2009年中國智能自動化會議論文集(第二分冊)[C];2009年
10 謝中;邱玉輝;;面向商務(wù)網(wǎng)站有效性的數(shù)據(jù)挖掘方法[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2001年
相關(guān)重要報紙文章 前10條
1 本報記者褚寧;數(shù)據(jù)挖掘如“挖金”[N];解放日報;2002年
2 周蓉蓉;數(shù)據(jù)挖掘需要點想像力[N];計算機世界;2004年
3 □中國電信股份有限公司北京研究院 張舒博 □北京郵電大學(xué)計算機科學(xué)與技術(shù)學(xué)院 牛琨;走出數(shù)據(jù)挖掘的誤區(qū)[N];人民郵電;2006年
4 《網(wǎng)絡(luò)世界》記者 王瑩;數(shù)據(jù)挖掘保險業(yè)的新藍海[N];網(wǎng)絡(luò)世界;2012年
5 劉俊麗;基于地理化的網(wǎng)絡(luò)數(shù)據(jù)挖掘與分析提升投資有效性[N];人民郵電;2014年
6 本報記者 連曉東;數(shù)據(jù)挖掘:金融信息化新熱點[N];中國電子報;2002年
7 本報記者 鳳小華 朱仁康;“數(shù)字挖掘軟件”引領(lǐng)中國信息化新浪潮[N];中國電子報;2003年
8 本報記者 史延廷;“成功企業(yè)數(shù)據(jù)挖掘暨數(shù)量化管理論壇”在京舉辦[N];中國旅游報;2002年
9 朱小寧;數(shù)據(jù)挖掘:信息化戰(zhàn)爭的基礎(chǔ)工程[N];解放軍報;2005年
10 本報記者 王小平;從“大集中”走向數(shù)據(jù)挖掘[N];金融時報;2002年
相關(guān)博士學(xué)位論文 前10條
1 于自強;海量流數(shù)據(jù)挖掘相關(guān)問題研究[D];山東大學(xué);2015年
2 張馨;全基因組SNP芯片應(yīng)用于CNV和L0H分析的軟件比對與數(shù)據(jù)挖掘[D];復(fù)旦大學(xué);2011年
3 彭計紅;基于數(shù)據(jù)挖掘的癡呆中醫(yī)證的研究[D];南京中醫(yī)藥大學(xué);2015年
4 李秋虹;基于MapReduce的大規(guī)模數(shù)據(jù)挖掘技術(shù)研究[D];復(fù)旦大學(xué);2013年
5 鄔文帥;基于多目標決策的數(shù)據(jù)挖掘方法評估與應(yīng)用[D];電子科技大學(xué);2015年
6 謝邦彥;整合數(shù)據(jù)挖掘與TRIZ理論的質(zhì)量管理方法研究[D];首都經(jīng)濟貿(mào)易大學(xué);2010年
7 李榮;生物信息數(shù)據(jù)挖掘若干關(guān)鍵問題研究與應(yīng)用[D];復(fù)旦大學(xué);2004年
8 李玉華;面向服務(wù)的數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2006年
9 吳少智;時間序列數(shù)據(jù)挖掘在生物醫(yī)學(xué)中的應(yīng)用研究[D];電子科技大學(xué);2010年
10 王珊珊;知識指導(dǎo)下的數(shù)據(jù)挖掘在新聞和金融工具之間因果關(guān)系上的應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 林仁紅;基于數(shù)據(jù)挖掘的機遇識別與評價研究[D];首都經(jīng)濟貿(mào)易大學(xué);2007年
2 張彥俊;游戲運營中的數(shù)據(jù)挖掘[D];復(fù)旦大學(xué);2011年
3 焦亞召;基于多核函數(shù)FCM算法在數(shù)據(jù)挖掘聚類中的應(yīng)用研究[D];昆明理工大學(xué);2015年
4 王杰鋒;物聯(lián)網(wǎng)能耗數(shù)據(jù)智能分析及其應(yīng)用平臺設(shè)計[D];江南大學(xué);2015年
5 劉學(xué)建;數(shù)據(jù)挖掘在電子商務(wù)推薦系統(tǒng)中的應(yīng)用研究[D];昆明理工大學(xué);2015年
6 戴陽陽;基于數(shù)據(jù)挖掘的金融時間序列預(yù)測研究與應(yīng)用[D];江南大學(xué);2015年
7 石思優(yōu);基于主題模型的醫(yī)療數(shù)據(jù)挖掘研究[D];廣東技術(shù)師范學(xué)院;2015年
8 陳丹;移動互聯(lián)網(wǎng)信令挖掘?qū)崿F(xiàn)智慧營銷的設(shè)計與實現(xiàn)應(yīng)用研究[D];華南理工大學(xué);2015年
9 陳思;基于數(shù)據(jù)挖掘的大學(xué)生客戶識別模型的研究[D];昆明理工大學(xué);2015年
10 位長帥;基于客戶數(shù)據(jù)挖掘的電信客戶關(guān)系管理研究[D];西南交通大學(xué);2015年
,本文編號:1732998
本文鏈接:http://sikaile.net/yixuelunwen/zlx/1732998.html