蛋白質(zhì)相互作用文獻挖掘方法、注釋體系及挖掘平臺研究
本文選題:蛋白質(zhì)相互作用 切入點:蛋白質(zhì)相互作用挖掘 出處:《中國人民解放軍軍事醫(yī)學科學院》2016年博士論文 論文類型:學位論文
【摘要】:蛋白質(zhì)相互作用(Protein-Protein Interaction,PPI)是細胞中一類極其重要的生物分子活動,這類活動參與細胞生命周期各個生物學過程。對其研究不僅有助于我們認識生命活動更深的層次,同時對臨床疾病的診斷和治療也具有重要意義。隨著生命科學研究的發(fā)展,研究成果文獻也日益增多。這些文獻中含有大量的PPI知識以及PPI最新的研究發(fā)現(xiàn)。然而傳統(tǒng)的手工閱讀文獻方式已經(jīng)難以及時、高效地收集和整理這些信息,從而使得分子生物學家的研究工作變得越發(fā)困難,成為人們面臨的一大挑戰(zhàn)。采用自動化的挖掘方法從文獻中獲取蛋白質(zhì)相互作用信息并進行信息結(jié)構(gòu)化存儲和展示是解決這一難題的有效途徑。然而目前蛋白質(zhì)相互作用自動挖掘研究領(lǐng)域仍存在不少不足之處:蛋白質(zhì)相互作用關(guān)系挖掘方法性能仍需進一步提高;缺乏合理的描述蛋白質(zhì)相互作用的注釋體系,限制了蛋白質(zhì)相互作用重要功能注釋信息的深入挖掘;缺少滿足批量化數(shù)據(jù)處理需求的蛋白質(zhì)相互作用輔助挖掘平臺以及對文獻挖掘結(jié)果進行結(jié)構(gòu)化存儲和展示的蛋白質(zhì)相互作用知識庫等等。針對這一系列問題,我們提出本課題研究目標:在蛋白質(zhì)相互作用關(guān)系挖掘方法提升基礎(chǔ)上,進一步構(gòu)建蛋白質(zhì)相互作用本體用于挖掘蛋白質(zhì)相互作用注釋信息;同時,基于建立的蛋白質(zhì)相互作用挖掘方法開發(fā)適合當前需求的蛋白質(zhì)相互作用挖掘平臺,設(shè)計適合存儲和展示文獻挖掘結(jié)果的蛋白質(zhì)相互作用知識庫。首先,我們建立了對文獻數(shù)據(jù)進行蛋白質(zhì)相互作用關(guān)系挖掘的支持向量機(Support Vector Machines,SVM)方法。該方法整合四種有效句子特征,即關(guān)鍵詞特征、詞性特征、邏輯特征以及依存句法特征,并對這些特征進行組合優(yōu)化研究。在LLL05測試語料上,基于SVM方法取得了準確率為81.8%,召回率為96.4%和F值為88.5%的良好效果。方法的效果優(yōu)于當前在同一測試集上最好方法。然后,我們構(gòu)建了蛋白質(zhì)相互作用功能注釋體系——蛋白質(zhì)相互作用本體(PPI Ontology)。為了更好地挖掘蛋白質(zhì)相互作用注釋信息,我們從蛋白質(zhì)相互作用本質(zhì)——生物分子事件的角度出發(fā),提出蛋白質(zhì)相互作用本體框架,包含蛋白質(zhì)相互作用發(fā)生時間、地點、發(fā)生方式、結(jié)果以及證據(jù)等方面信息。通過這個框架明確了蛋白質(zhì)相互作用信息的范疇,通過重用現(xiàn)有相關(guān)本體以及重新構(gòu)建蛋白質(zhì)相互相互作用類型本體,整合得到了包括相互作用參與者的角色及狀態(tài)、生物學過程、亞細胞定位、相互作用類型、生物學功能以及檢測方法六個部分在內(nèi)的蛋白質(zhì)相互作用本體。該本體在BC-PPI測試語料集以及人類肝臟相關(guān)文獻蛋白質(zhì)相互作用注釋信息挖掘應(yīng)用上取得了較好效果。進一步,我們在構(gòu)建的蛋白質(zhì)相互作用挖掘方法基礎(chǔ)上,開發(fā)了蛋白質(zhì)相互作用文獻挖掘平臺(PPICurator)。該平臺考慮了當前批量化文獻及蛋白質(zhì)數(shù)據(jù)處理的需求。同時,用戶可以在文獻檢索及蛋白質(zhì)相互作用挖掘結(jié)果階段進行數(shù)據(jù)篩選。平臺還具有對蛋白質(zhì)相互作用挖掘結(jié)果進行導(dǎo)出和可視化等功能。該系統(tǒng)可以有效提高研究人員挖掘領(lǐng)域相關(guān)文獻的蛋白質(zhì)相互作用信息的速度。最后,我們設(shè)計并實現(xiàn)了用于存儲從文獻挖掘得到的蛋白質(zhì)相互作用數(shù)據(jù)的知識庫系統(tǒng)(db PPII)。該系統(tǒng)采用瀏覽器/服務(wù)器(B/S)架構(gòu),能為用戶提供基于本體概念名稱、蛋白質(zhì)名稱和蛋白質(zhì)名稱對三種方式來查詢和獲取蛋白質(zhì)相互作用信息。同時本體的層次結(jié)構(gòu)可以直觀展示蛋白質(zhì)相互作用的功能分布,具有導(dǎo)航和瀏覽作用,為用戶查找相應(yīng)功能蛋白質(zhì)相互作用提供了垂直、便捷的方式。綜上所述,本研究工作有以下幾點創(chuàng)新之處:(1)基于SVM模型探索了關(guān)鍵詞特征、詞性特征、邏輯特征以及依存句法特征多個有效的學習特征在蛋白質(zhì)相互作用關(guān)系挖掘中的不同作用效果,并最終獲得了這些特征的最優(yōu)組合,是目前在同一測試數(shù)據(jù)集上的最好方法。(2)新的蛋白質(zhì)相互作用注釋體系的構(gòu)建。該體系首次從生物分子事件的角度描述蛋白質(zhì)相互作用,建立蛋白質(zhì)相互作用本體,更符合蛋白質(zhì)相互作用知識表示以及適用于文獻挖掘任務(wù)。在相互作用注釋信息挖掘任務(wù)中取得了較好的效果。(3)基于研發(fā)的SVM蛋白質(zhì)相互作用挖掘方法搭建全新的蛋白質(zhì)相互作用挖掘平臺。該平臺針對當前大規(guī)模數(shù)據(jù)處理需求,獨有蛋白質(zhì)和PMID批量化查詢、文獻檢索、基于物種的文獻分類篩選以及相互作用方向和類型挖掘等功能,較現(xiàn)有的蛋白質(zhì)相互作用挖掘系統(tǒng)更合理、便捷。(4)針對文獻來源的蛋白質(zhì)相互作用信息的數(shù)據(jù)庫的結(jié)構(gòu)和功能設(shè)計。該數(shù)據(jù)庫的結(jié)構(gòu)針對豐富的蛋白質(zhì)相互作用信息存儲需求設(shè)計,同時利用本體的層次結(jié)構(gòu)對蛋白質(zhì)相互作用信息進行了分類導(dǎo)航及展示,便于研究人員對蛋白質(zhì)相互作用信息進行獲取。
[Abstract]:Protein protein interaction (Protein-Protein Interaction PPI) is a kind of important molecular biological activity in cells, the life cycle of various biological processes involved in cell activities like this. Not only helps us to understand the life activities of a deeper level of research, but also has an important significance in diagnosis and treatment of clinical diseases. With the development of life scientific research, research literature is also increasing. The latest research found to contain a large number of PPI knowledge and PPI these documents. However, the traditional manual reading literature has been difficult to timely and efficiently collect and organize the information, which makes the research work of molecular biologists have become increasingly difficult, has become a big challenge facing people using automated mining methods from the literature to obtain protein interaction information and structured information storage and display is the solution of the An effective way to the problem. However, protein-protein interaction automatic mining research field there are still many deficiencies: protein-protein interactions mining method performance needs to be further improved; lack of reasonable description of protein interaction annotation system, which limits the further mining of protein interactions important functional annotation information; lack of data to meet the bulk requirement of protein interaction and auxiliary mining platform on literature mining results are structured storage and display of protein interaction knowledge base and so on. To solve this series of problems, we put forward the research goal: in the mining method of protein-protein interaction based on protein interaction, further construction of ontology for mining protein interaction annotation at the same time, the establishment of information; protein interaction development based on data mining method For the demand of protein interaction mining platform designed for storage and display of data mining results of protein interaction knowledge base. Firstly, we establish the support vector machine mining protein-protein interactions of literature data (Support Vector Machines, SVM) method. The method of the integration of the four effective sentence features, namely keyword feature speech features, logical features and syntactic features, and these features of the combinatorial optimization. In the LLL05 test corpus, based on the SVM method achieved accuracy rate is 81.8%, the recall rate is 96.4% and F-measure for 88.5% good effect. The method is better than the current in the same test set. Then the best way, we constructed a protein interaction system -- functional annotation of protein interaction Ontology (PPI Ontology). In order to better tap protein interaction notes Information, starting from the protein interaction of bio molecular events perspective, proposed protein-protein interaction ontology framework, including protein interaction time, location, mode, and the results in terms of evidence information. Through this framework the protein-protein interaction information category, by reusing the existing ontology and re construct protein interaction the interaction type ontology integration has been including the role and status of the interaction of participants in the biological process, subcellular localization, interaction type, biological function and detection methods of six parts including protein-protein interaction ontology. The ontology has achieved good results in the BC-PPI corpus and related literature of human liver protein-protein interaction annotation the application of information mining. Further, we build the protein interaction dig Driving method based on the development of protein interaction literature mining platform (PPICurator). The platform considering the current mass literature and demand protein data processing. At the same time, the user can select data in the literature retrieval and protein interaction mining results stage. Platform also has the protein interaction and visualization of mining results are derived function. The system can effectively improve the researchers mining related literature protein-protein interaction information rate. Finally, we designed and used to store the knowledge base system of protein interaction data from the literature (DB PPII). The system uses the browser / server (B/S) architecture based on ontology can provide. The concept for the user name and the name of the protein, protein three ways to query and obtain protein interaction information at the same time. The hierarchical structure of the ontology can display the distribution of protein interaction function, with navigation and browsing function for users to find the corresponding function of protein interactions provides vertical, convenient way. In summary, this study has the following innovations: (1) the SVM model to analyze the characteristics of keywords, based on logical characteristics of speech features and the dependency features of several effective learning characteristics in the different effects of protein protein interaction in mining, and finally obtained the optimal combination of these features, is currently the best test method on the data set in the same test. (2) to construct the new system of annotation of protein interactions. The first description of protein interaction from the angle of the bio molecular event system, the establishment of protein interaction ontology, more in line with the said protein interaction knowledge and literature mining is applicable to any Business interaction in the annotation information mining task and achieved good results. (3) mining method SVM protein interaction research to build a new protein interaction based on mining platform. The platform for the large-scale data processing needs, unique query, protein and PMID batch document retrieval, document classification and species selection direction and type of mining system based on existing protein interaction mining system is more reasonable and convenient. (4) the structure and function of the source of protein interaction information database. The database structure design for the rich in protein interaction information storage requirements and design, the use of hierarchical ontology of protein the interaction of information classified navigation and display, is convenient for researchers to obtain information for protein interaction.
【學位授予單位】:中國人民解放軍軍事醫(yī)學科學院
【學位級別】:博士
【學位授予年份】:2016
【分類號】:Q51
【相似文獻】
相關(guān)期刊論文 前10條
1 梁琳慧,韓忠朝;蛋白質(zhì)相互作用的研究方法[J];生命的化學;2005年03期
2 唐澤耀,戴淑芳,陳華,林原;蛋白質(zhì)相互作用研究的哲學思考[J];醫(yī)學與哲學;2005年01期
3 曹建平,馬義才,李亦學,石鐵流;計算方法在蛋白質(zhì)相互作用研究中的應(yīng)用[J];生命科學;2005年01期
4 謝江;張武;梅健;顧知立;吳繼宗;李輝;張律文;;一種新的計算預(yù)測alpha-synuclein蛋白質(zhì)相互作用網(wǎng)絡(luò)的方法(英文)[J];Journal of Shanghai University(English Edition);2008年06期
5 余鑫煜;許正平;;蛋白質(zhì)相互作用數(shù)據(jù)庫及其應(yīng)用[J];中國生物化學與分子生物學報;2008年03期
6 劉中揚;李棟;朱云平;賀福初;;蛋白質(zhì)相互作用網(wǎng)絡(luò)進化分析研究進展[J];生物化學與生物物理進展;2009年01期
7 王正華;董蘊源;王勇獻;;蛋白質(zhì)相互作用網(wǎng)絡(luò)的幾種聚類方法綜述[J];國防科技大學學報;2009年04期
8 陸林英;魏雅卓;崔穎;孫平平;馬雅楠;馬志強;;基于支持向量機的蛋白質(zhì)相互作用識別[J];生物信息學;2009年04期
9 王建新;蔡釗;李敏;;一種基于極大團的蛋白質(zhì)相互作用預(yù)測方法[J];高技術(shù)通訊;2009年01期
10 李松倍;謝江;張武;武頻;;蛋白質(zhì)相互作用網(wǎng)絡(luò)的相似子網(wǎng)搜索問題研究[J];計算機工程與應(yīng)用;2010年03期
相關(guān)會議論文 前10條
1 劉珍;孫景春;謝錦云;李亦學;梁宋平;石鐵流;;蛋白質(zhì)相互作用網(wǎng)絡(luò)中的生物途徑分析[A];中國蛋白質(zhì)組學第二屆學術(shù)大會論文摘要論文集[C];2004年
2 李占潮;周漩;戴宗;鄒小勇;;基于一級結(jié)構(gòu)信息預(yù)測蛋白質(zhì)與蛋白質(zhì)相互作用[A];第十屆全國計算(機)化學學術(shù)會議論文摘要集[C];2009年
3 王存新;馬曉慧;陳慰祖;;構(gòu)象熵對蛋白質(zhì)-蛋白質(zhì)相互作用及結(jié)合自由能的貢獻[A];第九次全國生物物理大會學術(shù)會議論文摘要集[C];2002年
4 程鋼;吳松鋒;陳廷貴;萬平;朱云平;賀福初;;22周孕齡胎肝蛋白質(zhì)相互作用網(wǎng)絡(luò)的構(gòu)建[A];中國蛋白質(zhì)組學首屆學術(shù)大會論文摘要集[C];2003年
5 楊曉明;王建;許望翔;虞東輝;楊永升;劉瓊明;周穎;張翠莉;吳志豪;張萬巧;劉濤;唐劉君;原艷芝;郝峰;金超智;賀福初;;人類肝臟重要蛋白質(zhì)相互作用連鎖圖研究進展[A];中國蛋白質(zhì)組學第三屆學術(shù)大會論文摘要[C];2005年
6 吳俊;鄧宏鐘;朱大智;譚躍進;;蛋白質(zhì)相互作用網(wǎng)絡(luò)的度秩函數(shù)與度分布[A];2006全國復(fù)雜網(wǎng)絡(luò)學術(shù)會議論文集[C];2006年
7 李令東;田瑞軍;唐偉;鄒漢法;趙宗保;;攜異戊烯鏈小分子與蛋白質(zhì)相互作用的研究[A];第六屆全國化學生物學學術(shù)會議論文摘要集[C];2009年
8 李立;肖奕;孫之榮;;酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)的模塊進化[A];第十一次中國生物物理學術(shù)大會暨第九屆全國會員代表大會摘要集[C];2009年
9 陳慰祖;莊彥;王存新;;用分子模擬方法研究胰島素二聚體的相互作用和識別[A];第三屆全國現(xiàn)代生物物理技術(shù)學術(shù)討論會論文摘要匯編[C];2000年
10 馬文;劉艷清;郭瓊;鄧玉林;;生物功能化色譜法研究胰島素及其受體間的相互作用[A];第十五次全國色譜學術(shù)報告會文集(上冊)[C];2005年
相關(guān)重要報紙文章 前10條
1 記者 常麗君;科學家繪制出迄今最詳細蛋白質(zhì)相互作用圖[N];科技日報;2011年
2 胡德榮;蛋白質(zhì)相互作用網(wǎng)絡(luò)預(yù)測新方法被發(fā)現(xiàn)[N];健康報;2007年
3 通訊員 甄蓓 特約記者 吳志軍;肝臟蛋白質(zhì)相互作用圖繪出[N];健康報;2011年
4 甄蓓;我科學家成功繪制人類肝臟蛋白質(zhì)相互作用網(wǎng)絡(luò)連鎖圖[N];科技日報;2011年
5 甄蓓;人類肝臟蛋白質(zhì)“關(guān)系網(wǎng)絡(luò)圖”繪成[N];中國醫(yī)藥報;2011年
6 毛黎;美開發(fā)細胞內(nèi)蛋白質(zhì)相互作用標識技術(shù)[N];科技日報;2007年
7 張佳星;人類為何如此與眾不同[N];科技日報;2008年
8 白毅;我國計算生物學研究取得重要進展[N];中國醫(yī)藥報;2007年
9 余志平 編譯;PCAs給我們帶來了什么?[N];中國醫(yī)藥報;2007年
10 欣文;蛋白質(zhì)相互作用導(dǎo)致疑難病癥[N];醫(yī)藥經(jīng)濟報;2002年
相關(guān)博士學位論文 前10條
1 沈懿珍;基于協(xié)同智能的蛋白質(zhì)相互作用及其網(wǎng)絡(luò)研究[D];東華大學;2011年
2 梁治;蛋白質(zhì)相互作用網(wǎng)絡(luò)的比較生物學分析及其應(yīng)用[D];中國科學技術(shù)大學;2006年
3 王曉敏;基于蛋白質(zhì)相互作用網(wǎng)絡(luò)的功能模塊識別及功能預(yù)測研究[D];國防科學技術(shù)大學;2013年
4 胡靜;基于密度聚類和特征分類的蛋白質(zhì)相互作用熱區(qū)預(yù)測[D];武漢科技大學;2015年
5 李滿生;蛋白質(zhì)相互作用文獻挖掘方法、注釋體系及挖掘平臺研究[D];中國人民解放軍軍事醫(yī)學科學院;2016年
6 謝江;蛋白質(zhì)相互作用網(wǎng)絡(luò)的數(shù)值研究[D];上海大學;2008年
7 史明光;蛋白質(zhì)相互作用預(yù)測方法的研究[D];中國科學技術(shù)大學;2009年
8 杜秀全;基于智能計算的蛋白質(zhì)相互作用預(yù)測方法研究[D];安徽大學;2010年
9 尤著宏;基于圖和復(fù)雜網(wǎng)絡(luò)理論的蛋白質(zhì)相互作用數(shù)據(jù)分析與應(yīng)用研究[D];中國科學技術(shù)大學;2010年
10 龐開放;基于基因表達和蛋白質(zhì)相互作用數(shù)據(jù)集成的蛋白質(zhì)進化、功能重要性和動態(tài)模塊化組織的研究[D];上海交通大學;2011年
相關(guān)碩士學位論文 前10條
1 董蘊源;基于譜方法的蛋白質(zhì)相互作用網(wǎng)絡(luò)分析[D];國防科學技術(shù)大學;2007年
2 邴志桐;蛋白質(zhì)相互作用網(wǎng)絡(luò)度分布的研究[D];蘭州大學;2009年
3 楊曉飛;基于多源數(shù)據(jù)融合的蛋白質(zhì)—蛋白質(zhì)相互作用網(wǎng)絡(luò)構(gòu)建方法研究[D];中國科學技術(shù)大學;2009年
4 劉U,
本文編號:1629812
本文鏈接:http://sikaile.net/shoufeilunwen/jckxbs/1629812.html