基于上下文語義相似性約束的蛋白質(zhì)交互關(guān)系識別
發(fā)布時間:2017-11-09 02:33
本文關(guān)鍵詞:基于上下文語義相似性約束的蛋白質(zhì)交互關(guān)系識別
更多相關(guān)文章: 蛋白質(zhì)交互 詞性 單詞相似性 關(guān)系相似性 Minimum Cuts SVM
【摘要】:蛋白質(zhì)交互(Protein-Protein Interaction,PPI)是生物醫(yī)學(xué)領(lǐng)域一項重要的研究內(nèi)容,目前由生物醫(yī)學(xué)進(jìn)行的PPI實驗結(jié)果主要以文獻(xiàn)的形式存儲。PPI信息對生物、醫(yī)藥研究有著重要的意義,因此生物醫(yī)學(xué)專家試圖以手工收集信息的方法從文獻(xiàn)中識別PPI信息,然后以統(tǒng)一的格式保存于關(guān)系數(shù)據(jù)庫中。然而,隨著生物醫(yī)學(xué)文獻(xiàn)大量地增加,以手工收集信息的方式已經(jīng)難以滿足實際需求。因此,研究如何從文獻(xiàn)中識別PPI信息是一項亟待解決問題。目前常用的基于機器學(xué)習(xí)的方法大多是以單個句子為研究對象,這種方法依賴人工標(biāo)注,且忽略了蛋白質(zhì)交互的上下文信息。為了避免出現(xiàn)這些問題,本文以大規(guī)模語料庫為研究依據(jù),根據(jù)蛋白質(zhì)豐富的上下文信息進(jìn)行PPI識別。本文從文本數(shù)據(jù)庫中收集了蛋白質(zhì)對的上下文信息,從以下三個方面進(jìn)行了研究。第一,研究上下文特征,從詞性和單詞相似性這兩個角度對向量進(jìn)行加權(quán)。得到的結(jié)果與不進(jìn)行加權(quán)的結(jié)果相比,有交互蛋白質(zhì)對F值提升了2.51%,無交互蛋白質(zhì)對F值提升了1.85%。第二,根據(jù)蛋白質(zhì)對關(guān)系描述文本之間的相似性,從關(guān)系相似性角度構(gòu)建分類器進(jìn)行PPI識別,重點比較了四種權(quán)重計算方法。第三,為了將上下文特征與文本之間的相似性這兩種類型的信息進(jìn)行有效地結(jié)合,采用了Minimum Cuts算法,利用上下文之間的相似性約束判斷。在實驗中,我們選擇了不同比例的訓(xùn)練數(shù)據(jù)構(gòu)建分類器。實驗結(jié)果表明,當(dāng)訓(xùn)練數(shù)據(jù)為80%時,與只有上下文特征信息的SVM的結(jié)果相比,識別結(jié)果有了3%-4%的提升。并且,Minimum Cuts以20%的訓(xùn)練數(shù)據(jù)得到了SVM以80%訓(xùn)練數(shù)據(jù)得到的識別結(jié)果。
【學(xué)位授予單位】:南京航空航天大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:Q51;Q811.4;TP391.1
,
本文編號:1159955
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1159955.html
最近更新
教材專著