基于機(jī)器學(xué)習(xí)的大豆抵抗大豆疫霉侵染數(shù)據(jù)分析
發(fā)布時(shí)間:2021-11-13 20:10
大豆是一種在世界范圍內(nèi)廣泛種植的含有豐富蛋白質(zhì)的重要糧食作物,提高大豆產(chǎn)量是一個(gè)關(guān)系民生的大問(wèn)題。每年由大豆疫霉(Phytophthora sojae)侵染導(dǎo)致的大豆根腐病在世界范圍內(nèi)造成十余億美元的經(jīng)濟(jì)損失,但當(dāng)前仍沒(méi)有發(fā)現(xiàn)可以完全防治該病癥的方法,對(duì)其防治工作主要是以研究抗性品種為重點(diǎn),結(jié)合化學(xué)藥劑的綜合防治措施。然而抗性品種通常推廣數(shù)年后將不再具有抗性,且隨著抗性品種的增加,選育工作也變得更加復(fù)雜。近年來(lái),越來(lái)越多的研究表明,植物與致病菌間存在Small RNA(sRNA)層面的跨界互作機(jī)制,這為大豆根腐病的防治工作提供了新的研究思路。目前關(guān)于大豆與大豆疫霉在sRNA層面上的作用機(jī)制尚不明朗。因此,從sRNA水平分析大豆被大豆疫霉侵染后的抵抗作用,進(jìn)而在sRNA水平開(kāi)展防治工作,對(duì)大豆根腐病的防治、大豆的增產(chǎn)增收具有重要意義。本文首先詳述了研究背景、意義、國(guó)內(nèi)外進(jìn)展情況以及相關(guān)統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)算法。其次根據(jù)豐度、增長(zhǎng)率統(tǒng)計(jì)被大豆疫霉侵染后差異表達(dá)顯著的大豆sRNA序列,認(rèn)為其為抗病關(guān)鍵sRNA序列,并作為后續(xù)模型構(gòu)建的數(shù)據(jù)基礎(chǔ)。然后基于機(jī)器學(xué)習(xí)方法分析并挖掘出關(guān)鍵sRNA在序列...
【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
原始序列預(yù)處理流程圖
第3章sRNA數(shù)據(jù)收集與差異表達(dá)統(tǒng)計(jì)分析17圖3.2FastQC序列評(píng)估結(jié)果上圖為FastQC對(duì)序列評(píng)估的結(jié)果,左側(cè)為空白組大豆sRNA數(shù)據(jù),右側(cè)為被大豆疫霉侵染的實(shí)驗(yàn)組sRNA數(shù)據(jù),其中圖3.2(a)和圖3.2(b)分別為對(duì)照組和實(shí)驗(yàn)組sRNA序列長(zhǎng)度分布情況,由于sRNA中起調(diào)控作用的多為長(zhǎng)度分布在18-25nt的microRNA,本文選取18-25nt長(zhǎng)度的序列進(jìn)行后續(xù)分析。圖3.2(c)和圖3.2(d)為質(zhì)量評(píng)估結(jié)果,縱坐標(biāo)表示序列數(shù)量,橫坐標(biāo)為序列平均堿基質(zhì)量,一般認(rèn)為質(zhì)量大于30時(shí)效果較好,可以發(fā)現(xiàn)絕大部分序列質(zhì)量位于36-40之間,數(shù)據(jù)質(zhì)量良好。上述步驟中,兩組的sRNA數(shù)量在經(jīng)過(guò)去接頭、去低質(zhì)量和長(zhǎng)度控制后的數(shù)量統(tǒng)計(jì)如下表所示,其中InfectBefore.fastq為對(duì)照組micrRNA序列,InfectAfter.fastq為實(shí)驗(yàn)組sRNA序列。表3.2實(shí)驗(yàn)組與對(duì)照組大豆sRNA處理過(guò)程中數(shù)量統(tǒng)計(jì)類別去接頭(條數(shù))長(zhǎng)度/質(zhì)量控制(條數(shù))種類InfectBefore.fastq88284813226820902702InfectAfter.fastq2240577160739281251487從上表中可以看出,侵染組由于混合了大豆和大豆疫霉的sRNA,所以數(shù)量高于對(duì)照組,為保證后續(xù)工作的精確性,本文對(duì)于長(zhǎng)度和質(zhì)量控制比較嚴(yán)格。
澩锪恐梟?冶?達(dá)量較高的序列是對(duì)大豆抵抗機(jī)制起作用的陽(yáng)性樣本,而侵染前后幾乎不變的為陰性樣本,最后對(duì)選擇的數(shù)據(jù)集進(jìn)行T檢驗(yàn)。其中增長(zhǎng)率的計(jì)算方法如下所示:=...........(3.1)本文陽(yáng)性樣本通過(guò)增長(zhǎng)率和表達(dá)量情況共同篩選,其中一部分為侵染組和對(duì)照組共有的樣本中增長(zhǎng)率大于10且表達(dá)量大于200的732條序列;另一部分為侵染組中出現(xiàn)、對(duì)照組沒(méi)有會(huì)出現(xiàn),但是可以匹配到大豆基因組且不能匹配到大豆疫霉基因組的表達(dá)量大于100的36條序列,共計(jì)768條序列作為正樣本。其中提取出的侵染前后均出現(xiàn)的部分正樣本數(shù)據(jù)如圖3.4中左側(cè)圖所示,其中紅色坐標(biāo)柱表示侵染后的表達(dá)量,藍(lán)色的坐標(biāo)柱表示侵染前的表達(dá)量,從圖中可以看出差異情況非常顯著。圖3.4差異表達(dá)顯著序列在兩組數(shù)據(jù)中對(duì)比和差值分布為進(jìn)一步探究選定的732條序列在侵染前后的差異性,本文對(duì)其使用配對(duì)T檢驗(yàn)方法對(duì)其進(jìn)行檢驗(yàn)。兩組數(shù)據(jù)表達(dá)量差值分布圖如上圖右圖所示,從圖中可以看出,兩組數(shù)據(jù)的差值分布情況基本滿足正態(tài)分布,此處可以使用配對(duì)T檢驗(yàn)分析。經(jīng)過(guò)T檢驗(yàn)得到的t值為8.756,P值為6.9390e-18遠(yuǎn)小于0.05,說(shuō)明侵染前后兩組數(shù)據(jù)差異是非常顯著的。3.5本章小結(jié)本章節(jié)首先分別對(duì)未被大豆疫霉侵染的對(duì)照組大豆sRNA和被大豆疫霉侵染的大豆sRNA原始數(shù)據(jù)進(jìn)行了去接頭序列、去低質(zhì)量序列、質(zhì)量控制和長(zhǎng)度控制等預(yù)處理操作得到有效序列。在得到兩組有效序列后,為了使兩組數(shù)據(jù)具有可比性,使用四分位數(shù)標(biāo)準(zhǔn)化法對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理,統(tǒng)計(jì)所有僅屬于大豆的序列在兩組序列中的表達(dá)情況;诒磉_(dá)量和增長(zhǎng)率篩選出差異表達(dá)sRNA數(shù)據(jù)集,并對(duì)其進(jìn)行差異倍數(shù)驗(yàn)證。
本文編號(hào):3493642
【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
原始序列預(yù)處理流程圖
第3章sRNA數(shù)據(jù)收集與差異表達(dá)統(tǒng)計(jì)分析17圖3.2FastQC序列評(píng)估結(jié)果上圖為FastQC對(duì)序列評(píng)估的結(jié)果,左側(cè)為空白組大豆sRNA數(shù)據(jù),右側(cè)為被大豆疫霉侵染的實(shí)驗(yàn)組sRNA數(shù)據(jù),其中圖3.2(a)和圖3.2(b)分別為對(duì)照組和實(shí)驗(yàn)組sRNA序列長(zhǎng)度分布情況,由于sRNA中起調(diào)控作用的多為長(zhǎng)度分布在18-25nt的microRNA,本文選取18-25nt長(zhǎng)度的序列進(jìn)行后續(xù)分析。圖3.2(c)和圖3.2(d)為質(zhì)量評(píng)估結(jié)果,縱坐標(biāo)表示序列數(shù)量,橫坐標(biāo)為序列平均堿基質(zhì)量,一般認(rèn)為質(zhì)量大于30時(shí)效果較好,可以發(fā)現(xiàn)絕大部分序列質(zhì)量位于36-40之間,數(shù)據(jù)質(zhì)量良好。上述步驟中,兩組的sRNA數(shù)量在經(jīng)過(guò)去接頭、去低質(zhì)量和長(zhǎng)度控制后的數(shù)量統(tǒng)計(jì)如下表所示,其中InfectBefore.fastq為對(duì)照組micrRNA序列,InfectAfter.fastq為實(shí)驗(yàn)組sRNA序列。表3.2實(shí)驗(yàn)組與對(duì)照組大豆sRNA處理過(guò)程中數(shù)量統(tǒng)計(jì)類別去接頭(條數(shù))長(zhǎng)度/質(zhì)量控制(條數(shù))種類InfectBefore.fastq88284813226820902702InfectAfter.fastq2240577160739281251487從上表中可以看出,侵染組由于混合了大豆和大豆疫霉的sRNA,所以數(shù)量高于對(duì)照組,為保證后續(xù)工作的精確性,本文對(duì)于長(zhǎng)度和質(zhì)量控制比較嚴(yán)格。
澩锪恐梟?冶?達(dá)量較高的序列是對(duì)大豆抵抗機(jī)制起作用的陽(yáng)性樣本,而侵染前后幾乎不變的為陰性樣本,最后對(duì)選擇的數(shù)據(jù)集進(jìn)行T檢驗(yàn)。其中增長(zhǎng)率的計(jì)算方法如下所示:=...........(3.1)本文陽(yáng)性樣本通過(guò)增長(zhǎng)率和表達(dá)量情況共同篩選,其中一部分為侵染組和對(duì)照組共有的樣本中增長(zhǎng)率大于10且表達(dá)量大于200的732條序列;另一部分為侵染組中出現(xiàn)、對(duì)照組沒(méi)有會(huì)出現(xiàn),但是可以匹配到大豆基因組且不能匹配到大豆疫霉基因組的表達(dá)量大于100的36條序列,共計(jì)768條序列作為正樣本。其中提取出的侵染前后均出現(xiàn)的部分正樣本數(shù)據(jù)如圖3.4中左側(cè)圖所示,其中紅色坐標(biāo)柱表示侵染后的表達(dá)量,藍(lán)色的坐標(biāo)柱表示侵染前的表達(dá)量,從圖中可以看出差異情況非常顯著。圖3.4差異表達(dá)顯著序列在兩組數(shù)據(jù)中對(duì)比和差值分布為進(jìn)一步探究選定的732條序列在侵染前后的差異性,本文對(duì)其使用配對(duì)T檢驗(yàn)方法對(duì)其進(jìn)行檢驗(yàn)。兩組數(shù)據(jù)表達(dá)量差值分布圖如上圖右圖所示,從圖中可以看出,兩組數(shù)據(jù)的差值分布情況基本滿足正態(tài)分布,此處可以使用配對(duì)T檢驗(yàn)分析。經(jīng)過(guò)T檢驗(yàn)得到的t值為8.756,P值為6.9390e-18遠(yuǎn)小于0.05,說(shuō)明侵染前后兩組數(shù)據(jù)差異是非常顯著的。3.5本章小結(jié)本章節(jié)首先分別對(duì)未被大豆疫霉侵染的對(duì)照組大豆sRNA和被大豆疫霉侵染的大豆sRNA原始數(shù)據(jù)進(jìn)行了去接頭序列、去低質(zhì)量序列、質(zhì)量控制和長(zhǎng)度控制等預(yù)處理操作得到有效序列。在得到兩組有效序列后,為了使兩組數(shù)據(jù)具有可比性,使用四分位數(shù)標(biāo)準(zhǔn)化法對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理,統(tǒng)計(jì)所有僅屬于大豆的序列在兩組序列中的表達(dá)情況;诒磉_(dá)量和增長(zhǎng)率篩選出差異表達(dá)sRNA數(shù)據(jù)集,并對(duì)其進(jìn)行差異倍數(shù)驗(yàn)證。
本文編號(hào):3493642
本文鏈接:http://sikaile.net/shoufeilunwen/zaizhiyanjiusheng/3493642.html
最近更新
教材專著