基于細胞關系矩陣自我更新開發(fā)的單細胞RNA-seq聚類新方法
發(fā)布時間:2021-03-18 13:05
單細胞轉(zhuǎn)錄組測序技術是一種能在單細胞水平檢測出基因表達的測序技術,該技術廣泛應用在發(fā)育生物學、腫瘤生物學、免疫學、神經(jīng)生物學等多個生物學分支領域。隨著技術的發(fā)展,單細胞轉(zhuǎn)錄組測序技術的檢測細胞數(shù)量和測序覆蓋率越來越大,為人類細胞圖譜計劃提供重要的技術支持。由于分離細胞時沒有相關的細胞類型標簽,需要用無監(jiān)督聚類方法先將細胞分為幾個細胞類群才能進行后續(xù)分析。無監(jiān)督聚類算法沒有訓練樣本集,所以大多數(shù)算法的分析結果很容易受到初始參數(shù)值設定而改變。因此開發(fā)出更加穩(wěn)定的聚類算法對于單細胞測序數(shù)據(jù)的分析非常關鍵。本研究基于對細胞-細胞相似度矩陣的分析,通過對相似度矩陣行向量求夾角余弦重新定義細胞之間的相似度來更新細胞-細胞相似度矩陣。借助統(tǒng)計學大數(shù)定律證明了這種操作將會建立起穩(wěn)定而且有序的統(tǒng)計量來描述細胞之間的相似度關系,并且基于這種關系的有序性與對應的兩個細胞是否處于同一類別的關系開發(fā)了一種新的聚類算法,命名為切比雪夫大數(shù)聚類算法。接下來在模擬數(shù)據(jù)集中做仿真測試實驗來驗證該聚類算法的每一步都能達到預期的理想效果,最終完成聚類分析。本研究開發(fā)的算法用在真實數(shù)據(jù)集中進行測試,結果顯示該聚類算法能夠正確...
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:46 頁
【學位級別】:碩士
【部分圖文】:
最近10年內(nèi)開發(fā)出的單細胞轉(zhuǎn)錄組測序技術以及它們分別能檢測的細胞數(shù)在技術層面上,單細胞轉(zhuǎn)錄組的發(fā)展取決于解決了三方面問題,即如何非特
哈爾濱工業(yè)大學理學碩士學位論文-3-高精度發(fā)育圖譜[28],小鼠器官發(fā)生圖譜(MouseOrganogenesisCellAtlas,MOCA)[29]。后者利用其首創(chuàng)的超高通量單細胞測序技術:sci-RNA-seq3,同時檢測了兩百萬個單細胞轉(zhuǎn)錄圖譜,并對小鼠發(fā)育階段(受精后9.5天至13.5天)的主要器官進行了高精度單細胞水平的系統(tǒng)性研究,系統(tǒng)性地繪制了形成各種器官的細胞動態(tài)分化路徑以及在每個路徑中中基因表達發(fā)生了哪些變化。圖1-2從小鼠細胞圖集數(shù)據(jù)中采樣的60,000個單細胞的t分布隨機鄰居嵌入(t-SNE)分析。在t-SNE圖中標記了98個主要細胞類型簇(每個數(shù)字序號代表一種細胞類型)[26]。除了細胞圖譜的繪制之外,單細胞轉(zhuǎn)錄組測序技術的另一重要應用方向是模擬推測生物體發(fā)育過程或者疾病發(fā)生過程。2018年,《Science》同一期接連三篇文章[30-32]報道了利用單細胞RNA-seq結合其他技術構建了斑馬魚和蛙早期胚胎發(fā)育過程中的基因表達動態(tài)圖譜,利用分析方法把來自不同時間點采樣的,揭示了單個細胞構建整個生物體的完整過程。其中一篇文章報道了挑戰(zhàn)發(fā)育生物學過去認知的新發(fā)現(xiàn):在斑馬魚的細胞分化過程中,有同一種細胞類型卻來自不同的細胞譜系,出現(xiàn)了“譜系遷移”的現(xiàn)象。另外,單細胞轉(zhuǎn)錄組測序技術能夠為構建準確且完整的發(fā)育過程機制提供大量有效數(shù)據(jù)支持。如圖1-3所示,研究者們發(fā)現(xiàn)在小鼠著床前胚胎發(fā)育過程中,位置和信號事件似乎在轉(zhuǎn)錄程序成熟之前,并起到了調(diào)控細胞命運的作用[33]。
哈爾濱工業(yè)大學理學碩士學位論文-4-圖1-3三種囊胚譜系發(fā)育中基因表達變化的示意圖模型1.3單細胞轉(zhuǎn)錄組測序分析方法概述單細胞轉(zhuǎn)錄組測序的特點主要有:樣本量大,維數(shù)高,數(shù)據(jù)稀疏,沒有訓練集進行有監(jiān)督機器學習或統(tǒng)計分析等。為了克服上述困難,我們需要借助無監(jiān)督學習算法如流形學習和聚類分析來對數(shù)據(jù)進行分析,最終得出有生物學意義的結論。圖1-4展示了處理scRNA-seq數(shù)據(jù)以鑒定和表征細胞群體的核心計算方法[11]。圖1-4單細胞測序分析方法概述。顏色表示在每個步驟之后都要調(diào)整表達式矩陣的哪些部分,例如,特征選擇僅從表達式矩陣中刪除行,而降維則計算由元特征組成的新矩陣。本審查中未詳細介紹的預處理步驟包括質(zhì)量控制和標準化。與傳統(tǒng)的轉(zhuǎn)錄組測序數(shù)據(jù)分析策略不同,單細胞轉(zhuǎn)錄組測序數(shù)據(jù)分析并不是基于每個單細胞的基因表達情況直接判定細胞模式,而是用高斯核等方式先將單細胞轉(zhuǎn)錄組表達矩陣先轉(zhuǎn)化為細胞-細胞相似度關系矩陣或者距離關系矩陣。在細胞-細胞相似度矩陣的基礎上用k-近鄰的方法選擇與每個細胞最近鄰的k個鄰居細
本文編號:3088373
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:46 頁
【學位級別】:碩士
【部分圖文】:
最近10年內(nèi)開發(fā)出的單細胞轉(zhuǎn)錄組測序技術以及它們分別能檢測的細胞數(shù)在技術層面上,單細胞轉(zhuǎn)錄組的發(fā)展取決于解決了三方面問題,即如何非特
哈爾濱工業(yè)大學理學碩士學位論文-3-高精度發(fā)育圖譜[28],小鼠器官發(fā)生圖譜(MouseOrganogenesisCellAtlas,MOCA)[29]。后者利用其首創(chuàng)的超高通量單細胞測序技術:sci-RNA-seq3,同時檢測了兩百萬個單細胞轉(zhuǎn)錄圖譜,并對小鼠發(fā)育階段(受精后9.5天至13.5天)的主要器官進行了高精度單細胞水平的系統(tǒng)性研究,系統(tǒng)性地繪制了形成各種器官的細胞動態(tài)分化路徑以及在每個路徑中中基因表達發(fā)生了哪些變化。圖1-2從小鼠細胞圖集數(shù)據(jù)中采樣的60,000個單細胞的t分布隨機鄰居嵌入(t-SNE)分析。在t-SNE圖中標記了98個主要細胞類型簇(每個數(shù)字序號代表一種細胞類型)[26]。除了細胞圖譜的繪制之外,單細胞轉(zhuǎn)錄組測序技術的另一重要應用方向是模擬推測生物體發(fā)育過程或者疾病發(fā)生過程。2018年,《Science》同一期接連三篇文章[30-32]報道了利用單細胞RNA-seq結合其他技術構建了斑馬魚和蛙早期胚胎發(fā)育過程中的基因表達動態(tài)圖譜,利用分析方法把來自不同時間點采樣的,揭示了單個細胞構建整個生物體的完整過程。其中一篇文章報道了挑戰(zhàn)發(fā)育生物學過去認知的新發(fā)現(xiàn):在斑馬魚的細胞分化過程中,有同一種細胞類型卻來自不同的細胞譜系,出現(xiàn)了“譜系遷移”的現(xiàn)象。另外,單細胞轉(zhuǎn)錄組測序技術能夠為構建準確且完整的發(fā)育過程機制提供大量有效數(shù)據(jù)支持。如圖1-3所示,研究者們發(fā)現(xiàn)在小鼠著床前胚胎發(fā)育過程中,位置和信號事件似乎在轉(zhuǎn)錄程序成熟之前,并起到了調(diào)控細胞命運的作用[33]。
哈爾濱工業(yè)大學理學碩士學位論文-4-圖1-3三種囊胚譜系發(fā)育中基因表達變化的示意圖模型1.3單細胞轉(zhuǎn)錄組測序分析方法概述單細胞轉(zhuǎn)錄組測序的特點主要有:樣本量大,維數(shù)高,數(shù)據(jù)稀疏,沒有訓練集進行有監(jiān)督機器學習或統(tǒng)計分析等。為了克服上述困難,我們需要借助無監(jiān)督學習算法如流形學習和聚類分析來對數(shù)據(jù)進行分析,最終得出有生物學意義的結論。圖1-4展示了處理scRNA-seq數(shù)據(jù)以鑒定和表征細胞群體的核心計算方法[11]。圖1-4單細胞測序分析方法概述。顏色表示在每個步驟之后都要調(diào)整表達式矩陣的哪些部分,例如,特征選擇僅從表達式矩陣中刪除行,而降維則計算由元特征組成的新矩陣。本審查中未詳細介紹的預處理步驟包括質(zhì)量控制和標準化。與傳統(tǒng)的轉(zhuǎn)錄組測序數(shù)據(jù)分析策略不同,單細胞轉(zhuǎn)錄組測序數(shù)據(jù)分析并不是基于每個單細胞的基因表達情況直接判定細胞模式,而是用高斯核等方式先將單細胞轉(zhuǎn)錄組表達矩陣先轉(zhuǎn)化為細胞-細胞相似度關系矩陣或者距離關系矩陣。在細胞-細胞相似度矩陣的基礎上用k-近鄰的方法選擇與每個細胞最近鄰的k個鄰居細
本文編號:3088373
本文鏈接:http://sikaile.net/projectlw/swxlw/3088373.html
最近更新
教材專著