基于特征協(xié)同作用的生物數(shù)據(jù)分析方法研究
發(fā)布時(shí)間:2022-11-06 13:18
近年來(lái),隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,生物信息學(xué)取得了長(zhǎng)足的進(jìn)步。如何從生物數(shù)據(jù)中挖掘出有用的信息,是生物信息學(xué)研究者們需要解決的問(wèn)題。研究表明,從協(xié)同的角度對(duì)生物體內(nèi)基因、蛋白、代謝物等特征進(jìn)行研究有助于人們深入理解生物機(jī)體運(yùn)行機(jī)制。本文提出了基于特征組合的隨機(jī)森林算法RF-FC。該方法以特征的組合可以反映出生物體更為宏觀的、系統(tǒng)的變化為出發(fā)點(diǎn),在隨機(jī)森林基決策樹(shù)的分叉過(guò)程中不僅僅考察單特征的區(qū)分能力,還使用線(xiàn)性核支持向量機(jī)對(duì)所有特征對(duì)、特征三元組進(jìn)行考察,從單特征、特征對(duì)、特征三元組中選取最佳方式進(jìn)行結(jié)點(diǎn)的分裂。在14個(gè)公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的RF-FC算法的分類(lèi)性能在大多數(shù)情況下優(yōu)于隨機(jī)森林。本文提出了基于Platt scaling技術(shù)和特征對(duì)得分的改進(jìn)LC-k-TSP算法—LC-k-TSP-PlattCE。該方法在LC-k-TSP方法的決策階段使用Platt scaling算法計(jì)算基分類(lèi)器對(duì)未知樣本的判別置信度,對(duì)每個(gè)基分類(lèi)器依據(jù)對(duì)應(yīng)特征對(duì)的第一得分進(jìn)行加權(quán)。LC-k-TSP-PlattCE保留了LC-k-TSP的優(yōu)點(diǎn),采用k>0對(duì)特征的線(xiàn)性關(guān)系構(gòu)建集成分類(lèi)器,分類(lèi)準(zhǔn)...
【文章頁(yè)數(shù)】:74 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 研究背景及意義
1.2 本文主要工作
2 生物信息學(xué)數(shù)據(jù)挖掘常用技術(shù)
2.1 數(shù)據(jù)預(yù)處理
2.1.1 缺失值處理
2.1.2 數(shù)據(jù)變換
2.2 降維方法
2.2.1 特征選擇
2.2.2 特征提取
2.3 分類(lèi)技術(shù)
2.3.1 決策樹(shù)
2.3.2 樸素貝葉斯
2.3.3 最近鄰
2.3.4 支持向量機(jī)
2.3.5 隨機(jī)森林
2.4 分類(lèi)器性能評(píng)估
2.4.1 數(shù)據(jù)劃分
2.4.2 性能評(píng)價(jià)指標(biāo)
2.5 本章小結(jié)
3 基于特征組合的隨機(jī)森林算法
3.1 決策樹(shù)與隨機(jī)森林算法
3.2 基于特征組合的隨機(jī)森林算法RF-FC
3.2.1 基決策樹(shù)構(gòu)建
3.2.2 未知樣本分類(lèi)
3.3 實(shí)驗(yàn)
3.3.1 實(shí)驗(yàn)設(shè)置
3.3.2 實(shí)驗(yàn)結(jié)果與討論
3.4 本章小結(jié)
4 基于Platt scaling和特征對(duì)得分的改進(jìn)LC-k-TSP算法
4.1 LC-k-TSP算法
4.2 LC-k-TSP-PlattCE算法
4.2.1 置信度分析
4.2.2 特征對(duì)加權(quán)
4.2.3 加權(quán)決策
4.2.4 整體流程
4.3實(shí)驗(yàn)
4.3.1 實(shí)驗(yàn)設(shè)置
4.3.2 實(shí)驗(yàn)結(jié)果與討論
4.4 本章小結(jié)
5 基于多組合關(guān)系的生物網(wǎng)絡(luò)構(gòu)建與模塊標(biāo)志物發(fā)現(xiàn)算法
5.1 MCR-Net算法
5.1.1 多種組合關(guān)系網(wǎng)絡(luò)構(gòu)建
5.1.2 模塊標(biāo)志物搜索
5.1.3 多模塊信息融合策略
5.2 實(shí)驗(yàn)
5.2.1 實(shí)驗(yàn)設(shè)置
5.2.2 實(shí)驗(yàn)結(jié)果與討論
5.3 RF-FC算法、LC-k-TSP-PlattCE算法、MCR-Net算法的比較
5.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況
致謝
本文編號(hào):3703569
【文章頁(yè)數(shù)】:74 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 研究背景及意義
1.2 本文主要工作
2 生物信息學(xué)數(shù)據(jù)挖掘常用技術(shù)
2.1 數(shù)據(jù)預(yù)處理
2.1.1 缺失值處理
2.1.2 數(shù)據(jù)變換
2.2 降維方法
2.2.1 特征選擇
2.2.2 特征提取
2.3 分類(lèi)技術(shù)
2.3.1 決策樹(shù)
2.3.2 樸素貝葉斯
2.3.3 最近鄰
2.3.4 支持向量機(jī)
2.3.5 隨機(jī)森林
2.4 分類(lèi)器性能評(píng)估
2.4.1 數(shù)據(jù)劃分
2.4.2 性能評(píng)價(jià)指標(biāo)
2.5 本章小結(jié)
3 基于特征組合的隨機(jī)森林算法
3.1 決策樹(shù)與隨機(jī)森林算法
3.2 基于特征組合的隨機(jī)森林算法RF-FC
3.2.1 基決策樹(shù)構(gòu)建
3.2.2 未知樣本分類(lèi)
3.3 實(shí)驗(yàn)
3.3.1 實(shí)驗(yàn)設(shè)置
3.3.2 實(shí)驗(yàn)結(jié)果與討論
3.4 本章小結(jié)
4 基于Platt scaling和特征對(duì)得分的改進(jìn)LC-k-TSP算法
4.1 LC-k-TSP算法
4.2 LC-k-TSP-PlattCE算法
4.2.1 置信度分析
4.2.2 特征對(duì)加權(quán)
4.2.3 加權(quán)決策
4.2.4 整體流程
4.3實(shí)驗(yàn)
4.3.1 實(shí)驗(yàn)設(shè)置
4.3.2 實(shí)驗(yàn)結(jié)果與討論
4.4 本章小結(jié)
5 基于多組合關(guān)系的生物網(wǎng)絡(luò)構(gòu)建與模塊標(biāo)志物發(fā)現(xiàn)算法
5.1 MCR-Net算法
5.1.1 多種組合關(guān)系網(wǎng)絡(luò)構(gòu)建
5.1.2 模塊標(biāo)志物搜索
5.1.3 多模塊信息融合策略
5.2 實(shí)驗(yàn)
5.2.1 實(shí)驗(yàn)設(shè)置
5.2.2 實(shí)驗(yàn)結(jié)果與討論
5.3 RF-FC算法、LC-k-TSP-PlattCE算法、MCR-Net算法的比較
5.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況
致謝
本文編號(hào):3703569
本文鏈接:http://sikaile.net/projectlw/swxlw/3703569.html
最近更新
教材專(zhuān)著