基于多維特征和模型融合的血尿酸預(yù)測模型
發(fā)布時間:2021-11-28 01:30
最近幾年,隨著人工智能和大數(shù)據(jù)的發(fā)展,機器學習越來越多的被應(yīng)用到醫(yī)療領(lǐng)域,我國也提出了醫(yī)療大數(shù)據(jù)的發(fā)展方向。論文通過數(shù)據(jù)挖掘,從數(shù)據(jù)的角度挖掘生理指標和血尿酸之間的內(nèi)在聯(lián)系,通過對血尿酸的分析和研究,對患者進行有效治療指導和輔助醫(yī)生進行診斷有著重要意義。論文從兩方面提出了血尿酸預(yù)測模型:一方面是對多維特征進行提取,進行特征融合,另一方面是對傳統(tǒng)單一模型進行改進。一方面,論文針對原始數(shù)據(jù)中涉及的多維特征進行分類再融合,首先將原始特征分為兩類,分別是數(shù)字特征和文字特征。然后進而對數(shù)字特征進行分類,分為連續(xù)型數(shù)值特征和離散型特征。對于文字特征,論文提出基于Doc2vec神經(jīng)網(wǎng)絡(luò)模型來提取原始語料的文字特征,并對該文字特征進行單獨訓練,從而進行二次提取。最后將文字特征與處理好的數(shù)值型特征進行融合,得到完備的特征集組合。另一方面,論文的目標是提高模型的預(yù)測能力。單一的Boosting算法通過訓練一個弱學習器,不斷擬合殘差來減小誤差,這個過程使得偏差不斷減小,同時方差變大,這就容易導致過擬合。因此論文提出Boosting和Stacking相結(jié)合的方法通過訓練多個弱學習器來減小模型過擬合的風險,從而...
【文章來源】:天津大學天津市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【部分圖文】:
神經(jīng)元
第2章相關(guān)理論研究7第2章相關(guān)理論研究論文提出基于神經(jīng)網(wǎng)絡(luò)特征提取和多模型融合的血尿酸預(yù)測模型。該算法包括基于Doc2vec的多特征融合算法和基于Boosting和Stacking的多模型融合方法。因此本章介紹了關(guān)于神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ)和傳統(tǒng)的詞向量表示方法。并介紹了常用的集成學習方法。2.1前向神經(jīng)網(wǎng)絡(luò)深度學習是一種神經(jīng)網(wǎng)絡(luò),可以堆疊多個層,通過增加隱藏層的數(shù)量來提高模型的準確率。深度學習通過隱藏層將輸入數(shù)據(jù)轉(zhuǎn)換為更抽象的維度表示,并使用非線性結(jié)構(gòu)深入發(fā)現(xiàn)數(shù)據(jù)之間的分布特征。通過計算隱藏層的權(quán)重矩陣,來探索數(shù)據(jù)和數(shù)據(jù)之間隱藏的復(fù)雜關(guān)系。前饋神經(jīng)網(wǎng)絡(luò)(BackProgration,BP)是比較早的神經(jīng)網(wǎng)絡(luò)模型,其他的神經(jīng)網(wǎng)絡(luò),都是在BP神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,隨后發(fā)展而來的。神經(jīng)元中定義的函數(shù)能夠輸出最終結(jié)果。假設(shè)向量X是神經(jīng)元的輸入,執(zhí)行操作函數(shù)f(一般為激活函數(shù))。則神經(jīng)元執(zhí)行的操作如公式(2-1)所示。af(xwb)(2-1)其中w為參數(shù)向量,b為偏置,標量值。神經(jīng)網(wǎng)絡(luò)是由多個神經(jīng)元組合而成,一個神經(jīng)元和輸出神經(jīng)元的組合方式可以是一個簡單的形式在網(wǎng)絡(luò),其特點是計算從輸入層到輸出層的權(quán)重。中間隱藏層沒有循環(huán),每層都完全連接。一個神經(jīng)元如圖2-1所示,一個簡單的前向神經(jīng)網(wǎng)絡(luò)如圖2-2所示。圖2-1神經(jīng)元圖2-2前向神經(jīng)網(wǎng)絡(luò)
第3章基于Doc2vec的多特征融合算法21構(gòu)建自定義詞典分詞:[/竇性/]/心率/不齊。3.2.6文本的向量特征提取論文在CBOW基礎(chǔ)上提出D-cbow模型,如圖3-2所示。圖3-2D-cbow結(jié)構(gòu)圖原始CBOW模型為三層神經(jīng)網(wǎng)絡(luò),論文通過構(gòu)建四層神經(jīng)網(wǎng)絡(luò),增強網(wǎng)絡(luò)的表達性。例如,在text8訓練得到“one”和“zero”的相似度為0.555,而在D-cbow模型上訓練可以得到0.995的相似度,相似度大大提升。表達的語義也更加準確。從構(gòu)造的單詞向量構(gòu)造句子向量,框架如圖3-3所示。圖3-3句子向量框架圖如圖3-3所示,通過構(gòu)建的D-cbow構(gòu)建準確的詞向量,然后將詞向量對應(yīng)求和再求平均值,得到句子的向量。但是這樣的方式構(gòu)建的語句向量忽略了單詞的詞序聯(lián)系。并不能表示句子中詞序關(guān)系。因此,本文提出使用Doc2vec模型從文本中提取特征。
【參考文獻】:
期刊論文
[1]基于分類樹模型的高尿酸血癥危險因素分析[J]. 胡夢妍,劉錦波,周春華,李新莉. 中國全科醫(yī)學. 2018(03)
[2]基于數(shù)據(jù)挖掘的疾病預(yù)測模型的構(gòu)建與分析[J]. 李奮華,趙潤林. 現(xiàn)代計算機(專業(yè)版). 2016(18)
[3]高齡男性原發(fā)性高血壓患者高尿酸血癥患病率調(diào)查及相關(guān)因素分析[J]. 劉燦,黃雨晴,余雪菊,馮穎青. 中華老年心腦血管病雜志. 2016(03)
[4]血清低密度脂蛋白膽固醇水平與腦出血的相關(guān)性初探[J]. 王丹,黃芩,張麗,陶琦,韋燾. 昆明醫(yī)科大學學報. 2015(03)
[5]汕頭市妊娠期婦女血脂水平觀察與分析[J]. 姚家勇. 檢驗醫(yī)學與臨床. 2011(19)
本文編號:3523421
【文章來源】:天津大學天津市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【部分圖文】:
神經(jīng)元
第2章相關(guān)理論研究7第2章相關(guān)理論研究論文提出基于神經(jīng)網(wǎng)絡(luò)特征提取和多模型融合的血尿酸預(yù)測模型。該算法包括基于Doc2vec的多特征融合算法和基于Boosting和Stacking的多模型融合方法。因此本章介紹了關(guān)于神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ)和傳統(tǒng)的詞向量表示方法。并介紹了常用的集成學習方法。2.1前向神經(jīng)網(wǎng)絡(luò)深度學習是一種神經(jīng)網(wǎng)絡(luò),可以堆疊多個層,通過增加隱藏層的數(shù)量來提高模型的準確率。深度學習通過隱藏層將輸入數(shù)據(jù)轉(zhuǎn)換為更抽象的維度表示,并使用非線性結(jié)構(gòu)深入發(fā)現(xiàn)數(shù)據(jù)之間的分布特征。通過計算隱藏層的權(quán)重矩陣,來探索數(shù)據(jù)和數(shù)據(jù)之間隱藏的復(fù)雜關(guān)系。前饋神經(jīng)網(wǎng)絡(luò)(BackProgration,BP)是比較早的神經(jīng)網(wǎng)絡(luò)模型,其他的神經(jīng)網(wǎng)絡(luò),都是在BP神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,隨后發(fā)展而來的。神經(jīng)元中定義的函數(shù)能夠輸出最終結(jié)果。假設(shè)向量X是神經(jīng)元的輸入,執(zhí)行操作函數(shù)f(一般為激活函數(shù))。則神經(jīng)元執(zhí)行的操作如公式(2-1)所示。af(xwb)(2-1)其中w為參數(shù)向量,b為偏置,標量值。神經(jīng)網(wǎng)絡(luò)是由多個神經(jīng)元組合而成,一個神經(jīng)元和輸出神經(jīng)元的組合方式可以是一個簡單的形式在網(wǎng)絡(luò),其特點是計算從輸入層到輸出層的權(quán)重。中間隱藏層沒有循環(huán),每層都完全連接。一個神經(jīng)元如圖2-1所示,一個簡單的前向神經(jīng)網(wǎng)絡(luò)如圖2-2所示。圖2-1神經(jīng)元圖2-2前向神經(jīng)網(wǎng)絡(luò)
第3章基于Doc2vec的多特征融合算法21構(gòu)建自定義詞典分詞:[/竇性/]/心率/不齊。3.2.6文本的向量特征提取論文在CBOW基礎(chǔ)上提出D-cbow模型,如圖3-2所示。圖3-2D-cbow結(jié)構(gòu)圖原始CBOW模型為三層神經(jīng)網(wǎng)絡(luò),論文通過構(gòu)建四層神經(jīng)網(wǎng)絡(luò),增強網(wǎng)絡(luò)的表達性。例如,在text8訓練得到“one”和“zero”的相似度為0.555,而在D-cbow模型上訓練可以得到0.995的相似度,相似度大大提升。表達的語義也更加準確。從構(gòu)造的單詞向量構(gòu)造句子向量,框架如圖3-3所示。圖3-3句子向量框架圖如圖3-3所示,通過構(gòu)建的D-cbow構(gòu)建準確的詞向量,然后將詞向量對應(yīng)求和再求平均值,得到句子的向量。但是這樣的方式構(gòu)建的語句向量忽略了單詞的詞序聯(lián)系。并不能表示句子中詞序關(guān)系。因此,本文提出使用Doc2vec模型從文本中提取特征。
【參考文獻】:
期刊論文
[1]基于分類樹模型的高尿酸血癥危險因素分析[J]. 胡夢妍,劉錦波,周春華,李新莉. 中國全科醫(yī)學. 2018(03)
[2]基于數(shù)據(jù)挖掘的疾病預(yù)測模型的構(gòu)建與分析[J]. 李奮華,趙潤林. 現(xiàn)代計算機(專業(yè)版). 2016(18)
[3]高齡男性原發(fā)性高血壓患者高尿酸血癥患病率調(diào)查及相關(guān)因素分析[J]. 劉燦,黃雨晴,余雪菊,馮穎青. 中華老年心腦血管病雜志. 2016(03)
[4]血清低密度脂蛋白膽固醇水平與腦出血的相關(guān)性初探[J]. 王丹,黃芩,張麗,陶琦,韋燾. 昆明醫(yī)科大學學報. 2015(03)
[5]汕頭市妊娠期婦女血脂水平觀察與分析[J]. 姚家勇. 檢驗醫(yī)學與臨床. 2011(19)
本文編號:3523421
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3523421.html
最近更新
教材專著