天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Gradient Boosting算法的海量健康數(shù)據(jù)挖掘研究與應(yīng)用

發(fā)布時(shí)間:2020-10-28 17:27
   大健康時(shí)代的到來讓我們重新觀察人類身處的健康環(huán)境,也越來越關(guān)注生活質(zhì)量和身體健康,然而各種現(xiàn)代病卻在不知不覺地向我們襲來。隨著大數(shù)據(jù)、數(shù)據(jù)挖掘、人工智能領(lǐng)域的飛速發(fā)展,尤其是“互聯(lián)網(wǎng)+醫(yī)療”概念的提出,人們可以利用數(shù)據(jù)挖掘技術(shù)探查隱藏在健康大數(shù)據(jù)背后的重要信息,為人類免受疾病困擾提供新的解決途徑。腫瘤、癌癥等疾病發(fā)病迅速,前期癥狀不明顯,導(dǎo)致治愈率低,而預(yù)防腫瘤、癌癥最有效的方式是做到“早發(fā)現(xiàn)、早治療”。為此,本文基于健康體檢數(shù)據(jù)(血常規(guī)、尿常規(guī)、問卷信息等),運(yùn)用以Gradient Boosting為主的數(shù)據(jù)挖掘分類算法,構(gòu)造重大疾病風(fēng)險(xiǎn)篩查和早期診斷模型,為疾病的確診、治療提供依據(jù)。論文主要研究Gradient Boosting算法,肝部腫瘤篩查模型的訓(xùn)練方法,梯度提升算法并行計(jì)算的實(shí)現(xiàn)和評(píng)估。首先對(duì)集成學(xué)習(xí)中Gradient Boosting算法進(jìn)行研究,并提出適用于健康數(shù)據(jù)的特征選擇和樣本平衡方案,在處理健康數(shù)據(jù)樣本非均衡的問題時(shí),使用基于SMOTE的過采樣方式,并調(diào)整驗(yàn)證評(píng)估指標(biāo);然后針對(duì)肝部腫瘤篩查場(chǎng)景,設(shè)計(jì)訓(xùn)練Gradient Boosting分類模型算法,提出完整的篩查模型效果反饋與優(yōu)化方案;最后本文基于流行的XGBoost平臺(tái)實(shí)現(xiàn)了 Gradient Boosting算法在疾病風(fēng)險(xiǎn)篩查模型中的并行化改造,并驗(yàn)證實(shí)驗(yàn)結(jié)果,對(duì)比運(yùn)行時(shí)間等。論文驗(yàn)證了 Gradient Boosting算法在健康體檢數(shù)據(jù)中能夠達(dá)到重大疾病篩查和早期診斷的目的,該算法在相同數(shù)據(jù)集上比隨機(jī)森林和邏輯回歸表現(xiàn)優(yōu)秀。還使用XGBoost平臺(tái)幫助Gradient Boosting算法實(shí)現(xiàn)并行化計(jì)算,能夠有效應(yīng)對(duì)海量健康數(shù)據(jù)挖掘的需要。研究成果對(duì)于健康醫(yī)療、疾病預(yù)防有積極的意義。
【學(xué)位單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2017
【中圖分類】:R-05;TP311.13
【部分圖文】:

算法流程圖


對(duì)于分類問題將采用多數(shù)投票的方式,對(duì)于回歸問題可以直接求平均值。??可見,Bagging是一個(gè)并行訓(xùn)練過程,可以很自然地應(yīng)用到大規(guī)模數(shù)據(jù)中,具體??算法訓(xùn)練流程如圖2-2所示。如果選擇決策樹作為Bagging算法的弱分類器,則??可以得到Bagging算法最為流行的一種形式——隨機(jī)森林,該算法和梯度提升算??法都在商業(yè)實(shí)踐中廣泛應(yīng)用。在后續(xù)實(shí)驗(yàn)中,也將使用隨機(jī)森林算法進(jìn)行模型訓(xùn)??練,對(duì)比實(shí)驗(yàn)結(jié)果。??Boosting:主要是指?AdaBoost?(Adaptive?Boosting)算法,開始時(shí)每一個(gè)訓(xùn)??練樣例等于權(quán)重1/n,然后對(duì)算法訓(xùn)練t輪,每次訓(xùn)練后對(duì)預(yù)測(cè)失敗的訓(xùn)練樣本??加大權(quán)重,讓學(xué)習(xí)算法在后續(xù)的訓(xùn)練中更加關(guān)注較難訓(xùn)練的樣例,這樣不斷優(yōu)化??算法的側(cè)重點(diǎn),然后使用加權(quán)平均的方式得到強(qiáng)學(xué)習(xí)器。??D??'了????J-?丄?I??步:?n?D?D?D??創(chuàng)建多個(gè)數(shù)據(jù)集?u?u??????u?u??in?nr??第二步:A

網(wǎng)格圖,交叉驗(yàn)證,網(wǎng)格,訓(xùn)練集


做法是將數(shù)據(jù)集分成三部分,即訓(xùn)練集、驗(yàn)證集、測(cè)試集。訓(xùn)練集用于模型訓(xùn)練,??使選擇的模型學(xué)習(xí)模型參數(shù),得到最優(yōu)模型,然后使用驗(yàn)證集進(jìn)行模型選擇和超??參數(shù)的調(diào)節(jié),例如正則化系數(shù)等,選擇出表現(xiàn)最優(yōu)的模型,最后使用測(cè)試集對(duì)整??體的學(xué)習(xí)效果進(jìn)行評(píng)估,作為模型的最終結(jié)果。這種方法能夠較好地考慮到模型??的泛化能力,訓(xùn)練出來的模型具有很強(qiáng)的實(shí)用性。但缺點(diǎn)也很明顯,該方法需要??大量的數(shù)據(jù)樣本,而在現(xiàn)實(shí)中訓(xùn)練數(shù)據(jù)往往有限,標(biāo)注后的帶標(biāo)簽的數(shù)據(jù)更是少??之又少,人們出于充分利用數(shù)據(jù)的考慮設(shè)計(jì)了交叉驗(yàn)證方法。該方法的基本思想??是盡可能地充分使用數(shù)據(jù),初始時(shí)將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集后,再將訓(xùn)練集切??分成等量的幾份,每次選擇大部分?jǐn)?shù)據(jù)作為數(shù)據(jù)集,然后使用少部分?jǐn)?shù)據(jù)進(jìn)行驗(yàn)??證,這樣重復(fù)進(jìn)行多次,然后求平均值作為該模型的最后性能。??當(dāng)使用類似bagging的集成算法時(shí),使用采樣和更換技術(shù)生成新的訓(xùn)練集,??原始訓(xùn)練集的一部分?jǐn)?shù)據(jù)未被使用,對(duì)于集成后的每一個(gè)學(xué)習(xí)器,都有一部分不??同的數(shù)據(jù)被排除在外,我們可以用這部分丟在訓(xùn)練集外的數(shù)據(jù)評(píng)估泛化誤差,而??不必依賴于一個(gè)單獨(dú)的驗(yàn)證集。這種評(píng)估方法并沒有浪費(fèi)新數(shù)據(jù),也可以用于模??型選擇,這種方式叫做袋外驗(yàn)證法(out?of?bag,OOB)。??

流程圖,流程圖,特征編碼,訓(xùn)練模型


用數(shù)據(jù)挖掘算法,構(gòu)造出一套肝部腫瘤篩查算法。具體的步驟包括從體檢數(shù)據(jù)庫??中抽取數(shù)據(jù),數(shù)據(jù)預(yù)處理,特征選擇,設(shè)計(jì)與訓(xùn)練模型,結(jié)果分類結(jié)果,人群效??果反饋六個(gè)步驟。完整的流程如圖3-1所示:??HT? ̄ ̄? ̄ ̄? ̄ ̄11?數(shù)據(jù)標(biāo)注?|? ̄ ̄? ̄ ̄?r^ ̄??5?^?體?!?體?型??2?康?K?數(shù)據(jù)編碼轉(zhuǎn)換?檢|杜蹈?評(píng)??腫優(yōu)?檢???I?教特征編碼?特?模?估??S??5?i?3轉(zhuǎn)存數(shù)據(jù)倉庫?i?I?■缺失值I?擇練?I??g?庫?収??理???反??[_J????11?數(shù)據(jù)釆樣?|??????圖3-1肝部腫瘤篩查流程圖??23??
【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 ;SPOTLIGHTS[J];Human Rights;2011年05期

2 章光明;劉晉;賈慧珣;李康;;隨機(jī)梯度boosting算法在代謝組學(xué)研究中的應(yīng)用[J];中國衛(wèi)生統(tǒng)計(jì);2013年03期

3 孫笑微;李曉毅;戚勛;;基于Boosting的BP神經(jīng)網(wǎng)絡(luò)對(duì)SARS傳播的預(yù)測(cè)[J];微計(jì)算機(jī)信息;2010年27期

4 ;Boosting a Less Known Job[J];Beijing Review;2011年52期

5 徐遠(yuǎn)平;汪尤利;;數(shù)據(jù)挖掘在高校突發(fā)公共衛(wèi)生事件預(yù)警和控制中的應(yīng)用[J];現(xiàn)代預(yù)防醫(yī)學(xué);2007年17期

6 陳明;;醫(yī)學(xué)數(shù)據(jù)挖掘綜述[J];醫(yī)學(xué)信息;2008年01期

7 黃秋燕;金京皓;沈岳龍;鄭暉;;數(shù)據(jù)挖掘在醫(yī)學(xué)信息中的應(yīng)用[J];醫(yī)學(xué)信息(上旬刊);2010年08期

8 孫哲豐;王迎利;;中國藥品電子監(jiān)管數(shù)據(jù)挖掘現(xiàn)狀的分析與思考[J];中國醫(yī)藥導(dǎo)刊;2014年06期

9 劉春艷,張愛連,胡鐵軍;數(shù)據(jù)挖掘及其在信息服務(wù)業(yè)應(yīng)用的研究現(xiàn)狀[J];醫(yī)學(xué)情報(bào)工作;2004年06期

10 ;統(tǒng)計(jì)分析與數(shù)據(jù)挖掘的優(yōu)秀工作平臺(tái)[J];中國醫(yī)院統(tǒng)計(jì);2006年02期


相關(guān)博士學(xué)位論文 前10條

1 高尉;Boosting方法的理論研究[D];南京大學(xué);2014年

2 于自強(qiáng);海量流數(shù)據(jù)挖掘相關(guān)問題研究[D];山東大學(xué);2015年

3 張馨;全基因組SNP芯片應(yīng)用于CNV和L0H分析的軟件比對(duì)與數(shù)據(jù)挖掘[D];復(fù)旦大學(xué);2011年

4 彭計(jì)紅;基于數(shù)據(jù)挖掘的癡呆中醫(yī)證的研究[D];南京中醫(yī)藥大學(xué);2015年

5 李秋虹;基于MapReduce的大規(guī)模數(shù)據(jù)挖掘技術(shù)研究[D];復(fù)旦大學(xué);2013年

6 鄔文帥;基于多目標(biāo)決策的數(shù)據(jù)挖掘方法評(píng)估與應(yīng)用[D];電子科技大學(xué);2015年

7 謝邦彥;整合數(shù)據(jù)挖掘與TRIZ理論的質(zhì)量管理方法研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2010年

8 何偉全;云南高校學(xué)生意外傷害因素關(guān)聯(lián)規(guī)則挖掘及風(fēng)險(xiǎn)管控體系研究[D];昆明理工大學(xué);2015年

9 段功豪;基于多結(jié)構(gòu)數(shù)據(jù)挖掘的滑坡災(zāi)害預(yù)測(cè)模型研究[D];中國地質(zhì)大學(xué);2016年

10 白曉明;基于數(shù)據(jù)挖掘的復(fù)合材料宏—細(xì)觀力學(xué)模型研究[D];哈爾濱工業(yè)大學(xué);2016年


相關(guān)碩士學(xué)位論文 前10條

1 劉玉堯;基于Gradient Boosting算法的海量健康數(shù)據(jù)挖掘研究與應(yīng)用[D];北京郵電大學(xué);2017年

2 嚴(yán)愛玉;基于Stockwell變換與Boosting算法的自動(dòng)癲癇檢測(cè)[D];山東大學(xué);2015年

3 賈璋衡;基于隨機(jī)森林和boosting思想的推薦算法的研究[D];廣西師范大學(xué);2015年

4 郭連坤;基于多核Boosting多特征組合高光譜分類技術(shù)研究[D];西安科技大學(xué);2015年

5 翟璐;一種基于Boosting算法的新模型在銀行信用評(píng)級(jí)中的應(yīng)用[D];北京交通大學(xué);2016年

6 胡東;韭菜表面農(nóng)藥殘留的可見—近紅外光譜分析方法研究[D];西安科技大學(xué);2015年

7 甘志鵬;基于非負(fù)編碼Boosting的目標(biāo)跟蹤算法研究[D];西安電子科技大學(xué);2015年

8 蔡小龍;正則化Boosting算法的一致性[D];湖北大學(xué);2016年

9 曾慶尚;基于Boosting策略的啟動(dòng)子預(yù)測(cè)方法研究[D];煙臺(tái)大學(xué);2009年

10 姚睿;基于代價(jià)敏感Boosting算法的醫(yī)學(xué)影像分析方法研究[D];上海交通大學(xué);2011年



本文編號(hào):2860385

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2860385.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶33ce7***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com