天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于機(jī)器學(xué)習(xí)方法的冷脅迫蛋白識(shí)別

發(fā)布時(shí)間:2018-08-07 09:59
【摘要】:冷脅迫對(duì)生物的生長(zhǎng)和生活有著極度嚴(yán)重的影響,尤其是對(duì)植物來(lái)說(shuō)。對(duì)植物的冷脅迫調(diào)節(jié)機(jī)制的研究,對(duì)相關(guān)的生物技術(shù)研究以及提高農(nóng)作物產(chǎn)量等都有重要意義。當(dāng)前,對(duì)植物冷脅迫蛋白的識(shí)別主要依靠人工進(jìn)行,這種方式費(fèi)時(shí)費(fèi)力。截止目前,通過(guò)前期的資料整理,對(duì)整個(gè)擬南芥的蛋白數(shù)據(jù)庫(kù)進(jìn)行統(tǒng)計(jì),已發(fā)現(xiàn)的與冷脅迫相關(guān)的蛋白僅有594條。所以,利用機(jī)器學(xué)習(xí)的方法,通過(guò)對(duì)已有的數(shù)據(jù)進(jìn)行訓(xùn)練和預(yù)測(cè),以為生物實(shí)驗(yàn)提供數(shù)據(jù)支持,具有一定的意義和研究?jī)r(jià)值。在本課題中,僅僅有正例的數(shù)據(jù)以及擬南芥的全部蛋白質(zhì)序列,其中在后者中包含很多的未發(fā)現(xiàn)的冷脅迫蛋白序列。所以,這里首先考慮了PU Learning方法,從理論上來(lái)講PU Learning是最合適的方法之一。將除正例數(shù)據(jù)之外的蛋白序列作為未標(biāo)記的數(shù)據(jù)。嘗試了PUCPI和LibD3C兩種當(dāng)前比較常用的PU Learning算法,但結(jié)果僅在50%上下。之后開(kāi)始采用常用的分類算法進(jìn)行嘗試,將之前的未標(biāo)記數(shù)據(jù)作為負(fù)例數(shù)據(jù)處理,并在LibSVM中得到了較好的結(jié)果。除了對(duì)分類算法的嘗試,實(shí)驗(yàn)中還嘗試了多種特征提取方法,如Pse-One、K-SkipN-Gram、Information Theory等,以及對(duì)多種特征提取方法的組合。此時(shí),分類的準(zhǔn)確率提高到了80%以上。在最后,一個(gè)新的負(fù)例集合被構(gòu)造出來(lái)(這樣可以有效的降低負(fù)例集中包含的未發(fā)現(xiàn)的冷脅迫蛋白的數(shù)量),并把分類準(zhǔn)確率提高到了85%左右,取得了較好的結(jié)果。在尋找到了一個(gè)較好的冷脅迫蛋白的預(yù)測(cè)方法后,對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行了整理并搭建了冷脅迫蛋白數(shù)據(jù)庫(kù)網(wǎng)站。網(wǎng)站采用了Maven、Spring Boot,Mybatis,Mysql、VUE等主流Java Web開(kāi)發(fā)技術(shù),主要使用Java語(yǔ)言進(jìn)行開(kāi)發(fā)。為使用者提供了對(duì)擬南芥冷脅迫蛋白進(jìn)行序列瀏覽、全文檢索(Lucence)、序列比對(duì)(Blast)與分類預(yù)測(cè)等功能。
[Abstract]:Cold stress has an extremely serious effect on the growth and life of organisms, especially for plants. The study on the regulation mechanism of plant cold stress is of great significance to the study of biotechnology and the improvement of crop yield. At present, the recognition of plant cold stress protein mainly depends on manual, which is time-consuming and laborious. Up to now, only 594 proteins related to cold stress have been found in the whole Arabidopsis protein database. Therefore, it is of significance and research value to provide data support for biological experiments by training and forecasting the existing data by using the method of machine learning. In this study, there are only positive data and all the protein sequences of Arabidopsis thaliana, in which there are many undiscovered cold stress protein sequences. Therefore, the pu Learning method is considered first. In theory, pu Learning is one of the most suitable methods. The protein sequences other than the positive data are taken as unlabeled data. Two popular pu Learning algorithms, PUCPI and LibD3C, are tried, but the results are only about 50%. Then the common classification algorithm was used to process the unlabeled data as negative case data, and a good result was obtained in LibSVM. In addition to the attempt of the classification algorithm, we also try a variety of feature extraction methods, such as Pse-Oneone-K-SkipN-Gram-GramInformation Theory, as well as the combination of various feature extraction methods. At this point, the accuracy of classification improved to more than 80%. Finally, a new negative case set is constructed (which can effectively reduce the number of undiscovered cold stress proteins contained in the negative case set), and the classification accuracy is improved to about 85%, and good results are obtained. After finding a better prediction method of cold stress protein, the existing data were sorted out and the database website of cold stress protein was set up. The website adopts the mainstream Java Web development technology, such as Maven Spring Boot Java Web. It mainly uses the Java language to develop. The users can browse the cold stress proteins of Arabidopsis thaliana and search the functions of (Lucence), sequence alignment (Blast) and classification prediction.
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:Q946.1;TP181

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 佘玉梅;一種協(xié)調(diào)機(jī)器學(xué)習(xí)方法研究[J];云南民族學(xué)院學(xué)報(bào)(自然科學(xué)版);2000年03期

2 王玨,石純一;機(jī)器學(xué)習(xí)研究[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年02期

3 張震;李軍利;;機(jī)器學(xué)習(xí)方法及其在生物信息學(xué)中的應(yīng)用[J];吉首大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年04期

4 許程;;機(jī)器學(xué)習(xí)的主要策略與基本結(jié)構(gòu)[J];科技資訊;2010年03期

5 黃蔚;;淺析機(jī)器學(xué)習(xí)及其在教育中的應(yīng)用[J];科技信息;2011年18期

6 曹加恒;湯怡群;姚唐;;機(jī)器學(xué)習(xí)研究[J];武漢大學(xué)學(xué)報(bào)(自然科學(xué)版);1988年01期

7 林士敏;機(jī)器學(xué)習(xí)概況[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);1989年02期

8 盧美律;張渡;;機(jī)器學(xué)習(xí):理論、方法及應(yīng)用[J];科學(xué);1995年02期

9 羅芳;李志亮;;基于分類的機(jī)器學(xué)習(xí)方法中的決策樹(shù)算法[J];寧德師專學(xué)報(bào)(自然科學(xué)版);2009年01期

10 李鈞濤;楊瑞峰;左紅亮;;統(tǒng)計(jì)機(jī)器學(xué)習(xí)研究[J];河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年06期

相關(guān)會(huì)議論文 前10條

1 王玨;;歸納機(jī)器學(xué)習(xí)[A];2001年中國(guó)智能自動(dòng)化會(huì)議論文集(上冊(cè))[C];2001年

2 王昊;李銀波;紀(jì)志梁;;利用機(jī)器學(xué)習(xí)方法預(yù)測(cè)嚴(yán)重藥物不良反應(yīng)-呼吸困難[A];中國(guó)化學(xué)會(huì)第28屆學(xué)術(shù)年會(huì)第13分會(huì)場(chǎng)摘要集[C];2012年

3 吳滄浦;;智能系統(tǒng)與機(jī)器學(xué)習(xí)的新領(lǐng)域[A];西部大開(kāi)發(fā) 科教先行與可持續(xù)發(fā)展——中國(guó)科協(xié)2000年學(xué)術(shù)年會(huì)文集[C];2000年

4 周晴杰;徐立鴻;吳啟迪;;機(jī)器學(xué)習(xí)串級(jí)結(jié)構(gòu)的初步探討[A];1998年中國(guó)控制會(huì)議論文集[C];1998年

5 李剛;郭崇慧;林鴻飛;楊志豪;唐煥文;;基于詞典法和機(jī)器學(xué)習(xí)法相結(jié)合的蛋白質(zhì)名識(shí)別[A];大連理工大學(xué)生物醫(yī)學(xué)工程學(xué)術(shù)論文集(第2卷)[C];2005年

6 徐禮勝;李乃民;王寬全;張冬雨;耿斌;姜曉睿;陳超海;羅貴存;;機(jī)器學(xué)習(xí)在中醫(yī)計(jì)算機(jī)診斷識(shí)別系統(tǒng)中的應(yīng)用思考[A];第一屆全國(guó)中西醫(yī)結(jié)合診斷學(xué)術(shù)會(huì)議論文選集[C];2006年

7 蔡健平;林世平;;基于機(jī)器學(xué)習(xí)的詞語(yǔ)和句子極性分析[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

8 黃金鐵;李景銀;周建常;;對(duì)高爐爐況評(píng)價(jià)模型參數(shù)的機(jī)器學(xué)習(xí)——一個(gè)三類線性模式分類器的實(shí)現(xiàn)[A];1995中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1995年

9 程國(guó)建;蔡磊;潘華賢;;核向量機(jī)在大規(guī)模機(jī)器學(xué)習(xí)中的應(yīng)用[A];第十一屆中國(guó)青年信息與管理學(xué)者大會(huì)論文集[C];2009年

10 張鈸;張鈴;;統(tǒng)計(jì)學(xué)習(xí)理論及其應(yīng)用[A];2001年中國(guó)智能自動(dòng)化會(huì)議論文集(上冊(cè))[C];2001年

相關(guān)重要報(bào)紙文章 前10條

1 黎驪/文 [美] Tom M.Mitchell 著;機(jī)器學(xué)習(xí)與智能化社會(huì)[N];中國(guó)郵政報(bào);2003年

2 IBM大數(shù)據(jù)專家 James Kobielus 范范 編譯;機(jī)器學(xué)習(xí)已成為大數(shù)據(jù)基石[N];網(wǎng)絡(luò)世界;2014年

3 本報(bào)記者 房琳琳;合久必分:分布式“機(jī)器學(xué)習(xí)”應(yīng)運(yùn)而生[N];科技日?qǐng)?bào);2014年

4 雨辰;機(jī)器學(xué)習(xí)類圖書(shū)為什么火爆[N];中華讀書(shū)報(bào);2014年

5 百度公司技術(shù)副總監(jiān) 多媒體部負(fù)責(zé)人 余凱;深度學(xué)習(xí)與多媒體搜索技術(shù)演進(jìn)[N];中國(guó)信息化周報(bào);2013年

6 本報(bào)記者 余建斌;機(jī)器學(xué)習(xí)與互聯(lián)網(wǎng)搜索[N];人民日?qǐng)?bào);2011年

7 本報(bào)記者 張曄邋通訊員 李瑋;周志華:永不墨守成規(guī)[N];科技日?qǐng)?bào);2008年

8 記者  彭德倩;機(jī)器學(xué)習(xí)精度提升近6個(gè)百分點(diǎn)[N];解放日?qǐng)?bào);2006年

9 本報(bào)記者 閔杰;大數(shù)據(jù)熱 高端人才缺[N];中國(guó)電子報(bào);2013年

10 沈建苗 編譯;如何成為大數(shù)據(jù)科學(xué)家[N];計(jì)算機(jī)世界;2013年

相關(guān)博士學(xué)位論文 前10條

1 董春茹;機(jī)器學(xué)習(xí)中的權(quán)重學(xué)習(xí)與差分演化[D];華南理工大學(xué);2015年

2 姚明臣;機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中的若干問(wèn)題研究[D];大連理工大學(xué);2016年

3 Maxim Pecionchin;[D];對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué);2016年

4 杜宇;基于深度機(jī)器學(xué)習(xí)的體態(tài)與手勢(shì)感知計(jì)算關(guān)鍵技術(shù)研究[D];浙江大學(xué);2017年

5 鐘錦紅;群智學(xué)習(xí)若干問(wèn)題研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2017年

6 趙東;基于群智能優(yōu)化的機(jī)器學(xué)習(xí)方法研究及應(yīng)用[D];吉林大學(xué);2017年

7 魯路;基于機(jī)器學(xué)習(xí)優(yōu)化分子對(duì)接篩選腎衰營(yíng)養(yǎng)膠囊有效成分[D];南方醫(yī)科大學(xué);2017年

8 趙玉鵬;機(jī)器學(xué)習(xí)的哲學(xué)探索[D];大連理工大學(xué);2010年

9 胡巍;面向格結(jié)構(gòu)的機(jī)器學(xué)習(xí)[D];上海交通大學(xué);2009年

10 張義榮;基于機(jī)器學(xué)習(xí)的入侵檢測(cè)技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2005年

相關(guān)碩士學(xué)位論文 前10條

1 毛海斌;基于半監(jiān)督機(jī)器學(xué)習(xí)的情感分類領(lǐng)域適應(yīng)問(wèn)題研究[D];南京理工大學(xué);2015年

2 安軍輝;基于微博數(shù)據(jù)的微博用戶性別判斷研究[D];華中師范大學(xué);2015年

3 陳召陽(yáng);基于機(jī)器學(xué)習(xí)的改性麥槽吸附重金屬構(gòu)效關(guān)系模型研究[D];江西理工大學(xué);2014年

4 王成;基于半監(jiān)督機(jī)器學(xué)習(xí)的文本情感分析技術(shù)[D];南京理工大學(xué);2015年

5 孫科;基于Spark的機(jī)器學(xué)習(xí)應(yīng)用框架研究與實(shí)現(xiàn)[D];上海交通大學(xué);2015年

6 劉江龍;基于機(jī)器學(xué)習(xí)的射頻指紋定位方法研究[D];電子科技大學(xué);2015年

7 張蕾;基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)輿情采集技術(shù)研究與設(shè)計(jì)[D];電子科技大學(xué);2014年

8 施宇;基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的木馬檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年

9 施應(yīng)敏;基于機(jī)器學(xué)習(xí)的Femtocell信道頻譜與功率資源分配算法的研究[D];南京郵電大學(xué);2015年

10 裴松年;基于機(jī)器學(xué)習(xí)的分類算法研究[D];中北大學(xué);2016年



本文編號(hào):2169669

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2169669.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3d406***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com