天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于分類技術(shù)的基因特征選取算法的研究

發(fā)布時(shí)間:2018-04-14 00:25

  本文選題:基因表達(dá)譜數(shù)據(jù) + 特征選取。 參考:《北京郵電大學(xué)》2016年碩士論文


【摘要】:目前,以生物信息學(xué)(Bioinformatics)為背景的研究廣泛開(kāi)展,研究人員利用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等數(shù)據(jù)分析方法來(lái)發(fā)現(xiàn)大量數(shù)據(jù)所隱含的各種規(guī)律從而解決實(shí)際問(wèn)題;诨驒z測(cè)和數(shù)據(jù)分析技術(shù),通過(guò)對(duì)基因表達(dá)譜數(shù)據(jù)(Gene expression profile data)的研究分析,可以精確識(shí)別不同的癌癥類型,給針對(duì)性的臨床治療提供方案和依據(jù)。隨著人類基因組計(jì)劃的進(jìn)行,基因表達(dá)譜數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),傳統(tǒng)的數(shù)據(jù)分析和研究遠(yuǎn)遠(yuǎn)達(dá)不到生物信息學(xué)的要求。基因表達(dá)譜數(shù)據(jù)樣本空間小、基因種類多的特性給現(xiàn)有的常規(guī)數(shù)據(jù)挖掘方式帶來(lái)了巨大的障礙。基因特征選取通過(guò)去除大量不相關(guān)的和冗余的基因來(lái)尋找相關(guān)基因,是建立有效分類模型的基礎(chǔ),是解決高維小樣本問(wèn)題的有效手段;谏厦娴姆治,本論文首先分析和研究了基因表達(dá)譜數(shù)據(jù)和特征選取的概念,其次提出了基于分類技術(shù)的基因特征選取算法,最后進(jìn)行了具體的測(cè)驗(yàn)和分析。為了提高算法的穩(wěn)定性,首先建立了間隔空間,用來(lái)描述原始特征空間中樣本之間的距離,并計(jì)算每個(gè)樣本的權(quán)重,建立了樣本權(quán)重模型。在加權(quán)樣本數(shù)據(jù)的基礎(chǔ)上,以改進(jìn)信息度量作為評(píng)價(jià)準(zhǔn)則衡量基因信息量的大小,建立未消噪和消噪的基因特征初步選取模型。然后在初步選取模型的基礎(chǔ)上,用浮動(dòng)順序替換搜索算法得到不同大小的基因特征組合,結(jié)合SVM分類器對(duì)上述基因特征組合進(jìn)行性能評(píng)估并得到信息基因集合。接下來(lái)為了進(jìn)一步提高算法的性能,結(jié)合集成思想提出了改進(jìn)的特征選取算法:首先將多種排序準(zhǔn)則相結(jié)合,在一定程度上對(duì)不同排序準(zhǔn)則各自的缺陷進(jìn)行彌補(bǔ),并有效提高分類的準(zhǔn)確率。其次,加入部分具有確定性的先驗(yàn)基因,利用人工神經(jīng)網(wǎng)絡(luò)對(duì)模糊權(quán)值的優(yōu)化來(lái)實(shí)現(xiàn)其確定先驗(yàn)基因與不確定基因信息之間的組合,建立具有自適應(yīng)能力的選取模型。結(jié)合支持向量機(jī)、邏輯回歸、神經(jīng)網(wǎng)絡(luò)和決策樹(shù)4種分類器,將所提模型與經(jīng)典特征選取模型進(jìn)行比較分析。經(jīng)過(guò)實(shí)驗(yàn)分析發(fā)現(xiàn),本文所提選取模型在保證分類性能的前提下,具有較好的穩(wěn)定性。
[Abstract]:At present, the research on Bioinformatics is widely carried out. Researchers use machine learning, data mining and other data analysis methods to find the hidden laws of a large number of data to solve practical problems.Based on gene detection and data analysis, gene expression profile data can be used to identify different types of cancer accurately, and to provide the scheme and basis for targeted clinical treatment.With the progress of the Human Genome Project, the data of gene expression profile is increasing exponentially. Traditional data analysis and research can not meet the requirements of bioinformatics.The characteristics of small sample space and large number of genes in gene expression profiles bring great obstacles to the existing conventional data mining methods.Gene feature selection by removing a large number of unrelated and redundant genes to find related genes is the basis for establishing an effective classification model and an effective means to solve the problem of high-dimensional small samples.Based on the above analysis, this paper first analyzes and studies the concept of gene expression profile data and feature selection, then proposes a gene feature selection algorithm based on classification technology, and finally carries out a specific test and analysis.In order to improve the stability of the algorithm, a spacer space is established to describe the distance between samples in the original feature space, and the weight of each sample is calculated, and a sample weight model is established.On the basis of weighted sample data, the improved information metric is used as the evaluation criterion to measure the size of gene information, and a preliminary selection model of undenoised and de-noised gene features is established.Then, on the basis of the preliminary selection of the model, the floating sequence substitution search algorithm is used to obtain different size gene feature combinations. The performance of the combination is evaluated with SVM classifier and the information gene set is obtained.Then, in order to further improve the performance of the algorithm, an improved feature selection algorithm is proposed in combination with the idea of integration. Firstly, a variety of sorting criteria are combined to make up for the defects of different sorting criteria to a certain extent.The accuracy of classification is improved effectively.Secondly, a partial deterministic priori gene is added to realize the combination of the priori gene and the uncertain gene information by using artificial neural network to optimize the fuzzy weights, and the selection model with adaptive ability is established.Combining support vector machine, logical regression, neural network and decision tree, the proposed model is compared with the classical feature selection model.The experimental results show that the model proposed in this paper has good stability on the premise of ensuring the classification performance.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:R-05;TP311.13

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王金仙,呂建新,帥茨霞,林峰,金晶;2例妊娠合并珠蛋白生成障礙性貧血患者的基因特征[J];浙江醫(yī)學(xué);2003年08期

2 崔愛(ài)利;朱貞;王常銀;王艷;周劍惠;吳宏偉;王爽;常新;檀曉娟;張燕;毛乃穎;許文波;;中國(guó)2006~2008年流行性腮腺炎病毒的基因特征分析[J];中國(guó)疫苗和免疫;2009年01期

3 張燕;王慧玲;謝正德;孔曉慧;劉春燕;申昆玲;郭學(xué)斌;許文波;;人呼吸道合胞病毒分離株基質(zhì)蛋白基因特征分析[J];中國(guó)疫苗和免疫;2009年01期

4 陳鵬;陶澤新;王海巖;劉堯;宋立志;劉桂芳;紀(jì)峰;徐愛(ài)強(qiáng);;柯薩奇病毒A組2、6、8、12型山東地方株型別鑒定及其基因特征分析[J];病毒學(xué)報(bào);2012年05期

5 潘浩;祖榮強(qiáng);陸小軍;朱鳳才;李亮;史智陽(yáng);鮑昌俊;李顯;鄧斐;汪華;;江蘇省首例人感染高致病性禽流感病例的確認(rèn)及其病原的基因特征研究[J];現(xiàn)代預(yù)防醫(yī)學(xué);2010年07期

6 崔愛(ài)利;許文波;李秀珠;胡家瑜;唐偉;;上海市2002年柯薩奇病毒A組16型基因特征分析[J];中國(guó)疫苗和免疫;2009年02期

7 李崇山;魯禮瑞;陸菁;翁康生;湯素文;丁曉光;劉敏勇;李云逸;胡家瑜;;水痘-帶狀皰疹病毒基因特征分析[J];疾病監(jiān)測(cè);2009年03期

8 田炳均;丁崢嶸;陸林;湯晶晶;張杰;羅梅;;人類?虏《6的基因特征分析[J];預(yù)防醫(yī)學(xué)情報(bào)雜志;2012年07期

9 劉桂艷;周劍惠;陳超;杜占森;常新;王爽;魏雷雷;林琳;王晶;張勇;張曉磊;;吉林省急性弛緩性麻痹病例和健康人群中柯薩奇病毒A組4型的基因特征分析[J];中國(guó)疫苗和免疫;2012年06期

10 秦志梅;崔大偉;謝國(guó)良;楊先知;鄭書(shū)發(fā);余斐;陳瑜;;浙江地區(qū)2012年麻疹病毒流行株基因特征研究[J];臨床檢驗(yàn)雜志;2013年02期

相關(guān)會(huì)議論文 前10條

1 黃平;;新型甲型H1N1流感基因特征[A];新發(fā)和再發(fā)傳染病防治熱點(diǎn)研討會(huì)論文集[C];2009年

2 侯金林;曾國(guó)兵;;乙型肝炎病毒基因型與變異[A];中華醫(yī)學(xué)會(huì)第十二次全國(guó)病毒性肝炎及肝病學(xué)術(shù)會(huì)議論文匯編[C];2005年

3 方苓;鄒麗容;黃平;陳秋霞;李暉;柯昌文;;人禽流感H_5N_1毒株NS基因特征和分子進(jìn)化[A];新發(fā)傳染病防治學(xué)習(xí)研討會(huì)論文集[C];2008年

4 劉艷;李康;傅松濱;;基于小波分析理論的基因表達(dá)譜數(shù)據(jù)分析方法的研究[A];中國(guó)的遺傳學(xué)研究——中國(guó)遺傳學(xué)會(huì)第七次代表大會(huì)暨學(xué)術(shù)討論會(huì)論文摘要匯編[C];2003年

5 張巖;張亮;周一鳴;安爽;果德安;周玉祥;曾令文;程京;;抗真菌物質(zhì)與酵母細(xì)胞作用后全基因表達(dá)譜的聚類法分析[A];第九次全國(guó)生物物理大會(huì)學(xué)術(shù)會(huì)議論文摘要集[C];2002年

6 朱明珠;高磊;李霞;;酵母基因表達(dá)相關(guān)性與蛋白質(zhì)互作網(wǎng)絡(luò)距離分析[A];中國(guó)生物醫(yī)學(xué)工程進(jìn)展——2007中國(guó)生物醫(yī)學(xué)工程聯(lián)合學(xué)術(shù)年會(huì)論文集(下冊(cè))[C];2007年

7 高瑞蘭;陳小紅;林筱潔;錢煦岱;徐衛(wèi)紅;吳超群;;三七皂苷誘導(dǎo)造血細(xì)胞基因表達(dá)譜的研究[A];中國(guó)細(xì)胞生物學(xué)學(xué)會(huì)2005年學(xué)術(shù)大會(huì)、青年學(xué)術(shù)研討會(huì)論文摘要集[C];2005年

8 許沈華;牟瀚舟;顧琳慧;朱赤紅;劉祥麟;;用基因芯片篩選高轉(zhuǎn)移卵巢癌轉(zhuǎn)移相關(guān)的基因[A];中國(guó)細(xì)胞生物學(xué)學(xué)會(huì)醫(yī)學(xué)細(xì)胞生物學(xué)學(xué)術(shù)大會(huì)論文集[C];2006年

9 包雷;過(guò)濤;孫之榮;;挖掘基因與抗癌藥物間可能的生物學(xué)關(guān)聯(lián)[A];第九次全國(guó)生物物理大會(huì)學(xué)術(shù)會(huì)議論文摘要集[C];2002年

10 邱廣斌;郝冬梅;宮立國(guó);李云慧;;腫瘤相關(guān)新基因MTLC的克隆及在腫瘤中的表達(dá)研究[A];第十屆全軍檢驗(yàn)醫(yī)學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2005年

相關(guān)重要報(bào)紙文章 前2條

1 記者 衣曉峰 通訊員 李小蓮;探尋“證”的基因表達(dá)譜[N];中國(guó)中醫(yī)藥報(bào);2009年

2 曉明;抑制一基因 “老”鼠換新膚[N];中國(guó)醫(yī)藥報(bào);2007年

相關(guān)博士學(xué)位論文 前10條

1 王翔;小麥溫光反應(yīng)的分子生物學(xué)研究[D];中國(guó)農(nóng)業(yè)科學(xué)院;2014年

2 牛月;NCA1在擬南芥感受鈉鹽脅迫過(guò)程中功能的研究[D];蘭州大學(xué);2012年

3 王作昭;長(zhǎng)白山林蛙蛙卵Onconase基因的克隆表達(dá)及其抗人乳腺癌作用研究[D];吉林大學(xué);2016年

4 周運(yùn);基于生物網(wǎng)絡(luò)的大鼠再生肝細(xì)胞基因表達(dá)譜數(shù)據(jù)分析[D];河南師范大學(xué);2016年

5 張文慧;白樺BPERF11基因響應(yīng)高鹽干旱脅迫的調(diào)控機(jī)理研究[D];東北林業(yè)大學(xué);2016年

6 張偉溪;楊樹(shù)抗逆轉(zhuǎn)錄因子基因遺傳轉(zhuǎn)化與功能驗(yàn)證[D];中國(guó)林業(yè)科學(xué)研究院;2014年

7 楊祖;皮膚組織特異性表達(dá)綿羊Wnt10b基因轉(zhuǎn)基因小鼠和轉(zhuǎn)基因綿羊研究[D];中國(guó)農(nóng)業(yè)大學(xué);2015年

8 盧智勇;小鼠卵巢生殖干細(xì)胞的建系及其基因編輯[D];華中科技大學(xué);2016年

9 王士奇;先天性肛門直腸畸形發(fā)病的基因網(wǎng)絡(luò)調(diào)控機(jī)制研究[D];重慶醫(yī)科大學(xué);2016年

10 王文輝;基于基因表達(dá)譜的結(jié)直腸癌的判別與分型[D];南方醫(yī)科大學(xué);2017年

相關(guān)碩士學(xué)位論文 前10條

1 張潔;基于分類技術(shù)的基因特征選取算法的研究[D];北京郵電大學(xué);2016年

2 冀天嬌;引起手足口病的柯薩奇病毒A組10型在中國(guó)的流行及基因特征[D];中國(guó)疾病預(yù)防控制中心;2014年

3 周方;社交網(wǎng)絡(luò)節(jié)點(diǎn)分類技術(shù)研究[D];遼寧大學(xué);2015年

4 李林林;面向不均衡數(shù)據(jù)的半監(jiān)督網(wǎng)絡(luò)流量分類技術(shù)研究與實(shí)現(xiàn)[D];解放軍信息工程大學(xué);2014年

5 董輝;基于混合方法的網(wǎng)絡(luò)流量分類技術(shù)研究[D];哈爾濱理工大學(xué);2014年

6 馮佳軍;暴力音頻場(chǎng)景分類技術(shù)研究與系統(tǒng)實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2016年

7 王小慧;基于單鏈接和期望最大化規(guī)則聚類的包分類技術(shù)[D];湖南師范大學(xué);2016年

8 趙月敏;CMFT體外抑瘤活性及對(duì)腫瘤細(xì)胞基因表達(dá)譜的影響[D];河北大學(xué);2015年

9 江月;家蠶TGF-β家族成員dpp和daw基因的功能研究[D];蘇州大學(xué);2015年

10 弓春玲;Hela細(xì)胞與人子宮內(nèi)膜基質(zhì)細(xì)胞中miRNA Let-7及其靶基因的關(guān)系研究[D];內(nèi)蒙古大學(xué);2015年

,

本文編號(hào):1746907

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1746907.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a8b0e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com