海量數(shù)據(jù)相關(guān)性判別算法研究及應(yīng)用
發(fā)布時(shí)間:2021-03-16 09:51
數(shù)據(jù)增長(zhǎng)速度比以往任何時(shí)候都快,到2020年,地球上的每個(gè)人每秒創(chuàng)造大約1.7兆字節(jié)的新信息。檢測(cè)大數(shù)據(jù)集中變量之間的關(guān)系在基因組學(xué),物理學(xué),政治學(xué)和經(jīng)濟(jì)學(xué)領(lǐng)域變得越來越普遍,這使得發(fā)現(xiàn)變量之間的關(guān)系成為一個(gè)日益嚴(yán)峻的挑戰(zhàn)。一般而言,在樣本量足夠大的情況下,我們希望能夠找到變量之間廣泛的關(guān)聯(lián),不僅限于特定的函數(shù)(如線性),而應(yīng)該是所有的函數(shù)關(guān)系。我們希望找到在不同類型的關(guān)系中具有相同噪音下的相似的分?jǐn)?shù)度量。在對(duì)基因數(shù)據(jù)的研究中,檢測(cè)與疾病關(guān)聯(lián)的致病基因的研究占有重要地位,是人們研究的重點(diǎn)問題。然而現(xiàn)有的大部分方法檢測(cè)手段時(shí)間長(zhǎng)、代價(jià)大,因此希望通過其他手段對(duì)致病基因做出檢測(cè)。而傳統(tǒng)的計(jì)算方法對(duì)于非線性的函數(shù)檢測(cè)效果差,為此,本文針對(duì)這兩點(diǎn)提出新的解決方法。本文的主要研究成果有:1.最大信息系數(shù)(MIC)是一種有效的探索數(shù)據(jù)關(guān)系的工具。MIC在將變量劃分成網(wǎng)格時(shí)窮盡所有劃分方法,并且該過程決定了MIC算法的時(shí)間在大數(shù)據(jù)集中計(jì)算復(fù)雜。我們通過提出一種新的近似算法,對(duì)MIC在大數(shù)據(jù)集中的應(yīng)用做出了重大改進(jìn),稱為CDMIC(使用Cluster Division的最大信息系數(shù))。首先,我們使用快...
【文章來源】:黑龍江大學(xué)黑龍江省
【文章頁數(shù)】:56 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
計(jì)算MICFigure2-1ComputingMIC上面的介紹過于抽象,下面我們舉例說明最大信息系數(shù)是如何計(jì)算的
點(diǎn)集Figure2-2.Pointset我們以該點(diǎn)集的一種劃分方法為例說明MIC方法的計(jì)算
點(diǎn)集劃分Figure2-3Pointsetdivision對(duì)于灰色的區(qū)域,概率計(jì)算如下所示
本文編號(hào):3085850
【文章來源】:黑龍江大學(xué)黑龍江省
【文章頁數(shù)】:56 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
計(jì)算MICFigure2-1ComputingMIC上面的介紹過于抽象,下面我們舉例說明最大信息系數(shù)是如何計(jì)算的
點(diǎn)集Figure2-2.Pointset我們以該點(diǎn)集的一種劃分方法為例說明MIC方法的計(jì)算
點(diǎn)集劃分Figure2-3Pointsetdivision對(duì)于灰色的區(qū)域,概率計(jì)算如下所示
本文編號(hào):3085850
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3085850.html
最近更新
教材專著