最大信息系數(shù)的算法分析及改進(jìn)
發(fā)布時(shí)間:2021-08-21 19:49
在如今這個(gè)信息爆炸的時(shí)代,海量數(shù)據(jù)已經(jīng)成為當(dāng)今世界最顯著的特征之一,研究數(shù)據(jù)之間的關(guān)聯(lián)性成為科學(xué)界的研究熱點(diǎn)。為了衡量事物之間是否關(guān)聯(lián)以及如何關(guān)聯(lián),統(tǒng)計(jì)相關(guān)性分析應(yīng)運(yùn)而生。其中使用較為廣泛的有皮爾遜(Pearson)系數(shù),斯皮爾曼系數(shù)(Spearman)和肯德爾(Kendall)系數(shù)等,但是這些相關(guān)性分析方法由于自身的局限性,并不能對(duì)廣泛的關(guān)系類型做出檢測。因此,2011年Reshef等人引入了一種新的相關(guān)性分析方法——最大信息系數(shù)(the maximal information coefficient,MIC),該方法一經(jīng)提出便在科學(xué)界引起了廣泛的討論。最大信息系數(shù)相較其他的統(tǒng)計(jì)量而言,擁有兩個(gè)優(yōu)良性質(zhì)——廣泛性和均勻性。但是作為計(jì)算機(jī)密集型(computer-intensive)方法,最大信息系數(shù)的精確解計(jì)算難度非常大,為了能夠得到變量之間最大信息系數(shù)的近似解,Reshef等人提出了兩變量MIC近似算法。本文主要針對(duì)Reshef等人提出的兩變量最大信息系數(shù)的定義及近似算法進(jìn)行分析,并對(duì)其存在的缺陷不足做出改進(jìn)。首先,結(jié)合相關(guān)文獻(xiàn),本文分析研究了統(tǒng)計(jì)相關(guān)性領(lǐng)域的背景及國內(nèi)外研究現(xiàn)狀,...
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:80 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
相關(guān)系數(shù)時(shí)間軸
第一章 緒論7圖1.2 全文組織結(jié)構(gòu)本文共有五個(gè)章節(jié)。第一章的緒論,主要介紹了統(tǒng)計(jì)相關(guān)性的研究背景,國內(nèi)外研究現(xiàn)狀以及面臨的問題和挑戰(zhàn),之后進(jìn)行了本文主要工作,文章組織結(jié)構(gòu)安排和創(chuàng)新點(diǎn)的簡單介紹。第二章介紹了現(xiàn)下對(duì)于大數(shù)據(jù)中相關(guān)關(guān)系的挖掘主要使用的主流方法,并對(duì)其中的最大信息系數(shù)進(jìn)行了重點(diǎn)介紹,之后考慮并引入“粗粒度”的概念來解釋最大信息系數(shù)的本質(zhì),并借此闡述何謂歸一化處理,最后進(jìn)一步給出網(wǎng)格劃分優(yōu)劣評(píng)判原則,最后對(duì)于最大信息系數(shù)的兩個(gè)良好特性——廣泛性和均勻性進(jìn)行了分析。第三章首先介紹了根據(jù)定義的兩變量之間 MIC 的理想化算法并通過算例進(jìn)一步介紹了理想下兩變量之間的 MIC 該如何計(jì)算,分析了理想化的兩個(gè)變量之間 MIC 的精確解的計(jì)算難度,之后對(duì)現(xiàn)有的能夠快速得到兩個(gè)變量之間 MIC 近似解的兩變量 MIC 近似算法進(jìn)行了詳細(xì)介紹
也可以采用斯皮爾曼相關(guān)系數(shù),而不必去考慮樣本容量,樣本總體分布等因素。圖2.1 兩個(gè)隨機(jī)變量的散點(diǎn)圖(3)Kendall 相關(guān)系數(shù)在統(tǒng)計(jì)學(xué)中,Kendall[13]相關(guān)系數(shù)的主要思想是根據(jù)兩個(gè)變量之間序?qū)Φ囊恢滦詠砼袛嗥湎嚓P(guān)性, 一般用希臘字母τ來表示。假設(shè)兩個(gè)隨機(jī)變量分別為 和 (也可以看作兩個(gè)集合),它們的元素個(gè)數(shù)均為 ,兩個(gè)隨機(jī)變量取的第 (1 ≤ ≤ )個(gè)值記為 和 。 和 中對(duì)應(yīng)元素組成一個(gè)元素對(duì)集合 ,其包含的元素為( , ),(1 ≤ ≤ )。當(dāng)集合中任意兩個(gè)元素( , )和( , )的排行相同時(shí),即 > 且 > 或者 < 且 < 這兩個(gè)元素就被認(rèn)為是一致的,而當(dāng) > 且 < 或者 < 且 > ,認(rèn)為不一致,其余情況 = 或者 =
【參考文獻(xiàn)】:
期刊論文
[1]統(tǒng)計(jì)相關(guān)性分析方法研究進(jìn)展[J]. 樊嶸,孟大志,徐大舜. 數(shù)學(xué)建模及其應(yīng)用. 2014(01)
[2]相關(guān)系數(shù)含義的理解[J]. 陳永秀. 中國考試. 2011(07)
博士論文
[1]基于最大信息系數(shù)的復(fù)雜疾病全基因組關(guān)聯(lián)算法研究[D]. 劉漢明.電子科技大學(xué) 2015
本文編號(hào):3356230
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:80 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
相關(guān)系數(shù)時(shí)間軸
第一章 緒論7圖1.2 全文組織結(jié)構(gòu)本文共有五個(gè)章節(jié)。第一章的緒論,主要介紹了統(tǒng)計(jì)相關(guān)性的研究背景,國內(nèi)外研究現(xiàn)狀以及面臨的問題和挑戰(zhàn),之后進(jìn)行了本文主要工作,文章組織結(jié)構(gòu)安排和創(chuàng)新點(diǎn)的簡單介紹。第二章介紹了現(xiàn)下對(duì)于大數(shù)據(jù)中相關(guān)關(guān)系的挖掘主要使用的主流方法,并對(duì)其中的最大信息系數(shù)進(jìn)行了重點(diǎn)介紹,之后考慮并引入“粗粒度”的概念來解釋最大信息系數(shù)的本質(zhì),并借此闡述何謂歸一化處理,最后進(jìn)一步給出網(wǎng)格劃分優(yōu)劣評(píng)判原則,最后對(duì)于最大信息系數(shù)的兩個(gè)良好特性——廣泛性和均勻性進(jìn)行了分析。第三章首先介紹了根據(jù)定義的兩變量之間 MIC 的理想化算法并通過算例進(jìn)一步介紹了理想下兩變量之間的 MIC 該如何計(jì)算,分析了理想化的兩個(gè)變量之間 MIC 的精確解的計(jì)算難度,之后對(duì)現(xiàn)有的能夠快速得到兩個(gè)變量之間 MIC 近似解的兩變量 MIC 近似算法進(jìn)行了詳細(xì)介紹
也可以采用斯皮爾曼相關(guān)系數(shù),而不必去考慮樣本容量,樣本總體分布等因素。圖2.1 兩個(gè)隨機(jī)變量的散點(diǎn)圖(3)Kendall 相關(guān)系數(shù)在統(tǒng)計(jì)學(xué)中,Kendall[13]相關(guān)系數(shù)的主要思想是根據(jù)兩個(gè)變量之間序?qū)Φ囊恢滦詠砼袛嗥湎嚓P(guān)性, 一般用希臘字母τ來表示。假設(shè)兩個(gè)隨機(jī)變量分別為 和 (也可以看作兩個(gè)集合),它們的元素個(gè)數(shù)均為 ,兩個(gè)隨機(jī)變量取的第 (1 ≤ ≤ )個(gè)值記為 和 。 和 中對(duì)應(yīng)元素組成一個(gè)元素對(duì)集合 ,其包含的元素為( , ),(1 ≤ ≤ )。當(dāng)集合中任意兩個(gè)元素( , )和( , )的排行相同時(shí),即 > 且 > 或者 < 且 < 這兩個(gè)元素就被認(rèn)為是一致的,而當(dāng) > 且 < 或者 < 且 > ,認(rèn)為不一致,其余情況 = 或者 =
【參考文獻(xiàn)】:
期刊論文
[1]統(tǒng)計(jì)相關(guān)性分析方法研究進(jìn)展[J]. 樊嶸,孟大志,徐大舜. 數(shù)學(xué)建模及其應(yīng)用. 2014(01)
[2]相關(guān)系數(shù)含義的理解[J]. 陳永秀. 中國考試. 2011(07)
博士論文
[1]基于最大信息系數(shù)的復(fù)雜疾病全基因組關(guān)聯(lián)算法研究[D]. 劉漢明.電子科技大學(xué) 2015
本文編號(hào):3356230
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3356230.html
最近更新
教材專著