天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

非獨(dú)立同分布下K均值算法的改進(jìn)及在球員數(shù)據(jù)分析中的應(yīng)用研究

發(fā)布時(shí)間:2024-02-04 01:07
  互聯(lián)網(wǎng)時(shí)代的到來(lái)必將產(chǎn)生大量的數(shù)據(jù),數(shù)據(jù)挖掘則是從這些數(shù)據(jù)中用非平凡的方法來(lái)發(fā)現(xiàn)有價(jià)值的信息,聚類分析作為這些非平凡的方法之一,是數(shù)據(jù)挖掘中的一個(gè)重要研究領(lǐng)域。在聚類分析的相關(guān)算法中,K均值算法是其中的經(jīng)典算法之一,其簡(jiǎn)單、高效,但也存在一些缺陷,例如隨機(jī)選取聚類中心點(diǎn)容易導(dǎo)致聚類結(jié)果不穩(wěn)定,并且會(huì)受到一些離群點(diǎn)的影響,使得聚類結(jié)果往往只是局部最優(yōu)。此外,傳統(tǒng)K均值算法及目前對(duì)其改進(jìn)的算法都是在獨(dú)立同分布下進(jìn)行的。然而真實(shí)世界的數(shù)據(jù)往往是非獨(dú)立同分布的(Non-Independent and Identically Distribution,簡(jiǎn)寫(xiě)Non-IID),即屬性值、屬性、對(duì)象之間或多或少都會(huì)存在一些耦合或交互關(guān)系。如果忽略了這類關(guān)系,可能會(huì)導(dǎo)致數(shù)據(jù)中的重要信息丟失,從而影響聚類分析的結(jié)果。因此本文在Non-IID概念下對(duì)K均值算法進(jìn)行改進(jìn),并將優(yōu)化后的算法應(yīng)用到NBA球員數(shù)據(jù)中。本文的主要工作如下:在理論研究方面,主要分為兩個(gè)部分。第一部分,針對(duì)K均值算法隨機(jī)選取初始聚類中心以及易受離群點(diǎn)影響而導(dǎo)致聚類不穩(wěn)定的缺陷,提出一種獨(dú)立同分布下優(yōu)化K均值算法(Optimized K-m...

【文章頁(yè)數(shù)】:71 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖1.1NonIID-OPK算法思想框架

圖1.1NonIID-OPK算法思想框架

齊魯工業(yè)大學(xué)碩士學(xué)位論文5有NBA球員信息,其中包括球員個(gè)人資料信息(例如身高,體重,年齡,位置,年薪等)以及比賽數(shù)據(jù)信息(例如得分,籃板,助攻,蓋帽,搶斷,失誤,命中率等)。然后對(duì)所爬取的數(shù)據(jù)進(jìn)行預(yù)處理,清除其中噪聲和不一致的數(shù)據(jù),并根據(jù)分析任務(wù)選擇出其中較為關(guān)鍵的屬性因子。最....


圖2.1數(shù)據(jù)挖掘過(guò)程的大體步驟

圖2.1數(shù)據(jù)挖掘過(guò)程的大體步驟

第2章相關(guān)技術(shù)綜述8一個(gè)統(tǒng)一的數(shù)據(jù)倉(cāng)庫(kù)中。第二步是數(shù)據(jù)的選擇與變換,主要是從數(shù)據(jù)倉(cāng)庫(kù)中選擇并提取出與挖掘任務(wù)相關(guān)的數(shù)據(jù),并將這些數(shù)據(jù)通過(guò)處理轉(zhuǎn)換或統(tǒng)一成適合挖掘的形式。相關(guān)的數(shù)據(jù)變換方法有平滑、聚集、數(shù)據(jù)泛化、數(shù)據(jù)歸一化、屬性構(gòu)造等。第三步是進(jìn)行數(shù)據(jù)挖掘,主要是根據(jù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)....


圖2.2聚類算法分類

圖2.2聚類算法分類

第2章相關(guān)技術(shù)綜述14基于網(wǎng)格的方法(grid-basedmethods):該方法多用來(lái)處理大數(shù)據(jù)集,其主要思想是將大數(shù)據(jù)集中的數(shù)據(jù)對(duì)象進(jìn)行劃分,分割成一個(gè)個(gè)單元格的形式,然后再組合成網(wǎng)格結(jié)構(gòu),之后的分析操作都在這個(gè)已經(jīng)構(gòu)建好的網(wǎng)格結(jié)構(gòu)上執(zhí)行。所以這類方法在處理大量復(fù)雜的數(shù)據(jù)時(shí),....


圖2.3Non-IID和IID距離計(jì)算

圖2.3Non-IID和IID距離計(jì)算

?選擇。因?yàn)楸疚闹饕槍?duì)數(shù)值型數(shù)據(jù)進(jìn)行研究,所以選擇歐幾里得距離計(jì)算公式作為相似性度量公式,但是在相似性度量的計(jì)算上,Non-IID環(huán)境下和傳統(tǒng)獨(dú)立同分布環(huán)境下并不相同,其區(qū)別大體如圖2.3所示,如果想要計(jì)算中心點(diǎn)O到對(duì)象3之間的距離3,可以看出在傳統(tǒng)獨(dú)立同分布環(huán)境下,1、2、3....



本文編號(hào):3894944

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3894944.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4d577***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com