非獨(dú)立同分布下K均值算法的改進(jìn)及在球員數(shù)據(jù)分析中的應(yīng)用研究
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.1NonIID-OPK算法思想框架
齊魯工業(yè)大學(xué)碩士學(xué)位論文5有NBA球員信息,其中包括球員個(gè)人資料信息(例如身高,體重,年齡,位置,年薪等)以及比賽數(shù)據(jù)信息(例如得分,籃板,助攻,蓋帽,搶斷,失誤,命中率等)。然后對所爬取的數(shù)據(jù)進(jìn)行預(yù)處理,清除其中噪聲和不一致的數(shù)據(jù),并根據(jù)分析任務(wù)選擇出其中較為關(guān)鍵的屬性因子。最....
圖2.1數(shù)據(jù)挖掘過程的大體步驟
第2章相關(guān)技術(shù)綜述8一個(gè)統(tǒng)一的數(shù)據(jù)倉庫中。第二步是數(shù)據(jù)的選擇與變換,主要是從數(shù)據(jù)倉庫中選擇并提取出與挖掘任務(wù)相關(guān)的數(shù)據(jù),并將這些數(shù)據(jù)通過處理轉(zhuǎn)換或統(tǒng)一成適合挖掘的形式。相關(guān)的數(shù)據(jù)變換方法有平滑、聚集、數(shù)據(jù)泛化、數(shù)據(jù)歸一化、屬性構(gòu)造等。第三步是進(jìn)行數(shù)據(jù)挖掘,主要是根據(jù)數(shù)據(jù)庫中的數(shù)據(jù)....
圖2.2聚類算法分類
第2章相關(guān)技術(shù)綜述14基于網(wǎng)格的方法(grid-basedmethods):該方法多用來處理大數(shù)據(jù)集,其主要思想是將大數(shù)據(jù)集中的數(shù)據(jù)對象進(jìn)行劃分,分割成一個(gè)個(gè)單元格的形式,然后再組合成網(wǎng)格結(jié)構(gòu),之后的分析操作都在這個(gè)已經(jīng)構(gòu)建好的網(wǎng)格結(jié)構(gòu)上執(zhí)行。所以這類方法在處理大量復(fù)雜的數(shù)據(jù)時(shí),....
圖2.3Non-IID和IID距離計(jì)算
?選擇。因?yàn)楸疚闹饕槍?shù)值型數(shù)據(jù)進(jìn)行研究,所以選擇歐幾里得距離計(jì)算公式作為相似性度量公式,但是在相似性度量的計(jì)算上,Non-IID環(huán)境下和傳統(tǒng)獨(dú)立同分布環(huán)境下并不相同,其區(qū)別大體如圖2.3所示,如果想要計(jì)算中心點(diǎn)O到對象3之間的距離3,可以看出在傳統(tǒng)獨(dú)立同分布環(huán)境下,1、2、3....
本文編號:3894944
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3894944.html