Web數(shù)據(jù)挖掘中PageRank和K m eans算法的改進(jìn)研究
發(fā)布時(shí)間:2021-03-30 13:54
自20世紀(jì)90年代以來,互聯(lián)網(wǎng)和萬維網(wǎng)得到了迅猛發(fā)展,其功能和業(yè)務(wù)也在不斷擴(kuò)展和增加,這使得它們成為21世紀(jì)用戶獲取資源、數(shù)據(jù)和信息的主要場(chǎng)所,這也使得Web數(shù)據(jù)挖掘的任務(wù)迫在眉睫。當(dāng)前,kmeans算法是最經(jīng)典和使用最廣泛的劃分聚類算法,而PageRank算法是Web結(jié)構(gòu)挖掘中使用最廣泛的算法;诖,研究了這兩種算法的原理,并提出了兩種算法的改進(jìn)方法。傳統(tǒng)kmeans算法選擇初始聚類中心的方法是隨機(jī)數(shù)法,這種方法易產(chǎn)生聚類結(jié)果陷入局部最優(yōu)解和聚類精度低的問題,而且聚類結(jié)果受孤立點(diǎn)的影響很大。為了解決這一問題,提出了一種基于密度標(biāo)準(zhǔn)差的kmeans改進(jìn)算法。首先計(jì)算數(shù)據(jù)集樣本的平均值和標(biāo)準(zhǔn)差,接著計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的密度分布函數(shù)值,然后計(jì)算樣本的平均密度和密度標(biāo)準(zhǔn)差,若某一數(shù)據(jù)點(diǎn)的密度分布函數(shù)值小于樣本的密度標(biāo)準(zhǔn)差,則劃分為孤立點(diǎn);搜索密度分布函數(shù)值數(shù)組中的最大值,那么最大值對(duì)應(yīng)的樣本點(diǎn)即為初始聚類中心,并將以初始聚類中心為原點(diǎn),以樣本平均值為半徑的圓內(nèi)各點(diǎn)的密度函數(shù)值賦值為0,如此重復(fù),直到找到k個(gè)初始聚類中心。傳統(tǒng)Pa...
【文章來源】:蘭州交通大學(xué)甘肅省
【文章頁(yè)數(shù)】:55 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Web數(shù)據(jù)挖掘的分類
圖 3.1 數(shù)據(jù)集集如圖 3.1 所示,共有 8 個(gè)數(shù)據(jù)點(diǎn),聚類成 2 類。選取 B 和,計(jì)算其它數(shù)據(jù)點(diǎn)到 B 和 D 的距離,如表 3.1 所示。根據(jù)比A,D,F,H 為一個(gè)聚類,如圖 3.2 所示。B,C,E,G 數(shù)據(jù)點(diǎn)組成D,F,H 數(shù)據(jù)點(diǎn)組成的聚類中,2 為聚類中心。表 3.1 數(shù)據(jù)點(diǎn)到初始聚類中心的距離聚類中心 B 聚類中心 D 0.81 0.63 0.00 0.36 0.50 0.71 0.36 0.00 1.50 1.52 1.89 1.77 2.02 2.06 2.62 2.58
圖 3.1 數(shù)據(jù)集集如圖 3.1 所示,共有 8 個(gè)數(shù)據(jù)點(diǎn),聚類成 2 類。選取 B 和,計(jì)算其它數(shù)據(jù)點(diǎn)到 B 和 D 的距離,如表 3.1 所示。根據(jù)比A,D,F,H 為一個(gè)聚類,如圖 3.2 所示。B,C,E,G 數(shù)據(jù)點(diǎn)組成D,F,H 數(shù)據(jù)點(diǎn)組成的聚類中,2 為聚類中心。表 3.1 數(shù)據(jù)點(diǎn)到初始聚類中心的距離聚類中心 B 聚類中心 D 0.81 0.63 0.00 0.36 0.50 0.71 0.36 0.00 1.50 1.52 1.89 1.77 2.02 2.06 2.62 2.58
【參考文獻(xiàn)】:
期刊論文
[1]基于PageRank的多維度微博用戶影響力度量[J]. 羅芳,徐陽(yáng),蒲秋梅,邱奇志. 計(jì)算機(jī)應(yīng)用研究. 2020(05)
[2]基于PageRank改進(jìn)的文獻(xiàn)排名算法研究[J]. 王丹. 計(jì)算機(jī)時(shí)代. 2019(01)
[3]結(jié)合初始中心優(yōu)化和特征加權(quán)的K-Means聚類算法[J]. 王宏杰,師彥文. 計(jì)算機(jī)科學(xué). 2017(S2)
[4]類簇?cái)?shù)目和初始中心點(diǎn)自確定的K-means算法[J]. 賈瑞玉,李玉功. 計(jì)算機(jī)工程與應(yīng)用. 2018(07)
[5]基于用戶興趣與主題相關(guān)的PageRank算法改進(jìn)研究[J]. 王沖,紀(jì)仙慧. 計(jì)算機(jī)科學(xué). 2016(03)
[6]基于主題相關(guān)性和時(shí)間因素的改進(jìn)PageRank算法[J]. 耿瑞,李石君,尹為民. 微電子學(xué)與計(jì)算機(jī). 2015(08)
[7]基于平均密度優(yōu)化初始聚類中心的k-means算法[J]. 邢長(zhǎng)征,谷浩. 計(jì)算機(jī)工程與應(yīng)用. 2014(20)
[8]用戶差別化和主題敏感的PageRank算法[J]. 馬海波,楊楠,于新興. 大連交通大學(xué)學(xué)報(bào). 2013(04)
[9]基于重啟型隨機(jī)游走模型的圖上關(guān)鍵字搜索[J]. 蔣凱,關(guān)佶紅. 計(jì)算機(jī)工程. 2011(03)
[10]PageRank算法的分析及其改進(jìn)[J]. 王德廣,周志剛,梁旭. 計(jì)算機(jī)工程. 2010(22)
博士論文
[1]Web結(jié)構(gòu)挖掘與高維數(shù)據(jù)挖掘研究[D]. 于紅.大連理工大學(xué) 2012
[2]數(shù)據(jù)挖掘中聚類方法的研究[D]. 王莉.天津大學(xué) 2004
碩士論文
[1]數(shù)據(jù)挖掘分類算法的改進(jìn)研究[D]. 陳潔.南京郵電大學(xué) 2018
[2]基于python的Web數(shù)據(jù)挖掘技術(shù)研究與實(shí)現(xiàn)[D]. 劉熠.長(zhǎng)江大學(xué) 2018
[3]基于PageRank算法的Web數(shù)據(jù)挖掘的研究[D]. 鄭普亨.天津理工大學(xué) 2017
[4]PageRank算法應(yīng)用在文獻(xiàn)檢索排序中的研究及改進(jìn)[D]. 汪志偉.南昌大學(xué) 2016
[5]基于改進(jìn)PageRank算法的網(wǎng)頁(yè)排序問題研究[D]. 周秋麗.哈爾濱理工大學(xué) 2016
[6]K-means聚類方法的改進(jìn)及其應(yīng)用[D]. 李薈嬈.東北農(nóng)業(yè)大學(xué) 2014
[7]基于改進(jìn)PageRank算法和用戶興趣的個(gè)性化搜索研究[D]. 張梅芳.河北工業(yè)大學(xué) 2014
[8]基于密度的分布式聚類算法的研究[D]. 毛銳.吉林大學(xué) 2012
[9]Web結(jié)構(gòu)挖掘算法的改進(jìn)研究[D]. 傅曉波.北京郵電大學(xué) 2012
[10]Web結(jié)構(gòu)挖掘中PageRank算法研究[D]. 范聰賢.蘇州大學(xué) 2009
本文編號(hào):3109620
【文章來源】:蘭州交通大學(xué)甘肅省
【文章頁(yè)數(shù)】:55 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Web數(shù)據(jù)挖掘的分類
圖 3.1 數(shù)據(jù)集集如圖 3.1 所示,共有 8 個(gè)數(shù)據(jù)點(diǎn),聚類成 2 類。選取 B 和,計(jì)算其它數(shù)據(jù)點(diǎn)到 B 和 D 的距離,如表 3.1 所示。根據(jù)比A,D,F,H 為一個(gè)聚類,如圖 3.2 所示。B,C,E,G 數(shù)據(jù)點(diǎn)組成D,F,H 數(shù)據(jù)點(diǎn)組成的聚類中,2 為聚類中心。表 3.1 數(shù)據(jù)點(diǎn)到初始聚類中心的距離聚類中心 B 聚類中心 D 0.81 0.63 0.00 0.36 0.50 0.71 0.36 0.00 1.50 1.52 1.89 1.77 2.02 2.06 2.62 2.58
圖 3.1 數(shù)據(jù)集集如圖 3.1 所示,共有 8 個(gè)數(shù)據(jù)點(diǎn),聚類成 2 類。選取 B 和,計(jì)算其它數(shù)據(jù)點(diǎn)到 B 和 D 的距離,如表 3.1 所示。根據(jù)比A,D,F,H 為一個(gè)聚類,如圖 3.2 所示。B,C,E,G 數(shù)據(jù)點(diǎn)組成D,F,H 數(shù)據(jù)點(diǎn)組成的聚類中,2 為聚類中心。表 3.1 數(shù)據(jù)點(diǎn)到初始聚類中心的距離聚類中心 B 聚類中心 D 0.81 0.63 0.00 0.36 0.50 0.71 0.36 0.00 1.50 1.52 1.89 1.77 2.02 2.06 2.62 2.58
【參考文獻(xiàn)】:
期刊論文
[1]基于PageRank的多維度微博用戶影響力度量[J]. 羅芳,徐陽(yáng),蒲秋梅,邱奇志. 計(jì)算機(jī)應(yīng)用研究. 2020(05)
[2]基于PageRank改進(jìn)的文獻(xiàn)排名算法研究[J]. 王丹. 計(jì)算機(jī)時(shí)代. 2019(01)
[3]結(jié)合初始中心優(yōu)化和特征加權(quán)的K-Means聚類算法[J]. 王宏杰,師彥文. 計(jì)算機(jī)科學(xué). 2017(S2)
[4]類簇?cái)?shù)目和初始中心點(diǎn)自確定的K-means算法[J]. 賈瑞玉,李玉功. 計(jì)算機(jī)工程與應(yīng)用. 2018(07)
[5]基于用戶興趣與主題相關(guān)的PageRank算法改進(jìn)研究[J]. 王沖,紀(jì)仙慧. 計(jì)算機(jī)科學(xué). 2016(03)
[6]基于主題相關(guān)性和時(shí)間因素的改進(jìn)PageRank算法[J]. 耿瑞,李石君,尹為民. 微電子學(xué)與計(jì)算機(jī). 2015(08)
[7]基于平均密度優(yōu)化初始聚類中心的k-means算法[J]. 邢長(zhǎng)征,谷浩. 計(jì)算機(jī)工程與應(yīng)用. 2014(20)
[8]用戶差別化和主題敏感的PageRank算法[J]. 馬海波,楊楠,于新興. 大連交通大學(xué)學(xué)報(bào). 2013(04)
[9]基于重啟型隨機(jī)游走模型的圖上關(guān)鍵字搜索[J]. 蔣凱,關(guān)佶紅. 計(jì)算機(jī)工程. 2011(03)
[10]PageRank算法的分析及其改進(jìn)[J]. 王德廣,周志剛,梁旭. 計(jì)算機(jī)工程. 2010(22)
博士論文
[1]Web結(jié)構(gòu)挖掘與高維數(shù)據(jù)挖掘研究[D]. 于紅.大連理工大學(xué) 2012
[2]數(shù)據(jù)挖掘中聚類方法的研究[D]. 王莉.天津大學(xué) 2004
碩士論文
[1]數(shù)據(jù)挖掘分類算法的改進(jìn)研究[D]. 陳潔.南京郵電大學(xué) 2018
[2]基于python的Web數(shù)據(jù)挖掘技術(shù)研究與實(shí)現(xiàn)[D]. 劉熠.長(zhǎng)江大學(xué) 2018
[3]基于PageRank算法的Web數(shù)據(jù)挖掘的研究[D]. 鄭普亨.天津理工大學(xué) 2017
[4]PageRank算法應(yīng)用在文獻(xiàn)檢索排序中的研究及改進(jìn)[D]. 汪志偉.南昌大學(xué) 2016
[5]基于改進(jìn)PageRank算法的網(wǎng)頁(yè)排序問題研究[D]. 周秋麗.哈爾濱理工大學(xué) 2016
[6]K-means聚類方法的改進(jìn)及其應(yīng)用[D]. 李薈嬈.東北農(nóng)業(yè)大學(xué) 2014
[7]基于改進(jìn)PageRank算法和用戶興趣的個(gè)性化搜索研究[D]. 張梅芳.河北工業(yè)大學(xué) 2014
[8]基于密度的分布式聚類算法的研究[D]. 毛銳.吉林大學(xué) 2012
[9]Web結(jié)構(gòu)挖掘算法的改進(jìn)研究[D]. 傅曉波.北京郵電大學(xué) 2012
[10]Web結(jié)構(gòu)挖掘中PageRank算法研究[D]. 范聰賢.蘇州大學(xué) 2009
本文編號(hào):3109620
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3109620.html
最近更新
教材專著