基于K-means聚類算法和信息熵的頁面排序算法研究
發(fā)布時(shí)間:2022-10-22 17:50
針對(duì)經(jīng)典的PageRank算法存在的偏重歷史網(wǎng)頁、主題漂移、平分網(wǎng)頁鏈接權(quán)重等缺陷,引入了向量空間模型和信息論中的信息熵,提出一種改進(jìn)的PRKE算法。該算法用表征網(wǎng)頁特征的關(guān)鍵詞構(gòu)成的向量來表示網(wǎng)頁,用關(guān)鍵詞在網(wǎng)頁中所占的權(quán)重作為向量中各個(gè)分量的權(quán)值;對(duì)已存在的網(wǎng)頁采用K-means聚類算法進(jìn)行聚類,以信息熵的形式表征各個(gè)簇的權(quán)值,完成對(duì)網(wǎng)頁的宏觀排序;融入了時(shí)間因子和主題相關(guān)度等參數(shù),完成對(duì)網(wǎng)頁的微觀排序。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的PRKE算法相對(duì)于經(jīng)典的PageRank算法在首頁命中率、檢索準(zhǔn)確性等方面獲得了較大的提高。
【文章頁數(shù)】:5 頁
【部分圖文】:
圖1聚類簇構(gòu)建決策樹架構(gòu)
圖2頁面反向鏈接
圖3PRKE算法與經(jīng)典PageRank算法首頁命中率比較
【參考文獻(xiàn)】:
期刊論文
[1]PageRank算法的分析及其改進(jìn)[J]. 王德廣,周志剛,梁旭. 計(jì)算機(jī)工程. 2010(22)
[2]改進(jìn)的非平均傳遞權(quán)值PageRank算法[J]. 王春花,朱俊平. 計(jì)算機(jī)工程與設(shè)計(jì). 2010(10)
[3]利用蟻群算法對(duì)PageRank算法的改進(jìn)[J]. 丁岳偉,郭輝. 計(jì)算機(jī)應(yīng)用. 2009(10)
[4]Web文本分類中特征選擇的研究[J]. 石芙芙,董祥軍,陳修寬. 山東輕工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版). 2009(03)
[5]基于余弦向量法的Web數(shù)據(jù)并行抓掘系統(tǒng)[J]. 徐文杰,陳慶奎. 計(jì)算機(jī)工程. 2009(07)
[6]聚類算法研究[J]. 孫吉貴,劉杰,趙連宇. 軟件學(xué)報(bào). 2008(01)
本文編號(hào):3696578
【文章頁數(shù)】:5 頁
【部分圖文】:
圖1聚類簇構(gòu)建決策樹架構(gòu)
圖2頁面反向鏈接
圖3PRKE算法與經(jīng)典PageRank算法首頁命中率比較
【參考文獻(xiàn)】:
期刊論文
[1]PageRank算法的分析及其改進(jìn)[J]. 王德廣,周志剛,梁旭. 計(jì)算機(jī)工程. 2010(22)
[2]改進(jìn)的非平均傳遞權(quán)值PageRank算法[J]. 王春花,朱俊平. 計(jì)算機(jī)工程與設(shè)計(jì). 2010(10)
[3]利用蟻群算法對(duì)PageRank算法的改進(jìn)[J]. 丁岳偉,郭輝. 計(jì)算機(jī)應(yīng)用. 2009(10)
[4]Web文本分類中特征選擇的研究[J]. 石芙芙,董祥軍,陳修寬. 山東輕工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版). 2009(03)
[5]基于余弦向量法的Web數(shù)據(jù)并行抓掘系統(tǒng)[J]. 徐文杰,陳慶奎. 計(jì)算機(jī)工程. 2009(07)
[6]聚類算法研究[J]. 孫吉貴,劉杰,趙連宇. 軟件學(xué)報(bào). 2008(01)
本文編號(hào):3696578
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3696578.html
最近更新
教材專著