kmeans聚類算法的改進及其在信息檢索系統(tǒng)中的應(yīng)用
發(fā)布時間:2017-10-22 21:10
本文關(guān)鍵詞:kmeans聚類算法的改進及其在信息檢索系統(tǒng)中的應(yīng)用
【摘要】:隨著互聯(lián)網(wǎng)的不斷發(fā)展,信息飛速增長。怎樣從雜亂的信息中,準確、及時獲得有利信息已成為現(xiàn)今面臨并急需解決的一個巨大問題。信息檢索技術(shù)的出現(xiàn)為高速、有效地獲取信息提供了很好的途徑,其中搜索引擎就是最好的代表。如何對檢索到的結(jié)果進行分類管理是信息檢索過程中最為重要的一部分直接影響著結(jié)果其有效性。聚類的出現(xiàn)就很好地實現(xiàn)了對大量信息的有效管理,并且聚類現(xiàn)今不僅是在信息檢索方面應(yīng)用廣泛,同時在有關(guān)多文本處理等領(lǐng)域也得到了應(yīng)用。原有Kmeans聚類算法,為應(yīng)用最為普遍的聚類算法。但需要人為設(shè)定聚類數(shù)目以及其初始聚類中心是隨機選取;谠蠯means聚類算法存在的問題,本文介紹了如何結(jié)合二叉樹及原有Kmeans聚類算法來解決Kmeans聚類算法存在的一些問題。改進后的算法其主要包括兩部分。一部分是對聚類對象進行建樹,另一部分是對建好的樹進行剪枝操作,這兩個部分緊密相連缺一不可。根據(jù)改進后的算法的特性將其應(yīng)用于信息檢索系統(tǒng)中。改進后的聚類算法是在Eclipse平臺實現(xiàn)的,并且在信息檢索系統(tǒng)中取得了很好的聚類效果。
【關(guān)鍵詞】:聚類 Kmeans 信息檢索
【學(xué)位授予單位】:云南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【目錄】:
- 摘要3-4
- Abstract4-7
- 第1章 前言7-11
- 1.1 研究背景7
- 1.2 研究目的及意義7-8
- 1.3 國內(nèi)外研究狀況8
- 1.4 論文組織結(jié)構(gòu)8-11
- 第2章 相關(guān)理論基礎(chǔ)11-23
- 2.1 Web數(shù)據(jù)挖掘概述11
- 2.2 Web數(shù)據(jù)挖掘的分類11-13
- 2.3 爬蟲13-14
- 2.4 正則表達式14
- 2.5 Web文本預(yù)處理14-17
- 2.5.1 分詞14-16
- 2.5.2 去停用詞16
- 2.5.3 提取關(guān)鍵詞16-17
- 2.6 聚類17-19
- 2.6.1 類間相似度18-19
- 2.7 二叉樹19-20
- 2.8 Trie樹20-21
- 2.9 隱馬爾可夫模型21
- 2.10 Viterbi算法21-22
- 2.11 本章小結(jié)22-23
- 第3章 改進的kmeans聚類算法23-37
- 3.1 傳統(tǒng)的Kmeans聚類算法23-24
- 3.2 改進的聚類算法24-26
- 3.3 原kmeans聚類算法與改進后的聚類算法對比分析26-34
- 3.3.1 初始質(zhì)心的選擇26-29
- 3.3.2 聚類參數(shù)k的確定29-34
- 3.4 算法討論34
- 3.5 改進后的聚類算法的聚類效果分析34-36
- 3.6 本章小結(jié)36-37
- 第4章 改進的聚類算法在信息檢索系統(tǒng)中的應(yīng)用37-49
- 4.1 開發(fā)環(huán)境37-38
- 4.2 信息檢索的原理38-39
- 4.3 信息爬取39-41
- 4.4 文本預(yù)處理41-44
- 4.4.1 分詞42
- 4.4.2 去除停用詞42-43
- 4.4.3 關(guān)鍵詞提取算法43-44
- 4.5 聚類44-47
- 4.6 本章小結(jié)47-49
- 第5章 總結(jié)與展望49-51
- 參考文獻51-55
- 致謝55
本文編號:1080102
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1080102.html
最近更新
教材專著