天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

聚類算法及在搜索引擎系統(tǒng)中的應(yīng)用

發(fā)布時間:2017-08-25 16:00

  本文關(guān)鍵詞:聚類算法及在搜索引擎系統(tǒng)中的應(yīng)用


  更多相關(guān)文章: 搜索引擎 聚類引擎 聚類算法 可視化


【摘要】:搜索引擎作為海量信息的融合平臺將萬千世界帶到人們的周圍,使得大量信息都觸手可得,與此同時也悄悄改變著人們的生活。搜索引擎分為全文索引、目錄索引和元搜索引擎,而且其內(nèi)部形式一直沒有太大的變化。針對以上傳統(tǒng)搜索引擎類型可讀性差的狀況,聚類引擎應(yīng)運(yùn)而生。聚類引擎是在搜索引擎中使用聚類技術(shù),運(yùn)用聚類算法對搜索結(jié)果進(jìn)行自動聚類分析。其特點(diǎn)是去重性強(qiáng)、分類性強(qiáng)、匯集性強(qiáng),即可以及時去除重復(fù)信息,對搜索的結(jié)果進(jìn)行分門別類,又可以匯集各大知名搜索引擎的信息資源。 本文針對聚類引擎進(jìn)行了研究,用幾種聚類算法對搜索引擎的搜索結(jié)果進(jìn)行聚類處理,并返回聚類結(jié)果,最后對比這幾種聚類算法效果,實(shí)驗(yàn)中借助Carrot2平臺進(jìn)行分析總結(jié)。 具體完成的工作有如下幾個部分: 1.利用開源搜索引擎框架Nutch,搭建搜索引擎平臺,并完成分詞、分頁等基本功能,為聚類引擎提供實(shí)驗(yàn)基礎(chǔ)數(shù)據(jù)。 2.將當(dāng)前主流的K-Means聚類算法、STC聚類算法和Lingo聚類算法寫入Nutch搜索引擎,形成相應(yīng)算法下的聚類引擎,并逐一分析聚類結(jié)果效果。分析內(nèi)容包括各個算法下生成的類目標(biāo)簽和對大小數(shù)據(jù)集的處理情況等。 3.針對Lingo閾值的固定性,結(jié)合K-means算法距離提取的思想和Lingo算法對不同密度數(shù)據(jù)集可動態(tài)調(diào)節(jié)閾值的思想,將Lingo算法進(jìn)行優(yōu)化,,在保證算法復(fù)雜度的情況下對不同數(shù)據(jù)密度的原數(shù)據(jù)返回更精確的聚類結(jié)果。 4.利用Carrot2聚類可視化和F-measure聚類評測平臺對本文中所有測試過程進(jìn)行跟蹤實(shí)驗(yàn),更好的說明以上三種算法的聚類效果,以及優(yōu)化后的Lingo算法的可靠性和有效性。
【關(guān)鍵詞】:搜索引擎 聚類引擎 聚類算法 可視化
【學(xué)位授予單位】:哈爾濱理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
  • 摘要5-6
  • Abstract6-10
  • 第1章 緒論10-15
  • 1.1 課題研究的背景、目的和意義10-12
  • 1.1.1 搜索引擎研究的背景10-11
  • 1.1.2 聚類算法研究的目的及意義11-12
  • 1.2 國內(nèi)外研究現(xiàn)狀12-14
  • 1.3 課題來源14
  • 1.4 本論文主要研究內(nèi)容14-15
  • 第2章 信息檢索與數(shù)據(jù)挖掘基礎(chǔ)知識15-22
  • 2.1 搜索引擎工作流程15-18
  • 2.1.1 基礎(chǔ)數(shù)據(jù)的解析與獲取15-16
  • 2.1.2 數(shù)據(jù)索引的建立16-18
  • 2.2 Nutch 簡介18-20
  • 2.2.1 Crawl 爬蟲工作流程19
  • 2.2.2 Index 索引的建立19-20
  • 2.2.3 Nutch 插件機(jī)制20
  • 2.3 本章小結(jié)20-22
  • 第3章 聚類引擎系統(tǒng)流程與聚類算法模型22-41
  • 3.1 總體概要22-23
  • 3.2 系統(tǒng)分析23-26
  • 3.2.1 系統(tǒng)定位23
  • 3.2.2 系統(tǒng)結(jié)構(gòu)23
  • 3.2.3 系統(tǒng)用例模型23-26
  • 3.3 聚類算法模型26-37
  • 3.3.1 VSM 向量空間模型28-29
  • 3.3.2 K-means 聚類算法29-32
  • 3.3.3 STC 聚類算法32-35
  • 3.3.4 Lingo 聚類算法35-37
  • 3.4 不同聚類模型的比較分析37-40
  • 3.5 本章小結(jié)40-41
  • 第4章 基于聚類引擎的 Lingo 閾值優(yōu)化及結(jié)果分析41-49
  • 4.1 Lingo 閾值41-42
  • 4.2 基于搜索引擎的閾值優(yōu)化42-44
  • 4.3 優(yōu)化結(jié)果可視化實(shí)驗(yàn)44-48
  • 4.4 實(shí)驗(yàn)結(jié)果分析48
  • 4.5 本章小結(jié)48-49
  • 結(jié)論49-50
  • 參考文獻(xiàn)50-54
  • 致謝54

【引證文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前1條

1 劉佳;宋之杰;;基于文本聚類的稀土萃取技術(shù)專利信息分析[J];燕山大學(xué)學(xué)報;2014年03期



本文編號:737331

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/737331.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶aab71***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com