元搜索引擎結(jié)果聚類優(yōu)化的研究與實現(xiàn)
發(fā)布時間:2023-10-31 08:44
在網(wǎng)絡(luò)應(yīng)用服務(wù)發(fā)展的今天,信息獲取已成為網(wǎng)民使用Internet的主要目的之一。由于傳統(tǒng)搜索引擎存在不足及自身的局限性,限制了人們對資源的獲取。為提高用戶查詢信息的覆蓋面和檢索結(jié)果的準確性,一種建立在搜索引擎之上的元搜索引擎成為目前研究與開發(fā)的熱點。但現(xiàn)存的大多數(shù)元搜索引擎以線性列表的方式為用戶返回檢索結(jié)果,其規(guī)模仍相當龐大,這使得用戶可能用很多時間才能找到自己需要的結(jié)果。產(chǎn)生上述問題的主要原因是沒有對檢索結(jié)果進行分類處理和按照人們的查詢習慣及檢索經(jīng)驗進行再組織。因此,對檢索結(jié)果進行聚類處理成為提高用戶查找速度和快速定位所需信息的一個有效解決方案。 本文通過對元搜索引擎技術(shù)和數(shù)據(jù)挖掘技術(shù)研究的基礎(chǔ)上,結(jié)合關(guān)聯(lián)規(guī)則與聚類分析設(shè)計并實現(xiàn)了一個帶聚類處理的元搜索引擎系統(tǒng)CMES(The Clustering Meta Search Engine),詳細介紹了該系統(tǒng)的具體實現(xiàn)。 通過建立搜索引擎參數(shù)庫,實現(xiàn)了檢索請求向目的搜索引擎查詢指令的轉(zhuǎn)換,并實現(xiàn)了對目的搜索引擎返回的結(jié)果頁面相關(guān)內(nèi)容的自動提取;將結(jié)果記錄中的標題和摘要進行分詞處理后提取主要關(guān)鍵詞集,用于建立關(guān)聯(lián)詞矩陣以及基于布爾函數(shù)和TFIDF函數(shù)表示結(jié)果特征向量,并對這兩種表示方法在不同聚類算法下進行對比測試與分析;分別以k-means和FCM算法為基礎(chǔ)提出基于關(guān)聯(lián)詞矩陣的k-means(k-meansAWM)和FCM(FCMAWM)結(jié)果聚類優(yōu)化方案,并對它們進行對比測試與分析,選擇其中較好者用于檢索結(jié)果聚類;給出了系統(tǒng)的應(yīng)用實例并對系統(tǒng)的性能進行了分析;最后對本文所做的工作進行了總結(jié),并提出系統(tǒng)需要進一步完善的地方及下一步研究工作的方向。
【學位級別】:碩士
頁數(shù):92
文章目錄
中文摘要
Abstract
第一章 緒論
1.1 論文研究背景
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文的研究意義和主要工作
1.4 本文的組織結(jié)構(gòu)
第二章 元搜索引擎概述及相關(guān)知識
2.1 元搜索引擎技術(shù)
2.1.1 元搜索引擎的工作原理
2.1.2 元搜索引擎的分類
2.1.3 元搜索引擎的優(yōu)勢
2.1.4 元搜索引擎的評價指標
2.2 文檔信息處理技術(shù)
2.2.1 文檔表示模型
2.2.2 向量空間模型
2.2.3 中文分詞
2.3 聚類分析
2.3.1 主要聚類方法的分類
2.3.2 模糊聚類
2.3.3 模糊聚類有效性
2.4 本章小結(jié)
第三章 基于AWM 的結(jié)果聚類優(yōu)化
3.1 關(guān)聯(lián)詞矩陣
3.1.1 關(guān)聯(lián)規(guī)則及基本概念
3.1.2 構(gòu)建關(guān)聯(lián)詞矩陣
3.1.3 距離與相似系數(shù)
3.2 基于AWM 的結(jié)果聚類優(yōu)化
3.2.1 結(jié)果特征向量表示
3.2.2 k-meansAWM 聚類
3.2.3 FCMAWM 聚類
3.3 算法的測試與分析
3.3.1 測試數(shù)據(jù)的選擇及準備工作
3.3.2 結(jié)果TFIDF 特征向量中參數(shù)的取值
3.3.3 基于k-meansAWM 的結(jié)果聚類測試與分析
3.3.4 基于FCMAWM 的結(jié)果聚類測試與分析
3.3.5 總體比較
3.4 本章小結(jié)
第四章 元搜索引擎CMES 的設(shè)計
4.1 系統(tǒng)框架
4.2 關(guān)鍵技術(shù)分析與設(shè)計
4.2.1 檢索請求分析
4.2.2 檢索任務(wù)分配
4.2.3 檢索結(jié)果預處理
4.2.4 檢索結(jié)果聚類
4.3 搜索引擎參數(shù)庫
4.3.1 搜索引擎查詢參數(shù)特征表
4.3.2 搜索引擎結(jié)果參數(shù)特征表
4.4 數(shù)據(jù)庫連接
4.5 本章小結(jié)
第五章 CMES 的實現(xiàn)及系統(tǒng)性能測試與分析
5.1 MVC 設(shè)計模式與STRUTS 框架
5.1.1 MVC 模式概述
5.1.2 Struts 框架
5.2 系統(tǒng)中主要模塊的實現(xiàn)
5.2.1 檢索任務(wù)分配模塊
5.2.2 檢索結(jié)果預處理模塊
5.2.3 檢索結(jié)果聚類模塊
5.3 系統(tǒng)應(yīng)用
5.3.1 查詢界面
5.3.2 檢索結(jié)果界面
5.3.3 再搜索功能
5.4 系統(tǒng)性能分析
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 研究總結(jié)
6.2 對今后工作的展望
參考文獻
攻讀學位期間發(fā)表(錄用)論文
致謝
附錄A 成員搜索引擎的結(jié)果參數(shù)標識
附錄B 其他元搜索引擎搜索“手機”的返回頁面
詳細摘要
[1] 搜索引擎搜索結(jié)果的聚類研究. 周登朋.上海交通大學,2007
[2] 模糊聚類算法及其有效性研究. 鮑正益.廈門大學,2006
[3] 中文文本分類中特征描述及分類器構(gòu)造方法研究. 劉里.重慶大學,2006
[4] 中文文本分類中特征提取算法研究. 彭時名.重慶大學,2006
[5] 基于自動分類的元搜索引擎的研究與應(yīng)用. 楊才峰.華北電力大學(河北),2005
本文編號:66337
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/66337.html
最近更新
教材專著