搜索引擎返回結果聚類技術研究與實現(xiàn).pdf 全文 文檔投稿網(wǎng)
本文關鍵詞:搜索引擎返回結果聚類技術的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
西南交通大學
碩士學位論文
搜索引擎返回結果聚類技術的研究與實現(xiàn)
姓名:陳菊紅
申請學位級別:碩士
專業(yè):計算機應用技術
指導教師:金煒東
20090601第頁
西南交通大學碩士研究生學位論文
摘要
隨著因特網(wǎng)技術的飛速發(fā)展和搜索引擎技術的日趨成熟,人們逐漸開始頻繁
利用網(wǎng)絡來獲取所需的資源,而現(xiàn)有的搜索引擎返回的查詢結果數(shù)量龐大且呈線
性排列,用戶很難在較短的時間內(nèi)找到有用的信息,因此如何能夠快捷、準確地
發(fā)現(xiàn)信息則成為目前信息檢索領域亟待解決的問題。文本聚類具有較強的靈活性
和自動處理能力,已經(jīng)逐漸成為對搜索引擎進行有效地組織和導航的重要手段。
本文就文本聚類算法進行了深入的研究,采用聚類算法作為主要框架,
探索和研究文本聚類在搜索引擎領域內(nèi)的應用,主要研究工作如下:
文本預處理的許多關鍵技術直接影響聚類的效果,因此本文對文本聚類預處
理中涉及的關鍵技術做了深入的研究,在此基礎上設計和實現(xiàn)了包含網(wǎng)頁去噪、
詞干提取、停止詞過濾等功能的預處理子系統(tǒng)。
?是向量空間模型中最常
用的權重計算方法,它可以有效地強化在文檔中出現(xiàn)的高頻詞匯的權重,弱化在
文檔集合中出現(xiàn)頻率較高但是包含文檔信息量少的常用詞的權重。但是,事實上
詞對文檔的重要程度還與詞的詞性以及詞在文檔中的位置因素有關,因此本文在
傳統(tǒng)的的基礎上加入詞性權重與位置權重對其進行修正,實驗證明改進
后的?可以更加準確的描述詞對文檔的重要程度,有效地提高了聚類算法
的查準率和查全率,使算法的整體性能有了較大的提高。
本文對聚類算法做了深入的研究和分析,通過對比實驗證明它比目前
流行的后綴樹算法聚類的性能更優(yōu),提取出的類標簽更能反映類別信息,
易于理
本文關鍵詞:搜索引擎返回結果聚類技術的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號:130658
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/130658.html