天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

搜索引擎返回結果聚類技術研究與實現(xiàn).pdf 全文 文檔投稿網(wǎng)

發(fā)布時間:2016-10-04 09:18

  本文關鍵詞:搜索引擎返回結果聚類技術的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。


西南交通大學 碩士學位論文 搜索引擎返回結果聚類技術的研究與實現(xiàn) 姓名:陳菊紅 申請學位級別:碩士 專業(yè):計算機應用技術 指導教師:金煒東 20090601第頁 西南交通大學碩士研究生學位論文 摘要 隨著因特網(wǎng)技術的飛速發(fā)展和搜索引擎技術的日趨成熟,人們逐漸開始頻繁 利用網(wǎng)絡來獲取所需的資源,而現(xiàn)有的搜索引擎返回的查詢結果數(shù)量龐大且呈線 性排列,用戶很難在較短的時間內(nèi)找到有用的信息,因此如何能夠快捷、準確地 發(fā)現(xiàn)信息則成為目前信息檢索領域亟待解決的問題。文本聚類具有較強的靈活性 和自動處理能力,已經(jīng)逐漸成為對搜索引擎進行有效地組織和導航的重要手段。 本文就文本聚類算法進行了深入的研究,采用聚類算法作為主要框架, 探索和研究文本聚類在搜索引擎領域內(nèi)的應用,主要研究工作如下: 文本預處理的許多關鍵技術直接影響聚類的效果,因此本文對文本聚類預處 理中涉及的關鍵技術做了深入的研究,在此基礎上設計和實現(xiàn)了包含網(wǎng)頁去噪、 詞干提取、停止詞過濾等功能的預處理子系統(tǒng)。 ?是向量空間模型中最常 用的權重計算方法,它可以有效地強化在文檔中出現(xiàn)的高頻詞匯的權重,弱化在 文檔集合中出現(xiàn)頻率較高但是包含文檔信息量少的常用詞的權重。但是,事實上 詞對文檔的重要程度還與詞的詞性以及詞在文檔中的位置因素有關,因此本文在 傳統(tǒng)的的基礎上加入詞性權重與位置權重對其進行修正,實驗證明改進 后的?可以更加準確的描述詞對文檔的重要程度,有效地提高了聚類算法 的查準率和查全率,使算法的整體性能有了較大的提高。 本文對聚類算法做了深入的研究和分析,通過對比實驗證明它比目前 流行的后綴樹算法聚類的性能更優(yōu),提取出的類標簽更能反映類別信息, 易于理


  本文關鍵詞:搜索引擎返回結果聚類技術的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號:130658

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/130658.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶32506***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com