WEB數據挖掘和個性化搜索引擎研究
本文關鍵詞:Web數據挖掘和個性化搜索引擎研究,由筆耕文化傳播整理發(fā)布。
Web數據挖掘和個性化搜索引擎研究
碩士學位論文:We數據挖掘和個性化搜索引擎研究 b
索引數據庫的建立關系到用戶能否最迅速地找到最準確、 最廣泛的信息,索
引一般按照倒排文件的格式存放〔 ratl。如果索引不能及時更新,Sie G rtO] a pdr帶回的新信息就不能被使用搜索引擎的用戶查到。對網頁采用基于網頁內容分析和基于超鏈分析相結合的方法進行相關度評價,能夠客觀地對網頁進行排序,從而極大限度地保證搜索出的結果與用戶的查詢串相一致。在設計一個索引數據庫時,要針對實際需要確定索引數據庫的數據結構和存儲方式。由于搜索引擎系統(tǒng)通常處理的都是海量的信息,因此還要設計一定的壓縮策略,對索引庫進行有效的壓縮,以提高檢索的速度。新浪搜索引擎對網站數據建立索引的過程中采取了按照關鍵詞在網站標題、 網站描述、網站UL R等不同位置的出現或網站的質量等級等建立索引庫,從而保證搜索出的結果與用戶的查詢串相一致。新浪搜索引擎在索引庫建立的過程中,對所有數據采用多進程并行的方式,對新的信息采取增量式的方法建立索引庫,從而保證能夠迅速建立索引,使數據能夠得到及時的更新。新浪搜索引擎在建立索引庫的過程中還對用戶搜索的查詢串進行跟蹤,并對查詢頻率高的查詢串建立 C ce ah頁。
3用戶檢索的過程 .這是對前兩個過程的檢驗, 檢驗該搜索引擎能否給出最準確、最廣泛的信息,檢驗該搜索引擎能否迅速地給出用戶最想得到的信息。對于網站數據的檢索,不同搜索引擎有不同的做法。比如新浪搜索引擎采用 Cin/ev結構、多進程 letSre的方式在索引庫中檢索,大大減少了用戶的等待時間,并且在用戶查詢高峰時服務器的負擔不會過高(平均檢索時間在 03 .秒左右)而作為國內眾多門戶網站的;網頁檢索技術提供商的百度公司,其搜索引擎則運用了先進的多線程技術,采用高效的搜索算法和穩(wěn)定的UI平臺,因 NX此可大大縮短對用戶搜索請求的響應時間。作為慧聰工系列應用軟件產品之一的 ISac20采用的超大規(guī)模動態(tài)緩 -erh00存技術,使一級響應的覆蓋率達到 7%以上, 5獨有的自學習能力可自動將二級響應的搜蓋率擴充到2%以 0上。仁 hoO] C onO a 1 .搜索引擎的發(fā)展歷史 .2 4
Ie t e實現了 nr t n全世界人們信息共享的愿望,,然而,信息的增長是無止境的, 為了能迅速、全面又準確地找到用戶感興趣的信息,就需要
一種工具來檢索 We b
上的信息,這種工具被稱之為搜索引擎。互聯網從早期的APNt前的工tre, RAe到目 nent已經發(fā)展了近五十年;ヂ摼W上的信息越來越多,而且正在以每月近千萬的數量增長。因此迫切需要一種信息
檢索工具。 91 XAS 19年, WI提供了一個界面友好的信息搜索系統(tǒng),但是這個系統(tǒng) 要求很特殊的文件格式。在同一年還出現了另外一個信息檢索系統(tǒng) GP E O HR
Word文檔免費下載:Web數據挖掘和個性化搜索引擎研究 (下載1-4頁,共4頁)
本文關鍵詞:Web數據挖掘和個性化搜索引擎研究,由筆耕文化傳播整理發(fā)布。
本文編號:96929
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/96929.html