WEB數(shù)據(jù)挖掘和個(gè)性化搜索引擎研究
本文關(guān)鍵詞:Web數(shù)據(jù)挖掘和個(gè)性化搜索引擎研究,由筆耕文化傳播整理發(fā)布。
Web數(shù)據(jù)挖掘和個(gè)性化搜索引擎研究
碩士學(xué)位論文:We數(shù)據(jù)挖掘和個(gè)性化搜索引擎研究 b
索引數(shù)據(jù)庫的建立關(guān)系到用戶能否最迅速地找到最準(zhǔn)確、 最廣泛的信息,索
引一般按照倒排文件的格式存放〔 ratl。如果索引不能及時(shí)更新,Sie G rtO] a pdr帶回的新信息就不能被使用搜索引擎的用戶查到。對(duì)網(wǎng)頁采用基于網(wǎng)頁內(nèi)容分析和基于超鏈分析相結(jié)合的方法進(jìn)行相關(guān)度評(píng)價(jià),能夠客觀地對(duì)網(wǎng)頁進(jìn)行排序,從而極大限度地保證搜索出的結(jié)果與用戶的查詢串相一致。在設(shè)計(jì)一個(gè)索引數(shù)據(jù)庫時(shí),要針對(duì)實(shí)際需要確定索引數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)和存儲(chǔ)方式。由于搜索引擎系統(tǒng)通常處理的都是海量的信息,因此還要設(shè)計(jì)一定的壓縮策略,對(duì)索引庫進(jìn)行有效的壓縮,以提高檢索的速度。新浪搜索引擎對(duì)網(wǎng)站數(shù)據(jù)建立索引的過程中采取了按照關(guān)鍵詞在網(wǎng)站標(biāo)題、 網(wǎng)站描述、網(wǎng)站UL R等不同位置的出現(xiàn)或網(wǎng)站的質(zhì)量等級(jí)等建立索引庫,從而保證搜索出的結(jié)果與用戶的查詢串相一致。新浪搜索引擎在索引庫建立的過程中,對(duì)所有數(shù)據(jù)采用多進(jìn)程并行的方式,對(duì)新的信息采取增量式的方法建立索引庫,從而保證能夠迅速建立索引,使數(shù)據(jù)能夠得到及時(shí)的更新。新浪搜索引擎在建立索引庫的過程中還對(duì)用戶搜索的查詢串進(jìn)行跟蹤,并對(duì)查詢頻率高的查詢串建立 C ce ah頁。
3用戶檢索的過程 .這是對(duì)前兩個(gè)過程的檢驗(yàn), 檢驗(yàn)該搜索引擎能否給出最準(zhǔn)確、最廣泛的信息,檢驗(yàn)該搜索引擎能否迅速地給出用戶最想得到的信息。對(duì)于網(wǎng)站數(shù)據(jù)的檢索,不同搜索引擎有不同的做法。比如新浪搜索引擎采用 Cin/ev結(jié)構(gòu)、多進(jìn)程 letSre的方式在索引庫中檢索,大大減少了用戶的等待時(shí)間,并且在用戶查詢高峰時(shí)服務(wù)器的負(fù)擔(dān)不會(huì)過高(平均檢索時(shí)間在 03 .秒左右)而作為國(guó)內(nèi)眾多門戶網(wǎng)站的;網(wǎng)頁檢索技術(shù)提供商的百度公司,其搜索引擎則運(yùn)用了先進(jìn)的多線程技術(shù),采用高效的搜索算法和穩(wěn)定的UI平臺(tái),因 NX此可大大縮短對(duì)用戶搜索請(qǐng)求的響應(yīng)時(shí)間。作為慧聰工系列應(yīng)用軟件產(chǎn)品之一的 ISac20采用的超大規(guī)模動(dòng)態(tài)緩 -erh00存技術(shù),使一級(jí)響應(yīng)的覆蓋率達(dá)到 7%以上, 5獨(dú)有的自學(xué)習(xí)能力可自動(dòng)將二級(jí)響應(yīng)的搜蓋率擴(kuò)充到2%以 0上。仁 hoO] C onO a 1 .搜索引擎的發(fā)展歷史 .2 4
Ie t e實(shí)現(xiàn)了 nr t n全世界人們信息共享的愿望,,然而,信息的增長(zhǎng)是無止境的, 為了能迅速、全面又準(zhǔn)確地找到用戶感興趣的信息,就需要
一種工具來檢索 We b
上的信息,這種工具被稱之為搜索引擎。互聯(lián)網(wǎng)從早期的APNt前的工tre, RAe到目 nent已經(jīng)發(fā)展了近五十年。互聯(lián)網(wǎng)上的信息越來越多,而且正在以每月近千萬的數(shù)量增長(zhǎng)。因此迫切需要一種信息
檢索工具。 91 XAS 19年, WI提供了一個(gè)界面友好的信息搜索系統(tǒng),但是這個(gè)系統(tǒng) 要求很特殊的文件格式。在同一年還出現(xiàn)了另外一個(gè)信息檢索系統(tǒng) GP E O HR
Word文檔免費(fèi)下載:Web數(shù)據(jù)挖掘和個(gè)性化搜索引擎研究 (下載1-4頁,共4頁)
本文關(guān)鍵詞:Web數(shù)據(jù)挖掘和個(gè)性化搜索引擎研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):96929
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/96929.html