自動分類在搜索引擎性能優(yōu)化中的應(yīng)用
本文關(guān)鍵詞:自動分類在搜索引擎性能優(yōu)化中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
216
情報科學(xué)
22卷
即還沒有被集聚到任何一類中的網(wǎng)頁;松散型網(wǎng)頁,它們與已經(jīng)存在的類中心相似度比較小,尚不具備被聚于某婁的條件;已被聚類的網(wǎng)頁,在聚類開始時,所有的阿頁都可以看作未聚類網(wǎng)頁。用D,表示某篇網(wǎng)頁,如果它同時滿足以下兩個條件,則可以將D.作為類別中心:至少有n1篇潮頁,它們與D.的相似系數(shù)都超過T1;至少有n2篇網(wǎng)頁,,它們與D。的相似系數(shù)都超過T2,其中T1≥T2且n1≤n2。T1、T2、n】、n2都是事先給定的參數(shù)。聚類的過程如下:在未聚類網(wǎng)頁中任取一篇,把它作為聚類中心并對其進(jìn)行密度測試,測試范圍為尚未聚類和松
散型的網(wǎng)頁。如果測試失敗,即被測試的網(wǎng)頁周圍
不具有指定數(shù)量的網(wǎng)頁,則該網(wǎng)頁被作為松散型網(wǎng)頁。然后在未聚類網(wǎng)頁中重新選取網(wǎng)頁測試聚類中
心:如果{員4試成功,即被測試網(wǎng)頁周圍集聚一定預(yù)
定值范圍內(nèi)的相似網(wǎng)頁,則該網(wǎng)頁被作為一個聚類中心,并將其中相似度超過T1的網(wǎng)頁視為已聚類
阿頁,對于相似度小于T1又大于T2的網(wǎng)頁,視為松散型網(wǎng)頁,其他網(wǎng)頁不改變原有類型。聚類過程一直持續(xù)下去到?jīng)]有未聚類網(wǎng)頁為止。最后將剩下
的松散型網(wǎng)頁就近聚集到已存在的類別中。3
自動分類在搜索引擎中應(yīng)用的實(shí)例
3.1
wwlib自動歸類系統(tǒng)
www(http:
∥www.scit/wlv.ac.uk/ww—
lib/)是伍爾弗漢普頓網(wǎng)絡(luò)圖書館的簡稱(WolverhamptonWebI,ibrary),它是使用了自動歸類技術(shù)的網(wǎng)絡(luò)信息檢索系統(tǒng)。它的主要組成部分
如下:
①蜘蛛:任務(wù)是自動從網(wǎng)絡(luò)上抓取網(wǎng)頁。②索引器:它接收蜘蛛抓回來的網(wǎng)頁并在本地服務(wù)器上儲存一個副本,給網(wǎng)頁一個唯一的索取母,同時創(chuàng)建一個新的元數(shù)據(jù)模板,將本地的副本分配給分析器,建造和增加分類器的元數(shù)據(jù)模板。③分析器:對嵌入網(wǎng)頁中的超鏈接進(jìn)行分析。如果發(fā)現(xiàn)是有效的超鏈接,就將它的網(wǎng)址傳遞給索引器并檢查它是否屬于英國。④分類器:在對索引尉頁進(jìn)行分析的同時給出杜威十進(jìn)分類法分類號。⑤構(gòu)建器:分析索引器提供的網(wǎng)頁及其元數(shù)據(jù),建立索引數(shù)據(jù)庫,確
定索引號和關(guān)鍵詞之問的對應(yīng)關(guān)系,使得使用索引
號就可以迅速獲得相應(yīng)的燕鍵詞。⑥搜索器:接受用戶的檢索提問,在構(gòu)建器的索引數(shù)據(jù)庫中進(jìn)行查
詢,用得出的索取號獲得相應(yīng)的元數(shù)據(jù)和本地副本,使用以上的信息得到一個詳細(xì)的結(jié)果,并按相關(guān)度排列檢索結(jié)果。
WWlib中分類器對網(wǎng)頁的處理方法如下:首先,對網(wǎng)頁進(jìn)行自動標(biāo)引,對瞬頁中的語詞根據(jù)它們的詞頻和網(wǎng)頁中出現(xiàn)的位置賦予權(quán)重。然后將處理后得到的語詞集合與杜威十進(jìn)分類法分類表中的每一個款目進(jìn)行比較。每個款目包括它們的分類號、一長串關(guān)鍵詞和它們的同義詞。從一級類日開始比較,直到出現(xiàn)比較顯著的匹配值為止,此時將該網(wǎng)頁歸人此類。匹配值是在綜合考慮到語詞的相似度
以及文檔的長短等因素之后給出的。
WWlib提供的檢索途徑有關(guān)鍵詞檢索、分類號檢索、瀏覽類目下收錄的網(wǎng)頁等。wwlib也支持布爾邏輯檢索和截詞檢索。檢索結(jié)果分為兩行,第一行為分類號、網(wǎng)頁標(biāo)題,第二行是網(wǎng)頁內(nèi)容摘要。wWIib主要的問題是數(shù)據(jù)庫規(guī)模太小,筆者在2003年4月18日查看時其款且只有4874個。但是它的方法對于今后大規(guī)模網(wǎng)頁的自動分類仍然有一定的借鑒意義。
3.z
Gmuper自動聚類系統(tǒng)
Grouper是orenZamir和orenEt2ioni研制的一個自動聚類系統(tǒng),它的主要作用是對Husky—
search(這個是他們開發(fā)的一個元搜索引擎)返回的結(jié)果進(jìn)行自動聚類。他們在Grouper:A
dynamic
clusterinfinterface
to
websearch
results一文中詳
細(xì)描述了它的原理和功能,很遺憾的是隨著Oren
Zam.r和OrenEtzioni的畢業(yè)離校,這兩個系統(tǒng)也
停止了對外服務(wù),但是Gmuper還是具有很大的參考價值。
Grouper采用的是一種叫做后綴樹聚類(Suffix
Tree
Clustering)的算法(簡稱STC)。STC是一種
線性時問聚類算法,根據(jù)待聚類網(wǎng)頁中的相似短語進(jìn)行聚類。這里所說的短語就是指幾個有序的詞。此算法可以分為三個步驟。
(1)網(wǎng)頁“清洗”。這一步驟可以看作是網(wǎng)頁特征的抽取。它對代表網(wǎng)頁特征的字符串進(jìn)行過濾,標(biāo)明各旬之間的間隔,去掉不是文字的標(biāo)記符號(如HTML標(biāo)記、大部分的標(biāo)點(diǎn))。
(2)確定基本聚類串。基本聚類串是一些具有共同短語網(wǎng)頁的集合。它是在對網(wǎng)頁特征進(jìn)行抽取
的同時使用STC算法進(jìn)行計(jì)算后得到的。對于每~
個基本聚類串,根據(jù)它包含的網(wǎng)頁特征的數(shù)量以及
博泰典藏網(wǎng)btdcw.com包含總結(jié)匯報、外語學(xué)習(xí)、高中教育、高等教育、表格模板、教學(xué)研究、出國留學(xué)、行業(yè)論文、初中教育以及自動分類在搜索引擎性能優(yōu)化中的應(yīng)用_圖文等內(nèi)容。
本文共2頁12
本文關(guān)鍵詞:自動分類在搜索引擎性能優(yōu)化中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
本文編號:103528
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/103528.html