自動分類在搜索引擎性能優(yōu)化中的應(yīng)用

發(fā)布時間：2016-08-25 19:09

本文關(guān)鍵詞：自動分類在搜索引擎性能優(yōu)化中的應(yīng)用，由筆耕文化傳播整理發(fā)布。

２１６

情報科學(xué)

２２卷

即還沒有被集聚到任何一類中的網(wǎng)頁；松散型網(wǎng)頁，它們與已經(jīng)存在的類中心相似度比較小，尚不具備被聚于某婁的條件；已被聚類的網(wǎng)頁，在聚類開始時，所有的阿頁都可以看作未聚類網(wǎng)頁。用Ｄ，表示某篇網(wǎng)頁，如果它同時滿足以下兩個條件，則可以將Ｄ．作為類別中心：至少有ｎ１篇潮頁，它們與Ｄ．的相似系數(shù)都超過Ｔ１；至少有ｎ２篇網(wǎng)頁，，它們與Ｄ。的相似系數(shù)都超過Ｔ２，其中Ｔ１≥Ｔ２且ｎ１≤ｎ２。Ｔ１、Ｔ２、ｎ】、ｎ２都是事先給定的參數(shù)。聚類的過程如下：在未聚類網(wǎng)頁中任取一篇，把它作為聚類中心并對其進(jìn)行密度測試，測試范圍為尚未聚類和松

散型的網(wǎng)頁。如果測試失敗，即被測試的網(wǎng)頁周圍

不具有指定數(shù)量的網(wǎng)頁，則該網(wǎng)頁被作為松散型網(wǎng)頁。然后在未聚類網(wǎng)頁中重新選取網(wǎng)頁測試聚類中

心：如果｛員４試成功，即被測試網(wǎng)頁周圍集聚一定預(yù)

定值范圍內(nèi)的相似網(wǎng)頁，則該網(wǎng)頁被作為一個聚類中心，并將其中相似度超過Ｔ１的網(wǎng)頁視為已聚類

阿頁，對于相似度小于Ｔ１又大于Ｔ２的網(wǎng)頁，視為松散型網(wǎng)頁，其他網(wǎng)頁不改變原有類型。聚類過程一直持續(xù)下去到?jīng)]有未聚類網(wǎng)頁為止。最后將剩下

的松散型網(wǎng)頁就近聚集到已存在的類別中。３

自動分類在搜索引擎中應(yīng)用的實(shí)例

３．１

ｗｗｌｉｂ自動歸類系統(tǒng)

ｗｗｗ（ｈｔｔｐ：

∥ｗｗｗ．ｓｃｉｔ／ｗｌｖ．ａｃ．ｕｋ／ｗｗ—

ｌｉｂ／）是伍爾弗漢普頓網(wǎng)絡(luò)圖書館的簡稱（ＷｏｌｖｅｒｈａｍｐｔｏｎＷｅｂＩ，ｉｂｒａｒｙ），它是使用了自動歸類技術(shù)的網(wǎng)絡(luò)信息檢索系統(tǒng)。它的主要組成部分

如下：

①蜘蛛：任務(wù)是自動從網(wǎng)絡(luò)上抓取網(wǎng)頁。②索引器：它接收蜘蛛抓回來的網(wǎng)頁并在本地服務(wù)器上儲存一個副本，給網(wǎng)頁一個唯一的索取母，同時創(chuàng)建一個新的元數(shù)據(jù)模板，將本地的副本分配給分析器，建造和增加分類器的元數(shù)據(jù)模板。③分析器：對嵌入網(wǎng)頁中的超鏈接進(jìn)行分析。如果發(fā)現(xiàn)是有效的超鏈接，就將它的網(wǎng)址傳遞給索引器并檢查它是否屬于英國。④分類器：在對索引尉頁進(jìn)行分析的同時給出杜威十進(jìn)分類法分類號。⑤構(gòu)建器：分析索引器提供的網(wǎng)頁及其元數(shù)據(jù)，建立索引數(shù)據(jù)庫，確

定索引號和關(guān)鍵詞之問的對應(yīng)關(guān)系，使得使用索引

號就可以迅速獲得相應(yīng)的燕鍵詞。⑥搜索器：接受用戶的檢索提問，在構(gòu)建器的索引數(shù)據(jù)庫中進(jìn)行查

詢，用得出的索取號獲得相應(yīng)的元數(shù)據(jù)和本地副本，使用以上的信息得到一個詳細(xì)的結(jié)果，并按相關(guān)度排列檢索結(jié)果。

ＷＷｌｉｂ中分類器對網(wǎng)頁的處理方法如下：首先，對網(wǎng)頁進(jìn)行自動標(biāo)引，對瞬頁中的語詞根據(jù)它們的詞頻和網(wǎng)頁中出現(xiàn)的位置賦予權(quán)重。然后將處理后得到的語詞集合與杜威十進(jìn)分類法分類表中的每一個款目進(jìn)行比較。每個款目包括它們的分類號、一長串關(guān)鍵詞和它們的同義詞。從一級類日開始比較，直到出現(xiàn)比較顯著的匹配值為止，此時將該網(wǎng)頁歸人此類。匹配值是在綜合考慮到語詞的相似度

以及文檔的長短等因素之后給出的。

ＷＷｌｉｂ提供的檢索途徑有關(guān)鍵詞檢索、分類號檢索、瀏覽類目下收錄的網(wǎng)頁等。ｗｗｌｉｂ也支持布爾邏輯檢索和截詞檢索。檢索結(jié)果分為兩行，第一行為分類號、網(wǎng)頁標(biāo)題，第二行是網(wǎng)頁內(nèi)容摘要。ｗＷＩｉｂ主要的問題是數(shù)據(jù)庫規(guī)模太小，筆者在２００３年４月１８日查看時其款且只有４８７４個。但是它的方法對于今后大規(guī)模網(wǎng)頁的自動分類仍然有一定的借鑒意義。

３．ｚ

Ｇｍｕｐｅｒ自動聚類系統(tǒng)

Ｇｒｏｕｐｅｒ是ｏｒｅｎＺａｍｉｒ和ｏｒｅｎＥｔ２ｉｏｎｉ研制的一個自動聚類系統(tǒng)，它的主要作用是對Ｈｕｓｋｙ—

ｓｅａｒｃｈ（這個是他們開發(fā)的一個元搜索引擎）返回的結(jié)果進(jìn)行自動聚類。他們在Ｇｒｏｕｐｅｒ：Ａ

ｄｙｎａｍｉｃ

ｃｌｕｓｔｅｒｉｎｆｉｎｔｅｒｆａｃｅ

ｔｏ

ｗｅｂｓｅａｒｃｈ

ｒｅｓｕｌｔｓ一文中詳

細(xì)描述了它的原理和功能，很遺憾的是隨著Ｏｒｅｎ

Ｚａｍ．ｒ和ＯｒｅｎＥｔｚｉｏｎｉ的畢業(yè)離校，這兩個系統(tǒng)也

停止了對外服務(wù)，但是Ｇｍｕｐｅｒ還是具有很大的參考價值。

Ｇｒｏｕｐｅｒ采用的是一種叫做后綴樹聚類（Ｓｕｆｆｉｘ

Ｔｒｅｅ

Ｃｌｕｓｔｅｒｉｎｇ）的算法（簡稱ＳＴＣ）。ＳＴＣ是一種

線性時問聚類算法，根據(jù)待聚類網(wǎng)頁中的相似短語進(jìn)行聚類。這里所說的短語就是指幾個有序的詞。此算法可以分為三個步驟。

（１）網(wǎng)頁“清洗”。這一步驟可以看作是網(wǎng)頁特征的抽取。它對代表網(wǎng)頁特征的字符串進(jìn)行過濾，標(biāo)明各旬之間的間隔，去掉不是文字的標(biāo)記符號（如ＨＴＭＬ標(biāo)記、大部分的標(biāo)點(diǎn)）。

（２）確定基本聚類串。基本聚類串是一些具有共同短語網(wǎng)頁的集合。它是在對網(wǎng)頁特征進(jìn)行抽取

的同時使用ＳＴＣ算法進(jìn)行計(jì)算后得到的。對于每～

個基本聚類串，根據(jù)它包含的網(wǎng)頁特征的數(shù)量以及

博泰典藏網(wǎng)btdcw.com包含總結(jié)匯報、外語學(xué)習(xí)、高中教育、高等教育、表格模板、教學(xué)研究、出國留學(xué)、行業(yè)論文、初中教育以及自動分類在搜索引擎性能優(yōu)化中的應(yīng)用_圖文等內(nèi)容。

本文共2頁12

本文關(guān)鍵詞：自動分類在搜索引擎性能優(yōu)化中的應(yīng)用，由筆耕文化傳播整理發(fā)布。

本文編號：103528

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/103528.html

上一篇：垂直搜索引擎的現(xiàn)狀與發(fā)展探究.pdf.pdf
下一篇：自動分類在搜索引擎性能優(yōu)化中的應(yīng)用.doc

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

自動分類在搜索引擎性能優(yōu)化中的應(yīng)用