天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

自動分類在搜索引擎性能優(yōu)化中的應(yīng)用

發(fā)布時間:2016-08-25 19:09

  本文關(guān)鍵詞:自動分類在搜索引擎性能優(yōu)化中的應(yīng)用,由筆耕文化傳播整理發(fā)布。


216

情報科學(xué)

22卷

即還沒有被集聚到任何一類中的網(wǎng)頁;松散型網(wǎng)頁,它們與已經(jīng)存在的類中心相似度比較小,尚不具備被聚于某婁的條件;已被聚類的網(wǎng)頁,在聚類開始時,所有的阿頁都可以看作未聚類網(wǎng)頁。用D,表示某篇網(wǎng)頁,如果它同時滿足以下兩個條件,則可以將D.作為類別中心:至少有n1篇潮頁,它們與D.的相似系數(shù)都超過T1;至少有n2篇網(wǎng)頁,,它們與D。的相似系數(shù)都超過T2,其中T1≥T2且n1≤n2。T1、T2、n】、n2都是事先給定的參數(shù)。聚類的過程如下:在未聚類網(wǎng)頁中任取一篇,把它作為聚類中心并對其進(jìn)行密度測試,測試范圍為尚未聚類和松

散型的網(wǎng)頁。如果測試失敗,即被測試的網(wǎng)頁周圍

不具有指定數(shù)量的網(wǎng)頁,則該網(wǎng)頁被作為松散型網(wǎng)頁。然后在未聚類網(wǎng)頁中重新選取網(wǎng)頁測試聚類中

心:如果{員4試成功,即被測試網(wǎng)頁周圍集聚一定預(yù)

定值范圍內(nèi)的相似網(wǎng)頁,則該網(wǎng)頁被作為一個聚類中心,并將其中相似度超過T1的網(wǎng)頁視為已聚類

阿頁,對于相似度小于T1又大于T2的網(wǎng)頁,視為松散型網(wǎng)頁,其他網(wǎng)頁不改變原有類型。聚類過程一直持續(xù)下去到?jīng)]有未聚類網(wǎng)頁為止。最后將剩下

的松散型網(wǎng)頁就近聚集到已存在的類別中。3

自動分類在搜索引擎中應(yīng)用的實(shí)例

3.1

wwlib自動歸類系統(tǒng)

www(http:

∥www.scit/wlv.ac.uk/ww—

lib/)是伍爾弗漢普頓網(wǎng)絡(luò)圖書館的簡稱(WolverhamptonWebI,ibrary),它是使用了自動歸類技術(shù)的網(wǎng)絡(luò)信息檢索系統(tǒng)。它的主要組成部分

如下:

①蜘蛛:任務(wù)是自動從網(wǎng)絡(luò)上抓取網(wǎng)頁。②索引器:它接收蜘蛛抓回來的網(wǎng)頁并在本地服務(wù)器上儲存一個副本,給網(wǎng)頁一個唯一的索取母,同時創(chuàng)建一個新的元數(shù)據(jù)模板,將本地的副本分配給分析器,建造和增加分類器的元數(shù)據(jù)模板。③分析器:對嵌入網(wǎng)頁中的超鏈接進(jìn)行分析。如果發(fā)現(xiàn)是有效的超鏈接,就將它的網(wǎng)址傳遞給索引器并檢查它是否屬于英國。④分類器:在對索引尉頁進(jìn)行分析的同時給出杜威十進(jìn)分類法分類號。⑤構(gòu)建器:分析索引器提供的網(wǎng)頁及其元數(shù)據(jù),建立索引數(shù)據(jù)庫,確

定索引號和關(guān)鍵詞之問的對應(yīng)關(guān)系,使得使用索引

號就可以迅速獲得相應(yīng)的燕鍵詞。⑥搜索器:接受用戶的檢索提問,在構(gòu)建器的索引數(shù)據(jù)庫中進(jìn)行查

詢,用得出的索取號獲得相應(yīng)的元數(shù)據(jù)和本地副本,使用以上的信息得到一個詳細(xì)的結(jié)果,并按相關(guān)度排列檢索結(jié)果。

WWlib中分類器對網(wǎng)頁的處理方法如下:首先,對網(wǎng)頁進(jìn)行自動標(biāo)引,對瞬頁中的語詞根據(jù)它們的詞頻和網(wǎng)頁中出現(xiàn)的位置賦予權(quán)重。然后將處理后得到的語詞集合與杜威十進(jìn)分類法分類表中的每一個款目進(jìn)行比較。每個款目包括它們的分類號、一長串關(guān)鍵詞和它們的同義詞。從一級類日開始比較,直到出現(xiàn)比較顯著的匹配值為止,此時將該網(wǎng)頁歸人此類。匹配值是在綜合考慮到語詞的相似度

以及文檔的長短等因素之后給出的。

WWlib提供的檢索途徑有關(guān)鍵詞檢索、分類號檢索、瀏覽類目下收錄的網(wǎng)頁等。wwlib也支持布爾邏輯檢索和截詞檢索。檢索結(jié)果分為兩行,第一行為分類號、網(wǎng)頁標(biāo)題,第二行是網(wǎng)頁內(nèi)容摘要。wWIib主要的問題是數(shù)據(jù)庫規(guī)模太小,筆者在2003年4月18日查看時其款且只有4874個。但是它的方法對于今后大規(guī)模網(wǎng)頁的自動分類仍然有一定的借鑒意義。

3.z

Gmuper自動聚類系統(tǒng)

Grouper是orenZamir和orenEt2ioni研制的一個自動聚類系統(tǒng),它的主要作用是對Husky—

search(這個是他們開發(fā)的一個元搜索引擎)返回的結(jié)果進(jìn)行自動聚類。他們在Grouper:A

dynamic

clusterinfinterface

to

websearch

results一文中詳

細(xì)描述了它的原理和功能,很遺憾的是隨著Oren

Zam.r和OrenEtzioni的畢業(yè)離校,這兩個系統(tǒng)也

停止了對外服務(wù),但是Gmuper還是具有很大的參考價值。

Grouper采用的是一種叫做后綴樹聚類(Suffix

Tree

Clustering)的算法(簡稱STC)。STC是一種

線性時問聚類算法,根據(jù)待聚類網(wǎng)頁中的相似短語進(jìn)行聚類。這里所說的短語就是指幾個有序的詞。此算法可以分為三個步驟。

(1)網(wǎng)頁“清洗”。這一步驟可以看作是網(wǎng)頁特征的抽取。它對代表網(wǎng)頁特征的字符串進(jìn)行過濾,標(biāo)明各旬之間的間隔,去掉不是文字的標(biāo)記符號(如HTML標(biāo)記、大部分的標(biāo)點(diǎn))。

(2)確定基本聚類串。基本聚類串是一些具有共同短語網(wǎng)頁的集合。它是在對網(wǎng)頁特征進(jìn)行抽取

的同時使用STC算法進(jìn)行計(jì)算后得到的。對于每~

個基本聚類串,根據(jù)它包含的網(wǎng)頁特征的數(shù)量以及

博泰典藏網(wǎng)btdcw.com包含總結(jié)匯報、外語學(xué)習(xí)、高中教育、高等教育、表格模板、教學(xué)研究、出國留學(xué)、行業(yè)論文、初中教育以及自動分類在搜索引擎性能優(yōu)化中的應(yīng)用_圖文等內(nèi)容。

本文共2頁12


  本文關(guān)鍵詞:自動分類在搜索引擎性能優(yōu)化中的應(yīng)用,由筆耕文化傳播整理發(fā)布。



本文編號:103528

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/103528.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f2e3b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产成人高清精品尤物| 99一级特黄色性生活片| 亚洲综合香蕉在线视频| 亚洲天堂精品在线视频| 欧美午夜视频免费观看| 免费大片黄在线观看日本| 欧美日韩精品一区免费| 亚洲国产av国产av| 亚洲国产成人av毛片国产| 日韩日韩欧美国产精品| 69老司机精品视频在线观看| 男生和女生哪个更好色| 亚洲中文字幕日韩在线| 欧美日韩高清不卡在线播放| 欧美中文日韩一区久久| 久草视频在线视频在线观看| 亚洲第一区欧美日韩在线| 在线亚洲成人中文字幕高清 | 亚洲欧美日本国产有色| 国产超碰在线观看免费| 一区二区日韩欧美精品| 五月婷婷亚洲综合一区| 日本免费一级黄色录像| 在线观看视频成人午夜| 日本高清加勒比免费在线| 欧美日韩亚洲综合国产人| 国产精品视频一级香蕉| 国产av熟女一区二区三区四区 | 91在线爽的少妇嗷嗷叫| 亚洲综合日韩精品欧美综合区| 精品视频一区二区不卡| 人妻内射在线二区一区| 精品一区二区三区人妻视频| 国产一区二区三区香蕉av| 黄片三级免费在线观看| 丰满人妻一二区二区三区av| 久久精品蜜桃一区二区av| 午夜精品一区免费视频| 欧美国产日韩变态另类在线看| 99久久国产精品免费| 日韩精品在线观看一区|