自動(dòng)分類在搜索引擎性能優(yōu)化中的應(yīng)用42
本文關(guān)鍵詞:自動(dòng)分類在搜索引擎性能優(yōu)化中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
自動(dòng)分類在搜索引擎性能優(yōu)化中的應(yīng)用;摘要:本文論述了自動(dòng)分類在搜索引擎中的作用,介紹;關(guān)鍵詞:自動(dòng)分類搜索引擎性能優(yōu)化;中圖法分類號(hào):G354.4文獻(xiàn)標(biāo)識(shí)碼:A;Applicationofautomaticcl;CaoShujinYangTao;(DepartmentofInformation;Abstract:Thispaperdiscus;KeyWord
自動(dòng)分類在搜索引擎性能優(yōu)化中的應(yīng)用
摘要:本文論述了自動(dòng)分類在搜索引擎中的作用,介紹了網(wǎng)頁自動(dòng)分類實(shí)現(xiàn)的方法,分析了網(wǎng)絡(luò)自動(dòng)分類系統(tǒng)的實(shí)例,最后展望了自動(dòng)分類在搜索引擎中的應(yīng)用前景。
關(guān)鍵詞:自動(dòng)分類 搜索引擎 性能優(yōu)化
中圖法分類號(hào):G354.4 文獻(xiàn)標(biāo)識(shí)碼:A
Application of automatic classification in the search engine’s optimization
Cao Shujin Yang Tao
(Department of Information Management, Sun Yat-Sen University,Guangzhou,510275)
Abstract: This paper discusses automatic classification’s types and functions. Then introduces the methods to realize automatic classification .It also analyses some search engines that have adopted automatic classification. At last, it anticipates the use of automatic classification.
Key Words: Automatic classification ; Search engine; Performance optimization
根據(jù)中國互聯(lián)網(wǎng)信息中心2003年1月發(fā)布的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,用戶經(jīng)常使用的網(wǎng)絡(luò)服務(wù)中搜索引擎占68.3%,用戶得知新網(wǎng)站的主要途徑中搜索引擎占84.6[1]%。搜索引擎現(xiàn)在已成為用戶利用因特網(wǎng)信息資源所不可缺少的工具。但是搜索引擎現(xiàn)在的性能還不能令人滿意,性能亟待優(yōu)化。本文就將探討如何利用自動(dòng)分類來對搜索引擎的性能進(jìn)行優(yōu)化。
1 自動(dòng)分類的種類和作用
1.1自動(dòng)分類的種類
自動(dòng)分類就是用計(jì)算機(jī)系統(tǒng)代替人工對文獻(xiàn)等對象進(jìn)行分類,一般包括自動(dòng)聚類和自動(dòng)歸類。自動(dòng)聚類指的是由計(jì)算機(jī)系統(tǒng)按照被考察對象的內(nèi)部或者外部特征,按照一定的要求(如類別的數(shù)量限制,同類對象的親近程度等等),將相近、相似或者相同特征的對象聚合在一起的過程。自動(dòng)歸類是指計(jì)算機(jī)系統(tǒng)按照一定的分類標(biāo)準(zhǔn)或者分類參考,將被考察對象劃歸到不同類目的過程。[2]
自動(dòng)聚類和自動(dòng)歸類的主要區(qū)別就是自動(dòng)聚類不需要事先定義好分類體系,而自動(dòng)歸類則需要確定好類別體系,并且要為每個(gè)類別提供一批預(yù)先分好的對象作為訓(xùn)練文集,分類系統(tǒng)先通過訓(xùn)練文集學(xué)習(xí)分類知識(shí),在實(shí)際分類時(shí),再根據(jù)學(xué)習(xí)到的分類知識(shí)為需要分類的文獻(xiàn)確定一個(gè)或者多個(gè)類別。本文中所指的自動(dòng)分類是指對網(wǎng)頁的自動(dòng)分類,包括網(wǎng)頁的自動(dòng)
歸類和自動(dòng)聚類。
1.2自動(dòng)分類的作用
目前搜索引擎提供兩種信息查詢方式:分類瀏覽和關(guān)鍵詞檢索。分類瀏覽一般是基于網(wǎng)站分類目錄。它瀏覽的對象是網(wǎng)站,目錄分類的質(zhì)量較高,檢索效果好;但是成本高、信息更新慢、維護(hù)的工作量大。關(guān)鍵詞檢索的對象不是網(wǎng)站,而是符合條件的網(wǎng)頁。關(guān)鍵詞檢索信息量大、更新及時(shí)、不需要人工干預(yù);但是返回信息過多,質(zhì)量太低。
目前,很少搜索引擎提供對網(wǎng)頁的分類瀏覽或檢索,其原因之一是由人工進(jìn)行網(wǎng)頁的分類幾乎是不可能的。如果能夠?qū)嵤┚W(wǎng)頁的自動(dòng)分分類,就可以實(shí)現(xiàn)網(wǎng)頁標(biāo)引和檢索的分類主題一體化,搜索引擎就能夠兼有分類瀏覽、檢索和關(guān)鍵詞檢索的優(yōu)點(diǎn),同時(shí)具備族性檢索和特性檢索的功能;能夠深入到網(wǎng)頁層次,幫助用戶迅速的判斷返回的結(jié)果是否符合自己的檢索要求。例如在關(guān)鍵詞檢索中用熊貓作為檢索詞,返回的結(jié)果中作為動(dòng)物的熊貓、作為一種殺毒軟件的熊貓和作為一種電子產(chǎn)品的熊貓等內(nèi)容是夾雜在一起的,用戶要對結(jié)果進(jìn)行分析判斷,才能確定那些是自己需要的。如果采用了自動(dòng)分類技術(shù),就可將不同的內(nèi)容分到不同的類目中去,從而節(jié)省用戶的判斷時(shí)間,提高檢索效率。
2 自動(dòng)分類的實(shí)現(xiàn)方法
2.1 自動(dòng)歸類的實(shí)現(xiàn)方法
根據(jù)分類知識(shí)的獲取方法不同,可以將文本自動(dòng)分類系統(tǒng)分為兩種類型:基于知識(shí)工程的分類系統(tǒng)和基于統(tǒng)計(jì)的分類系統(tǒng);谥R(shí)工程的方法主要依賴語言學(xué)知識(shí),需要編制大量的推理規(guī)則作為分類知識(shí),實(shí)現(xiàn)相當(dāng)復(fù)雜,而且其開發(fā)費(fèi)用相當(dāng)昂貴。這方面的系統(tǒng)有卡內(nèi)基集團(tuán)為路透社開發(fā)的Construe系統(tǒng),F(xiàn)在應(yīng)用比較多的是基于統(tǒng)計(jì)的自動(dòng)分類系統(tǒng),它忽略文本的語言學(xué)結(jié)構(gòu),將文本作為特征項(xiàng)集合來看,利用加權(quán)特征項(xiàng)構(gòu)成向量進(jìn)行文本表示,利用詞頻信息對文本特征進(jìn)行加權(quán)。它實(shí)現(xiàn)起來比較簡單,并且分類準(zhǔn)確度也高,能夠滿足一般應(yīng)用的要求。向量空間模型是基于統(tǒng)計(jì)的分類系統(tǒng)中廣泛采用的文本計(jì)算模型。向量空間模型可以將給定的文本轉(zhuǎn)換成一個(gè)維數(shù)很高的向量。向量空間模型最突出的特點(diǎn)是可以方便的計(jì)算出兩個(gè)向量的相似度,即向量所對應(yīng)的文本的相似性。
在向量空間模型中,文本泛指各種機(jī)器可讀的記錄。用D(Document)表示,特征項(xiàng)(Term,用t表示)是指出現(xiàn)在文檔D中且能夠代表該文檔內(nèi)容的基本語言單位,主要是由詞或者短語構(gòu)成,文本可以用特征項(xiàng)集表示為D(T1,T2,?,Tn),其中Tk是特征項(xiàng),1<=k<=N。例如
一篇文檔中有a、b、c、d四個(gè)特征項(xiàng),那么這篇文檔就可以表示為D(a,b,c,d)。對含有n個(gè)特征項(xiàng)的文本而言,通常會(huì)給每個(gè)特征項(xiàng)賦予一定的權(quán)重表示其重要程度。即D=D(T1,W1;T2,W2;?,Tn,Wn),簡記為D=D(W1,W2,?,Wn),我們把它叫做文本D的向量
表示。其中Wk是Tk的權(quán)重,1<=k<=N。在上面那個(gè)例子中,假設(shè)a、b、c、d的權(quán)重分別為
30,20,20,10,那么該文本的向量表示為D(30,20,20,10)。在向量空間模型中,兩個(gè)
文本D1和D2之間的內(nèi)容相關(guān)度Sim(D1,D2)常用向量之間夾角的余弦值表示,公式為:
n
?W
Sim(D1,D2)?cos??k?1n
k?11k?W2kn 2(?W1k)(?W2k)k?12
其中,W1k、W2k分別表示文本D1和D2第K個(gè)特征項(xiàng)的權(quán)值,1<=k<=N。
在自動(dòng)歸類中,我們可以利用類似的方法來計(jì)算待歸類文檔和某類目的相關(guān)度。例如文本D1的特征項(xiàng)為a,b,c,d,權(quán)值分別為30,20,20,10,類目C1的特征項(xiàng)為a,c,d,e,
權(quán)值分別為40,30,20,10,則D1的向量表示為D1(30,20,20,10,0),C1的向量表示為C1(40,0,30,20,10),則根據(jù)上式計(jì)算出來的文本D1與類目C1相關(guān)度是0.86。
網(wǎng)頁自動(dòng)歸類一般包括以下步驟:
(1)網(wǎng)頁特征的抽取和加權(quán)
網(wǎng)頁特征的抽取是網(wǎng)頁自動(dòng)歸類和自動(dòng)聚類的前提。網(wǎng)頁特征的抽取可以從以下幾個(gè)方面提高網(wǎng)頁自動(dòng)分類系統(tǒng)的性能。首先是分類速度,通過網(wǎng)頁特征的選擇,可以大大減少特征集合中的特征數(shù),從而提高網(wǎng)頁自動(dòng)歸類系統(tǒng)的運(yùn)行速度,使之能夠滿足現(xiàn)實(shí)需求。二是通過適當(dāng)?shù)奶卣鬟x擇,不但不會(huì)降低系統(tǒng)的準(zhǔn)確性,反而會(huì)使系統(tǒng)的精度提高。這一點(diǎn)已經(jīng)為實(shí)驗(yàn)所證明。[3]
為了使計(jì)算機(jī)能夠更有效地處理網(wǎng)頁特征,必須對網(wǎng)頁特征進(jìn)行特征加權(quán),將網(wǎng)頁特征表示成計(jì)算機(jī)能夠處理的數(shù)學(xué)向量。網(wǎng)頁數(shù)據(jù)是一種半結(jié)構(gòu)化的數(shù)據(jù),要比文本復(fù)雜的多。在網(wǎng)頁表示中,對任一特征而言,有兩個(gè)影響它權(quán)值的因素。一是該詞的詞頻,另一個(gè)是該詞在網(wǎng)頁中出現(xiàn)的位置,在網(wǎng)頁中不同位置出現(xiàn)的語詞的價(jià)值是不同的。正如張琪玉教授指出:“如果從針對文獻(xiàn)整體的檢準(zhǔn)率的角度看,文獻(xiàn)題名中的詞最為有效。其次為文獻(xiàn)中的小標(biāo)題或者章節(jié)名、文獻(xiàn)摘要。最后為文獻(xiàn)中的詞!倍¤热穗S機(jī)抽取了300篇經(jīng)濟(jì)類網(wǎng)頁,對這些網(wǎng)頁進(jìn)行人工自由標(biāo)引、人工打分、詞頻統(tǒng)計(jì),并進(jìn)行統(tǒng)計(jì)數(shù)據(jù)的分析、研究,得出了網(wǎng)頁內(nèi)容主題與網(wǎng)頁題名、文章標(biāo)題、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML標(biāo)記等12個(gè)標(biāo)引源的主題表達(dá)能力的先后順序。得出的結(jié)論是首段>文章標(biāo)題>HTML標(biāo)記>第一段首句>網(wǎng)頁標(biāo)題>第一段尾句>
第二段首句>第二段尾句>尾段>第三段首句>其它>第三段尾句。并建議它們的加權(quán)值為5:5:5:4:4:4:2:2:2:2:2:2。[4]
(2)機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)的方法主要有支撐向量機(jī)(Support vector
machine)、最近K鄰居方法和貝葉斯算法等
要介紹支撐向量機(jī)和最近K鄰居方法。
支撐向量機(jī)是建立在計(jì)算學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險(xiǎn)最小化[5-9]。下面簡
原則之上,其主要思想針對兩類分類問題,在高維空間中尋找一個(gè)超平面作為兩類的分割,以保證最小的分類錯(cuò)誤率。支撐向量機(jī)的原理如左圖所示,其中的實(shí)心點(diǎn)和空心點(diǎn)代表兩個(gè)類別的訓(xùn)練樣本,H為將這兩個(gè)類別分開的分類線,H1和H2分別是經(jīng)過這兩個(gè)類別樣本中距分類線最近的點(diǎn)且平行于分類線的直線,H1和H2之間的距離叫做這兩個(gè)類別的分類間隙。支撐向量機(jī)的目標(biāo)是找到最優(yōu)分類線,最優(yōu)分類線不但能將兩個(gè)類別的樣本準(zhǔn)確分開,而且要使兩類的分類間隙最大。
最近K鄰居方法的基本思路是在給定新網(wǎng)頁后,考慮在訓(xùn)練網(wǎng)頁集中與該網(wǎng)頁距離最近(最相似)的K篇文本,根據(jù)這K篇網(wǎng)頁所屬的類別判斷新網(wǎng)頁所屬的類別。它首先根據(jù)特征項(xiàng)集合來對訓(xùn)練網(wǎng)頁向量重新描述,在新的網(wǎng)頁達(dá)到首先確定新網(wǎng)頁的向量表示,然后在訓(xùn)練網(wǎng)頁中選出與新網(wǎng)頁最相似的K個(gè)網(wǎng)頁。也是根據(jù)網(wǎng)頁的向量之間的距離,具體如下:
M
?W
Sim(di,dj)?k?1M
k?1ik?WjkM 2(?Wik)(?Wjk)k?12
其中K值的確定是一個(gè)關(guān)鍵的問題,F(xiàn)在的一般做法是先選定一個(gè)初始值(幾百到幾千之間),在進(jìn)行自動(dòng)歸類的過程中根據(jù)結(jié)果進(jìn)行調(diào)整。接下來在新網(wǎng)頁的K個(gè)鄰居中,依次計(jì)算每一類的權(quán)重,計(jì)算公式為:
????p(x,Cj)??Sim(x,di)y(di,Cj) ?di?KNN
????其中,x為網(wǎng)頁的特征向量,Sim(x,di)為相似度計(jì)算公式,而y(di,Cj)為類別屬性函數(shù),
如果di屬于類Cj,那么函數(shù)值為1,否則為0。最后比較類的權(quán)重,將網(wǎng)頁分到權(quán)重最大
的那個(gè)類別中去。 ?
2.2 自動(dòng)聚類的實(shí)現(xiàn)方法
網(wǎng)頁的自動(dòng)聚類一般包括四個(gè)步驟:
(1)網(wǎng)頁表示:包括特征抽取和特征選擇。特征選擇是選擇那些最具有區(qū)分性的特征,也就是最能把不同類別區(qū)分開來的特征,而不是大多數(shù)對象都具有的特征。
(2)相似度計(jì)算。主要根據(jù)網(wǎng)頁表示的距離函數(shù)來定義。
(3)聚類:根據(jù)網(wǎng)頁表示和相似度計(jì)算的結(jié)果,按照一定的規(guī)則將聚類網(wǎng)頁分成不同的類。
(4)給出聚類的標(biāo)識(shí)。在最后形成的每一類中抽取一定具有代表性的特征,作為該類的標(biāo)識(shí)。
常用的聚類方法有單遍聚類法、逆中心距聚類法、密度測試法、圖聚類法等[10-13]。下面對以上方法做一簡要介紹。
單遍聚類法是按照一定的順序從待分類的網(wǎng)頁集合中取出一篇網(wǎng)頁,任意賦予它一個(gè)新
的類別,,其標(biāo)引向量作為該新類的聚類中心向量,此后取出的各篇網(wǎng)頁與該類中心向量進(jìn)行運(yùn)算得到相似系數(shù),當(dāng)相似系數(shù)大于給定的一個(gè)預(yù)定值的時(shí)候,就將該網(wǎng)頁歸入此類,同時(shí)調(diào)整類中心向量。如果相似系數(shù)不在給定的預(yù)定值范圍內(nèi),則該網(wǎng)頁就另立新類并且創(chuàng)建該類中心向量。要處理的每一篇網(wǎng)頁依次與已有的類中心向量進(jìn)行比較,將其歸入相似度最大(且在預(yù)定值范圍之內(nèi))的類中,并且及時(shí)調(diào)整該類的中心向量。
逆中心聚類法與單遍聚類法比較類似,具體過程如下:任取一篇網(wǎng)頁作為第一個(gè)聚類中心,計(jì)算剩下的網(wǎng)頁到該網(wǎng)頁的距離,距離最大的作為第二個(gè)聚類中心。計(jì)算所有非聚類中心的網(wǎng)頁到每個(gè)聚類中心的距離,將每一篇網(wǎng)頁到每個(gè)中心距的最小距離求出,選擇出最大的最小中心距者作為新的聚類中心。當(dāng)然,這個(gè)還要結(jié)合所定義的中心距離制約機(jī)制等其它條件。聚類中心確定以后,其余文獻(xiàn)就近聚類。
密度測試法的原理是如果某個(gè)網(wǎng)頁的附近集聚有較多的網(wǎng)頁,并且在其周圍較廣的范圍內(nèi)也分布有一定的網(wǎng)頁,那么該網(wǎng)頁可作為一個(gè)聚類中心。在密度測試中,網(wǎng)頁被劃分為三種類型:未聚類網(wǎng)頁,即還沒有被集聚到任何一類中的網(wǎng)頁;松散型網(wǎng)頁,它們與已經(jīng)存在的類中心相似度比較小,尚不具備被聚于某類的條件;已被聚類的網(wǎng)頁。在聚類開始時(shí),所有的網(wǎng)頁都可以看作未聚類網(wǎng)頁。用Di表示某篇網(wǎng)頁,如果它同時(shí)滿足以下兩個(gè)條件,則
可以將Di作為類別中心:至少有n1篇網(wǎng)頁,它們與Di的相似系數(shù)都超過T1;至少有n2篇
網(wǎng)頁,它們與Di的相似系數(shù)都超過T2,其中T1≥T2且n1≤n2。T1、T2、n1、n2都是事先
給定的參數(shù)。聚類的過程如下:在未聚類網(wǎng)頁中任取一篇,把它作為聚類中心并對其進(jìn)行密度測試,測試范圍為尚未聚類和松散型的網(wǎng)頁。如果測試失敗,即被測試的網(wǎng)頁周圍不具有指定數(shù)量的網(wǎng)頁,則該網(wǎng)頁被作為松散型網(wǎng)頁。然后在未聚類網(wǎng)頁中重新選取網(wǎng)頁測試聚類中心;如果測試成功,即被測試網(wǎng)頁周圍集聚一定預(yù)定值范圍內(nèi)的相似網(wǎng)頁,則該網(wǎng)頁被作為一個(gè)聚類中心,并將其中相似度超過T1的網(wǎng)頁視為已聚類網(wǎng)頁,對于相似度小于T1又大于T2的網(wǎng)頁,視為松散型網(wǎng)頁,其他網(wǎng)頁不改變原有類型。聚類過程一直持續(xù)下去到?jīng)]有未聚類網(wǎng)頁為止。最后將剩下的松散型網(wǎng)頁就近聚集到已存在的類別中。
3 自動(dòng)分類在搜索引擎中應(yīng)用的實(shí)例
3.1 WWlib自動(dòng)歸類系統(tǒng)
WWlib()是伍爾弗漢普頓網(wǎng)絡(luò)圖書館的簡稱(Wolverhampton Web Library),它是使用了自動(dòng)歸類技術(shù)的網(wǎng)絡(luò)信息檢索系統(tǒng)。它的主要組成部分如下[14-15]:
(1)蜘蛛:任務(wù)是自動(dòng)從網(wǎng)絡(luò)上抓取網(wǎng)頁。
(2)索引器:它接收蜘蛛抓回來的網(wǎng)頁并在本地服務(wù)器上儲(chǔ)存一個(gè)副本,給網(wǎng)頁一個(gè)唯一的索取號(hào),同時(shí)創(chuàng)建一個(gè)新的元數(shù)據(jù)模板,將本地的副本分配給分析器,建造和增加分類器的元數(shù)據(jù)模板。
下載地址:自動(dòng)分類在搜索引擎性能優(yōu)化中的應(yīng)用42.Doc
【】最新搜索
自動(dòng)分類在搜索引擎性能優(yōu)化中的應(yīng)用
飛奪瀘定橋69
10課例研究方案
職業(yè)發(fā)展決策(三) 課后習(xí)題
戲子入畫一生天涯
微機(jī)實(shí)踐課答辯題及答案
中國水利工程協(xié)會(huì)材料員A-E卷答案
小樹找媽媽21
17任意角的三角函數(shù)練習(xí)題
15體育比賽開幕式策劃方案
本文關(guān)鍵詞:自動(dòng)分類在搜索引擎性能優(yōu)化中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
本文編號(hào):176297
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/176297.html