用戶興趣度算法在搜索引擎優(yōu)化中的研究與應(yīng)用
本文關(guān)鍵詞:用戶興趣度算法在搜索引擎優(yōu)化中的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
搜索引擎優(yōu)化(Search Engine Optimization,簡稱SEO)是網(wǎng)站采用對搜索 引擎友好的技術(shù)手段,利用搜索引擎的搜索規(guī)則來提高網(wǎng)站在相關(guān)搜索引擎內(nèi) 的排名,以達(dá)到網(wǎng)站排名靠前及收錄數(shù)量增加的目的。經(jīng)研究發(fā)現(xiàn),使用搜索 引擎的用戶一般只會留意搜索結(jié)果最前面的幾個條目,一個阿站能否以其核心 關(guān)鍵詞在主流搜索引擎中獲得自然排名優(yōu)先,在今天競爭異常激烈、信息過度 膨脹的商業(yè)社會,有著非比尋常的價值,所以不少網(wǎng)站都希望通過各種形式來 提升其在搜索引擎的排序,尤其是那些依靠廣告維生的網(wǎng)站。因此,國內(nèi)外網(wǎng) 絡(luò)營銷人士都自發(fā)展開了對以Google、百度為代表的各種搜索引擎的研究,從 而衍生出了一種新興的行業(yè)——搜索弓丨擎優(yōu)化服務(wù),在國內(nèi)外都有著廣闊的市 場[1,3]。一般情況下,優(yōu)化好的網(wǎng)站,從搜索引擎來的流量都會有很大的提高, 不過這僅僅是能帶來用戶的訪問,而真正能夠留住用戶的依然是網(wǎng)站的內(nèi)容以 及良好的用戶體驗,因此搜索引擎優(yōu)化僅僅是一個輔助手段[2]。
一般情況下,用戶對網(wǎng)站頁面的訪問行為都是有其目的性的,這種行為從 動機(jī)上可以分為穩(wěn)定興趣和偶然興趣。穩(wěn)定興趣是指一個人對某事物持久的興 趣傾向;偶然興趣是指一個人由于臨時需要或其他原因?qū)δ呈挛锂a(chǎn)生的偶然興 趣,每個人的偶然興趣可以認(rèn)為是隨機(jī)變化的。但在Web日志中我們可以發(fā)現(xiàn), 用戶的興趣一般具有集中性,這就說明用戶由穩(wěn)定興趣驅(qū)動的訪問頻率要遠(yuǎn)遠(yuǎn) 高于偶然興趣,因雄一定時間段內(nèi)的Web訪問日志中必然蘊(yùn)含著用戶的穩(wěn)定興 趣,也可以認(rèn)為用戶的興趣是由其瀏覽過的大量頁面的興趣綜合而成。用戶興 趣度算法就是用來從日志中找出用戶最感興趣的頁面及訪問路徑,是基于Web 數(shù)據(jù)挖掘中的Web使用挖掘算法提出的。
Web數(shù)據(jù)挖掘(Web Data Mining)是數(shù)據(jù)挖掘技術(shù)的一個重要分支,是從 Web文檔、Web活動中抽取感興趣的、潛在的有用模式和隱藏信息。與傳統(tǒng)數(shù) 據(jù)庫和數(shù)據(jù)倉庫相比,Web上的信息是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動態(tài)的、并且 是容易造成混淆的,所以很難直接以Web網(wǎng)頁上的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,而必須 經(jīng)過必要的數(shù)據(jù)處理,典型Web數(shù)據(jù)挖掘的處理流程:查找資源一信息選擇和 預(yù)處理一模式發(fā)現(xiàn)一模式分析。根據(jù)對Web數(shù)據(jù)的感興趣程度不同,Web數(shù)據(jù) 挖掘一般可以分為三類:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web使用挖掘。Web數(shù)據(jù)挖掘目前普遍被用來制作網(wǎng)站中的推薦信息、訪問排行等用于提升網(wǎng)站的 用戶體驗[4A7,8,9,1()]。
但是,不論是搜索引擎優(yōu)化還是Web數(shù)據(jù)挖掘在對網(wǎng)站的影響上都有其局 限性。搜索引擎優(yōu)化對網(wǎng)站進(jìn)行優(yōu)化處理的主要目的是使網(wǎng)站在搜索引擎的搜 索列表中擁有更高的顯示排名,其主要還是在針對搜索引擎來進(jìn)行優(yōu)化,做一 個更有利于搜索引擎訪問、收錄和分的網(wǎng)站,其間的整個過程忽略了對于網(wǎng) 站來說最重要的因素——用戶,這種情況在國內(nèi)更為普遍。這種只是單純的提 供關(guān)鍵詞排名服務(wù)的做法,隨著搜索引擎算法的不斷調(diào)整和改進(jìn),會使得路越 走越窄,甚至有可能發(fā)展到跟搜索引擎本身競爭排名的尷尬局面?,而Web數(shù)據(jù) 挖掘能夠通過分析網(wǎng)站的內(nèi)容(包括訪問日志)找到其中不易察覺的內(nèi)在聯(lián)系,這種聯(lián)系可以幫我們分析出用戶的訪問習(xí)慣、瀏覽興趣等,這些數(shù)據(jù)給了一個 能夠讓網(wǎng)站與用戶進(jìn)行互動的工具,使網(wǎng)站具備了學(xué)習(xí)功能,實現(xiàn)了網(wǎng)站對用 戶習(xí)慣的自適應(yīng),但是搜索引擎和用戶的訪問方式畢竟是不同的,因此這種自 適應(yīng)并不能充分的滿足搜索引擎的抓取需要,沒有辦法有效的幫助網(wǎng)站提升在 搜索引擎中的排名。
本論文的研究目的就是要將搜索引擎優(yōu)化和Web數(shù)據(jù)挖掘兩項技術(shù)進(jìn)行有 效的結(jié)合,綜合兩種技術(shù)的優(yōu)點。通過Web數(shù)據(jù)挖掘來找到關(guān)鍵詞、訪問鏈接、? 訪問路徑等,再讓所得到的關(guān)聯(lián)數(shù)據(jù)為之后的搜索引擎優(yōu)化過程提供可靠、有 力的數(shù)據(jù)支持,這樣就充分利用了數(shù)據(jù)挖掘在對數(shù)據(jù)的分析、總結(jié)上的優(yōu)勢,再結(jié)合上搜索引擎優(yōu)化方面的知識和經(jīng)驗,避免了在優(yōu)化的過程中由于過度重 視對搜索引擎本身排名算法的研究,從而導(dǎo)致的為了優(yōu)化而優(yōu)化的誤區(qū)。使得 能夠在制定優(yōu)化方案的同時也充分考慮到用戶的訪問習(xí)慣和對網(wǎng)站的興趣,讓 網(wǎng)站能在優(yōu)化的每一個環(huán)節(jié)中都充分考慮到用戶的因素,為網(wǎng)站提供一個合理 的優(yōu)化建議,使網(wǎng)站能夠利用在搜索引擎中排名的提升吸引來大量對網(wǎng)站真實 有效的用戶,從而進(jìn)入到一個良性的循環(huán)發(fā)展過程中。
1.2相關(guān)領(lǐng)域研究現(xiàn)狀在搜索引擎優(yōu)化領(lǐng)域,國外發(fā)^的相對比較早,在1997年的時候就己經(jīng)有 人在從事相關(guān)方面的研究了。如今,搜索引擎優(yōu)化已經(jīng)發(fā)展成一個成熟、正規(guī) 的服務(wù)性行業(yè),其中以大型的服務(wù)公司和經(jīng)過專業(yè)培訓(xùn)的技術(shù)人員為主,為客 戶提供一整套專業(yè)的網(wǎng)站優(yōu)化方案。與此同時,搜索引擎優(yōu)化技術(shù)也得到了f大站長以及主流搜索引擎的認(rèn)同。比如主流搜索引擎之一的Google,在其官方 網(wǎng)站上就專門設(shè)有一頁來介紹如何合理的進(jìn)行搜索引擎優(yōu)化,并且還編寫了《搜 索引擎優(yōu)化入門指南》一書來幫助初學(xué)者網(wǎng)站進(jìn)行正確的優(yōu)化,這充分表明了 Google對此項技術(shù)的支持態(tài)度。
對于任何一家網(wǎng)站來說,要想在網(wǎng)站推廣中取得成功,搜索引擎優(yōu)化是最 為關(guān)鍵的一項任務(wù)。同時,隨著搜索引擎不斷調(diào)整、優(yōu)化它們的排名算法規(guī)則, 每次算法上的改變都可能會讓一些排名很好的網(wǎng)站在一夜之間名落孫山,而失 去排名的直接后果就是失去了網(wǎng)站原有的訪問量。所以每次搜索引擎算法的改 變,都會在各網(wǎng)站之中引起不小的騷動和焦慮,搜索引擎優(yōu)化也成了一個愈來 愈復(fù)雜的任務(wù)。
國內(nèi)的搜索引擎優(yōu)化行業(yè)是從2003年才正式起步,且發(fā)展情況并不如國外 那樣理想。國內(nèi)雖然起步較晚,發(fā)展速度卻很快,2004年時就已經(jīng)出現(xiàn)了大量 從事此領(lǐng)域的公司和個人,因為缺乏有效的管理和規(guī)范,行業(yè)發(fā)展+分混亂。 混亂過后,行業(yè)的發(fā)展逐漸成熟和規(guī)范,開始向正規(guī)化和專業(yè)化發(fā)展。但是, 由于國內(nèi)從業(yè)人員依然以個人愛好者為主,且缺乏相關(guān)的專業(yè)培訓(xùn)機(jī)構(gòu)以及學(xué) 術(shù)交流平臺,使得在國內(nèi)搜索引擎優(yōu)化技術(shù)的進(jìn)步緩慢,一直停留在較初級的 水平。同時,隨著搜索引擎技術(shù)的不斷升級和完善,舊的優(yōu)化手段已經(jīng)行不通, 也使得大量技術(shù)落后或采用不正當(dāng)手段的公司逐漸失去市場,從而選擇放棄或 轉(zhuǎn)向采用正規(guī)方式,行業(yè)也得到進(jìn)一步的凈化。
在經(jīng)過了很長時間的洗禮和凈化后,目前國內(nèi)的搜索引擎優(yōu)化行業(yè)已經(jīng)相 當(dāng)正規(guī)和專業(yè),但是依然存在著大量的公司或個人采用的是非正當(dāng)?shù)氖侄,?在部分人的印象中也認(rèn)為這是一種以作弊的方式余提升網(wǎng)站排名的方法。這主 要是因為兩個方面,首先,各個站長尤其是企業(yè)網(wǎng)站雖然意識到了搜索引擎優(yōu) 化對于網(wǎng)站的重要性,但是對其并不了解,一味地追求短期效益;其次,部分 不夠?qū)I(yè)的從業(yè)人員為了利益去迎合客戶需求,做出投入低、見效快、回報高 的承諾,然后使用作弊的手法來使得排名快速提升,從而擾亂了行業(yè)秩序。
隨著搜索引擎技術(shù)的不斷提高和智能化,各種黑帽作弊手段在搜索排名中 的權(quán)重將越來越低,網(wǎng)站的相關(guān)性作用變得越來越大。以百度為例,其已經(jīng)對 網(wǎng)站進(jìn)行了等級評定,這個等級有別于Google的PageRank,百度的等級評定不 僅是考慮到鏈接等因素,更是對網(wǎng)站的綜合表現(xiàn)如用戶體驗、內(nèi)容質(zhì)量等方面 進(jìn)行評級,此舉的主要目的是鼓勵站長制作更多的優(yōu)質(zhì)網(wǎng)站,而不是陷于垃圾站的泥淖里;而且其對內(nèi)容的相關(guān)性的判斷水平也會大幅提髙。這使得從前單 純的優(yōu)化技巧、跟蹤搜索引擎算法變化的意義越來越小,其本身的技術(shù)性將越 來越低,但對相關(guān)從業(yè)人員的綜合能力和技術(shù)的依賴程度越來越高。搜索引擎 優(yōu)化如果不與產(chǎn)品結(jié)合、不與用戶體驗結(jié)合,那它最終將會站到搜索引擎的對 立面,對于大型網(wǎng)站這方面就更明顯,它們不僅要能執(zhí)行優(yōu)化策略,網(wǎng)站本身 的內(nèi)容也大都要對用戶有價值,即使搜索引擎不存在了,他們的網(wǎng)站也會有一 定的用戶基礎(chǔ)。
1.3論文主要研究內(nèi)容本論文將以Web數(shù)據(jù)挖掘中的Web日志挖掘為主要研究對象,以建立一個 基于用戶興趣度的Web數(shù)據(jù)挖掘模型為研究目標(biāo),然后在研究平臺上依據(jù)此模 型得出的研究數(shù)據(jù)給出實際可行的優(yōu)化方案。在論文的研究過程中試圖找到一 種方法,建立一個模型,解決一類問題。
1、分析隱式關(guān)鍵詞’用戶在使用搜索引擎查找資料時,通常是在搜索引擎的輸入框中輸入與其 要查找的內(nèi)容相關(guān)的關(guān)鍵詞,然后再從搜索引擎給出的相關(guān)網(wǎng)頁列表中查找與 其要找的內(nèi)容最相近的頁面進(jìn)入查看,而在尋找內(nèi)容最相近頁面的過程中,用 戶的關(guān)注重點是搜索列表中前幾頁甚至是第一頁的前幾條內(nèi)容,因此關(guān)鍵詞對 于一個網(wǎng)頁在搜索引擎中的排名來說非常的重要,在優(yōu)化的過程中有著十分重 要的地位。如果關(guān)鍵詞選的好,則可以達(dá)到事半功倍的效果,反之就有可能做 了很多的努力依然無法得到理想的排名。
以往搜索引擎優(yōu)化的技術(shù)人員在挑選關(guān)鍵詞的時候都是通讀網(wǎng)站內(nèi)容,然 后選出出現(xiàn)次數(shù)最多或與文章內(nèi)容最相關(guān)的詞和短語,做一番篩選后再針對所 挑選出的關(guān)鍵詞對頁面進(jìn)行優(yōu)化,增加頁面關(guān)鍵詞密度(即關(guān)鍵詞在網(wǎng)頁上出 現(xiàn)的總次數(shù)與其它文字的比例)和調(diào)整關(guān)鍵詞出現(xiàn)的位置。此過程過于依靠技 術(shù)人員的個人能力和實施經(jīng)驗,雖然還可以借助一些站長工具的幫助來分析訪 問來路頁面和來源關(guān)鍵詞,但是這些數(shù)據(jù)都是離散的,個人要從f找出其中的 關(guān)聯(lián)并總結(jié)出關(guān)鍵詞的信息,還是要花一定時間和具備足夠的經(jīng)^才能完成。 而且這些工具都只是記錄了通過此關(guān)鍵詞進(jìn)入的第一個頁面,但是作為用戶訪 問來說,其通過一次搜索進(jìn)入一個網(wǎng)頁后,通常還會通過這個網(wǎng)頁的內(nèi)部鏈接訪問其它頁面,而其所進(jìn)入的第二個、第三個等后續(xù)頁面一般也都會與這個關(guān) 鍵詞有一定的關(guān)聯(lián)。
因此本論文在記錄日志時會將一次會話中的全部訪問頁面都加上來源關(guān)鍵 詞的記錄,,假設(shè)它們都是與此關(guān)鍵詞相關(guān)的頁面,然后找出每個頁面下的來源 關(guān)鍵詞排名,將其中排名高的關(guān)鍵詞作為這個頁面的隱式關(guān)鍵詞。在這個關(guān)鍵 詞排名中,很多關(guān)鍵詞都是從會話的第一條記錄的來源頁繼承過來的,因此它 們都屬于間接關(guān)鍵詞,而這類關(guān)鍵詞在常規(guī)做法中通常都是被遺漏掉的。因此, 通過這個關(guān)鍵詞排名尋找隱式關(guān)鍵詞的方法,拓寬了關(guān)鍵詞的挖掘途經(jīng),即便 是經(jīng)驗不足的搜索引擎優(yōu)化技術(shù)人員也能夠找到更多的關(guān)鍵詞來進(jìn)行優(yōu)化。
2、查找潛在興趣路徑.一個網(wǎng)站是由大量的網(wǎng)頁和網(wǎng)頁之間的鏈接所組成的,這些鏈接將各個獨 立的頁面連接成為一個相互連通的網(wǎng)絡(luò),當(dāng)用戶訪問其中一個頁面時,可以通 過點擊其中的鏈接訪問到同域名下的其它頁面,這個鏈接就是一個網(wǎng)站的內(nèi)部 鏈接。搜索引擎進(jìn)行頁面收錄的時候,與用戶瀏覽網(wǎng)站的過程十分相似,也是 先訪問到網(wǎng)站中的一個頁面,然后順著頁面中的鏈接一個接一個訪問下去,在 這中間如果某個鏈接所指向的頁面不存在或者某個頁面中沒有任何其它頁面的 鏈接,搜索引擎的訪問就會中斷,就會給正常的收錄帶來影響。?
一個內(nèi)部鏈接做的好的網(wǎng)站,不僅要能夠保證搜索引擎順利的訪問并收錄 網(wǎng)站中的所有頁面,也要能夠通過鏈接策略來給網(wǎng)站的頁面加分。對于大部分 搜索引擎來說,頁面中的任何一個內(nèi)部鏈接都是對鏈接所指向頁面的一次引用, 表明引用頁和被引用頁之間存在著某種聯(lián)系或相關(guān)性,同時也給被引用頁投了 一票,一個頁面被引用次數(shù)越多其票數(shù)就越多,表明這個頁面在網(wǎng)站中的地位 越高。因此,合理地設(shè)置內(nèi)部鏈接可以有效地突出網(wǎng)站中的重要頁面,提升其 在搜索引擎中的排名。相應(yīng)地,如果內(nèi)部鏈接使用不合理甚至是濫用,雖然能 在短期提升某些頁面的排名,但是由于嚴(yán)重影響了用戶體驗,可能給網(wǎng)站帶來 很嚴(yán)重的后果。
本文在做網(wǎng)站的內(nèi)部鏈接結(jié)構(gòu)優(yōu)化時,提出了潛在興趣路徑的概念,它是 建立在用戶瀏覽興趣路徑的基礎(chǔ)上。用戶瀏覽興趣路徑是找出網(wǎng)站中用戶最感 興趣的、瀏覽最頻繁的一條或幾條路徑,路徑中相鄰的兩個頁面均有內(nèi)部鏈接 相連,它們均屬于網(wǎng)站中真實存在的實體路徑。本文認(rèn)為其中任一條路徑中的 任意兩個頁面都是存在相關(guān)性的,距離越近的頁面之間相關(guān)性越強(qiáng),即使它們 之間沒有鏈接相連,因此如果將它們之間連接起來可能會構(gòu)成一條新的瀏覽興 趣路徑。潛在興趣路徑就是由瀏覽興趣路徑中沒有鏈接相連且相關(guān)性較高的兩 個頁面所組成的。
3、應(yīng)用實例分析根據(jù)前兩個步驟的結(jié)果,針對實驗網(wǎng)站制定關(guān)鍵詞和內(nèi)部鏈接結(jié)構(gòu)優(yōu)化方 案,通過此方案對網(wǎng)站進(jìn)行如下優(yōu)化處理:a)修改實施頁面的內(nèi)容,使通過Web數(shù)據(jù)挖掘找出的此頁面的隱式關(guān)鍵詞 .密度得到提升,從而提升此網(wǎng)頁在搜索引擎中與此關(guān)鍵詞的相關(guān)度;b)根據(jù)分析出的用戶潛在興趣路徑調(diào)整網(wǎng)站頁面間的鏈接結(jié)構(gòu),優(yōu)化網(wǎng)站 內(nèi)鏈;用搜索引擎優(yōu)化來提升網(wǎng)站頁面在搜索引擎中的排名的最終目的是要使得 頁面甚至網(wǎng)站的訪問量得到提升,因此,本論文最后將對比方案實施前后實驗 頁畝的訪問量等數(shù)據(jù),查看其是否得到顯著提升是優(yōu)化是否成功的驗證手段, 從而來驗證本論文研究項目的實施效果。
本文關(guān)鍵詞:用戶興趣度算法在搜索引擎優(yōu)化中的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
本文編號:103203
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/103203.html