用戶興趣度算法在搜索引擎優(yōu)化中的研究與應用
本文關鍵詞:用戶興趣度算法在搜索引擎優(yōu)化中的研究與應用,由筆耕文化傳播整理發(fā)布。
搜索引擎優(yōu)化(Search Engine Optimization,簡稱SEO)是網站采用對搜索 引擎友好的技術手段,利用搜索引擎的搜索規(guī)則來提高網站在相關搜索引擎內 的排名,以達到網站排名靠前及收錄數量增加的目的。經研究發(fā)現,使用搜索 引擎的用戶一般只會留意搜索結果最前面的幾個條目,一個阿站能否以其核心 關鍵詞在主流搜索引擎中獲得自然排名優(yōu)先,在今天競爭異常激烈、信息過度 膨脹的商業(yè)社會,有著非比尋常的價值,所以不少網站都希望通過各種形式來 提升其在搜索引擎的排序,尤其是那些依靠廣告維生的網站。因此,國內外網 絡營銷人士都自發(fā)展開了對以Google、百度為代表的各種搜索引擎的研究,從 而衍生出了一種新興的行業(yè)——搜索弓丨擎優(yōu)化服務,在國內外都有著廣闊的市 場[1,3]。一般情況下,優(yōu)化好的網站,從搜索引擎來的流量都會有很大的提高, 不過這僅僅是能帶來用戶的訪問,而真正能夠留住用戶的依然是網站的內容以 及良好的用戶體驗,因此搜索引擎優(yōu)化僅僅是一個輔助手段[2]。
一般情況下,用戶對網站頁面的訪問行為都是有其目的性的,這種行為從 動機上可以分為穩(wěn)定興趣和偶然興趣。穩(wěn)定興趣是指一個人對某事物持久的興 趣傾向;偶然興趣是指一個人由于臨時需要或其他原因對某事物產生的偶然興 趣,每個人的偶然興趣可以認為是隨機變化的。但在Web日志中我們可以發(fā)現, 用戶的興趣一般具有集中性,這就說明用戶由穩(wěn)定興趣驅動的訪問頻率要遠遠 高于偶然興趣,因雄一定時間段內的Web訪問日志中必然蘊含著用戶的穩(wěn)定興 趣,也可以認為用戶的興趣是由其瀏覽過的大量頁面的興趣綜合而成。用戶興 趣度算法就是用來從日志中找出用戶最感興趣的頁面及訪問路徑,是基于Web 數據挖掘中的Web使用挖掘算法提出的。
Web數據挖掘(Web Data Mining)是數據挖掘技術的一個重要分支,是從 Web文檔、Web活動中抽取感興趣的、潛在的有用模式和隱藏信息。與傳統(tǒng)數 據庫和數據倉庫相比,Web上的信息是非結構化或半結構化的、動態(tài)的、并且 是容易造成混淆的,所以很難直接以Web網頁上的數據進行數據挖掘,而必須 經過必要的數據處理,典型Web數據挖掘的處理流程:查找資源一信息選擇和 預處理一模式發(fā)現一模式分析。根據對Web數據的感興趣程度不同,Web數據 挖掘一般可以分為三類:Web內容挖掘、Web結構挖掘、Web使用挖掘。Web數據挖掘目前普遍被用來制作網站中的推薦信息、訪問排行等用于提升網站的 用戶體驗[4A7,8,9,1()]。
但是,不論是搜索引擎優(yōu)化還是Web數據挖掘在對網站的影響上都有其局 限性。搜索引擎優(yōu)化對網站進行優(yōu)化處理的主要目的是使網站在搜索引擎的搜 索列表中擁有更高的顯示排名,其主要還是在針對搜索引擎來進行優(yōu)化,做一 個更有利于搜索引擎訪問、收錄和分的網站,其間的整個過程忽略了對于網 站來說最重要的因素——用戶,這種情況在國內更為普遍。這種只是單純的提 供關鍵詞排名服務的做法,隨著搜索引擎算法的不斷調整和改進,會使得路越 走越窄,甚至有可能發(fā)展到跟搜索引擎本身競爭排名的尷尬局面?,而Web數據 挖掘能夠通過分析網站的內容(包括訪問日志)找到其中不易察覺的內在聯系,這種聯系可以幫我們分析出用戶的訪問習慣、瀏覽興趣等,這些數據給了一個 能夠讓網站與用戶進行互動的工具,使網站具備了學習功能,實現了網站對用 戶習慣的自適應,但是搜索引擎和用戶的訪問方式畢竟是不同的,因此這種自 適應并不能充分的滿足搜索引擎的抓取需要,沒有辦法有效的幫助網站提升在 搜索引擎中的排名。
本論文的研究目的就是要將搜索引擎優(yōu)化和Web數據挖掘兩項技術進行有 效的結合,綜合兩種技術的優(yōu)點。通過Web數據挖掘來找到關鍵詞、訪問鏈接、? 訪問路徑等,再讓所得到的關聯數據為之后的搜索引擎優(yōu)化過程提供可靠、有 力的數據支持,這樣就充分利用了數據挖掘在對數據的分析、總結上的優(yōu)勢,再結合上搜索引擎優(yōu)化方面的知識和經驗,避免了在優(yōu)化的過程中由于過度重 視對搜索引擎本身排名算法的研究,從而導致的為了優(yōu)化而優(yōu)化的誤區(qū)。使得 能夠在制定優(yōu)化方案的同時也充分考慮到用戶的訪問習慣和對網站的興趣,讓 網站能在優(yōu)化的每一個環(huán)節(jié)中都充分考慮到用戶的因素,為網站提供一個合理 的優(yōu)化建議,使網站能夠利用在搜索引擎中排名的提升吸引來大量對網站真實 有效的用戶,從而進入到一個良性的循環(huán)發(fā)展過程中。
1.2相關領域研究現狀在搜索引擎優(yōu)化領域,國外發(fā)^的相對比較早,在1997年的時候就己經有 人在從事相關方面的研究了。如今,搜索引擎優(yōu)化已經發(fā)展成一個成熟、正規(guī) 的服務性行業(yè),其中以大型的服務公司和經過專業(yè)培訓的技術人員為主,為客 戶提供一整套專業(yè)的網站優(yōu)化方案。與此同時,搜索引擎優(yōu)化技術也得到了f大站長以及主流搜索引擎的認同。比如主流搜索引擎之一的Google,在其官方 網站上就專門設有一頁來介紹如何合理的進行搜索引擎優(yōu)化,并且還編寫了《搜 索引擎優(yōu)化入門指南》一書來幫助初學者網站進行正確的優(yōu)化,這充分表明了 Google對此項技術的支持態(tài)度。
對于任何一家網站來說,要想在網站推廣中取得成功,搜索引擎優(yōu)化是最 為關鍵的一項任務。同時,隨著搜索引擎不斷調整、優(yōu)化它們的排名算法規(guī)則, 每次算法上的改變都可能會讓一些排名很好的網站在一夜之間名落孫山,而失 去排名的直接后果就是失去了網站原有的訪問量。所以每次搜索引擎算法的改 變,都會在各網站之中引起不小的騷動和焦慮,搜索引擎優(yōu)化也成了一個愈來 愈復雜的任務。
國內的搜索引擎優(yōu)化行業(yè)是從2003年才正式起步,且發(fā)展情況并不如國外 那樣理想。國內雖然起步較晚,發(fā)展速度卻很快,2004年時就已經出現了大量 從事此領域的公司和個人,因為缺乏有效的管理和規(guī)范,行業(yè)發(fā)展+分混亂。 混亂過后,行業(yè)的發(fā)展逐漸成熟和規(guī)范,開始向正規(guī)化和專業(yè)化發(fā)展。但是, 由于國內從業(yè)人員依然以個人愛好者為主,且缺乏相關的專業(yè)培訓機構以及學 術交流平臺,使得在國內搜索引擎優(yōu)化技術的進步緩慢,一直停留在較初級的 水平。同時,隨著搜索引擎技術的不斷升級和完善,舊的優(yōu)化手段已經行不通, 也使得大量技術落后或采用不正當手段的公司逐漸失去市場,從而選擇放棄或 轉向采用正規(guī)方式,行業(yè)也得到進一步的凈化。
在經過了很長時間的洗禮和凈化后,目前國內的搜索引擎優(yōu)化行業(yè)已經相 當正規(guī)和專業(yè),但是依然存在著大量的公司或個人采用的是非正當的手段,且 在部分人的印象中也認為這是一種以作弊的方式余提升網站排名的方法。這主 要是因為兩個方面,首先,各個站長尤其是企業(yè)網站雖然意識到了搜索引擎優(yōu) 化對于網站的重要性,但是對其并不了解,一味地追求短期效益;其次,部分 不夠專業(yè)的從業(yè)人員為了利益去迎合客戶需求,做出投入低、見效快、回報高 的承諾,然后使用作弊的手法來使得排名快速提升,從而擾亂了行業(yè)秩序。
隨著搜索引擎技術的不斷提高和智能化,各種黑帽作弊手段在搜索排名中 的權重將越來越低,網站的相關性作用變得越來越大。以百度為例,其已經對 網站進行了等級評定,這個等級有別于Google的PageRank,百度的等級評定不 僅是考慮到鏈接等因素,更是對網站的綜合表現如用戶體驗、內容質量等方面 進行評級,此舉的主要目的是鼓勵站長制作更多的優(yōu)質網站,而不是陷于垃圾站的泥淖里;而且其對內容的相關性的判斷水平也會大幅提髙。這使得從前單 純的優(yōu)化技巧、跟蹤搜索引擎算法變化的意義越來越小,其本身的技術性將越 來越低,但對相關從業(yè)人員的綜合能力和技術的依賴程度越來越高。搜索引擎 優(yōu)化如果不與產品結合、不與用戶體驗結合,那它最終將會站到搜索引擎的對 立面,對于大型網站這方面就更明顯,它們不僅要能執(zhí)行優(yōu)化策略,網站本身 的內容也大都要對用戶有價值,即使搜索引擎不存在了,他們的網站也會有一 定的用戶基礎。
1.3論文主要研究內容本論文將以Web數據挖掘中的Web日志挖掘為主要研究對象,以建立一個 基于用戶興趣度的Web數據挖掘模型為研究目標,然后在研究平臺上依據此模 型得出的研究數據給出實際可行的優(yōu)化方案。在論文的研究過程中試圖找到一 種方法,建立一個模型,解決一類問題。
1、分析隱式關鍵詞’用戶在使用搜索引擎查找資料時,通常是在搜索引擎的輸入框中輸入與其 要查找的內容相關的關鍵詞,然后再從搜索引擎給出的相關網頁列表中查找與 其要找的內容最相近的頁面進入查看,而在尋找內容最相近頁面的過程中,用 戶的關注重點是搜索列表中前幾頁甚至是第一頁的前幾條內容,因此關鍵詞對 于一個網頁在搜索引擎中的排名來說非常的重要,在優(yōu)化的過程中有著十分重 要的地位。如果關鍵詞選的好,則可以達到事半功倍的效果,反之就有可能做 了很多的努力依然無法得到理想的排名。
以往搜索引擎優(yōu)化的技術人員在挑選關鍵詞的時候都是通讀網站內容,然 后選出出現次數最多或與文章內容最相關的詞和短語,做一番篩選后再針對所 挑選出的關鍵詞對頁面進行優(yōu)化,增加頁面關鍵詞密度(即關鍵詞在網頁上出 現的總次數與其它文字的比例)和調整關鍵詞出現的位置。此過程過于依靠技 術人員的個人能力和實施經驗,雖然還可以借助一些站長工具的幫助來分析訪 問來路頁面和來源關鍵詞,但是這些數據都是離散的,個人要從f找出其中的 關聯并總結出關鍵詞的信息,還是要花一定時間和具備足夠的經^才能完成。 而且這些工具都只是記錄了通過此關鍵詞進入的第一個頁面,但是作為用戶訪 問來說,其通過一次搜索進入一個網頁后,通常還會通過這個網頁的內部鏈接訪問其它頁面,而其所進入的第二個、第三個等后續(xù)頁面一般也都會與這個關 鍵詞有一定的關聯。
因此本論文在記錄日志時會將一次會話中的全部訪問頁面都加上來源關鍵 詞的記錄,,假設它們都是與此關鍵詞相關的頁面,然后找出每個頁面下的來源 關鍵詞排名,將其中排名高的關鍵詞作為這個頁面的隱式關鍵詞。在這個關鍵 詞排名中,很多關鍵詞都是從會話的第一條記錄的來源頁繼承過來的,因此它 們都屬于間接關鍵詞,而這類關鍵詞在常規(guī)做法中通常都是被遺漏掉的。因此, 通過這個關鍵詞排名尋找隱式關鍵詞的方法,拓寬了關鍵詞的挖掘途經,即便 是經驗不足的搜索引擎優(yōu)化技術人員也能夠找到更多的關鍵詞來進行優(yōu)化。
2、查找潛在興趣路徑.一個網站是由大量的網頁和網頁之間的鏈接所組成的,這些鏈接將各個獨 立的頁面連接成為一個相互連通的網絡,當用戶訪問其中一個頁面時,可以通 過點擊其中的鏈接訪問到同域名下的其它頁面,這個鏈接就是一個網站的內部 鏈接。搜索引擎進行頁面收錄的時候,與用戶瀏覽網站的過程十分相似,也是 先訪問到網站中的一個頁面,然后順著頁面中的鏈接一個接一個訪問下去,在 這中間如果某個鏈接所指向的頁面不存在或者某個頁面中沒有任何其它頁面的 鏈接,搜索引擎的訪問就會中斷,就會給正常的收錄帶來影響。?
一個內部鏈接做的好的網站,不僅要能夠保證搜索引擎順利的訪問并收錄 網站中的所有頁面,也要能夠通過鏈接策略來給網站的頁面加分。對于大部分 搜索引擎來說,頁面中的任何一個內部鏈接都是對鏈接所指向頁面的一次引用, 表明引用頁和被引用頁之間存在著某種聯系或相關性,同時也給被引用頁投了 一票,一個頁面被引用次數越多其票數就越多,表明這個頁面在網站中的地位 越高。因此,合理地設置內部鏈接可以有效地突出網站中的重要頁面,提升其 在搜索引擎中的排名。相應地,如果內部鏈接使用不合理甚至是濫用,雖然能 在短期提升某些頁面的排名,但是由于嚴重影響了用戶體驗,可能給網站帶來 很嚴重的后果。
本文在做網站的內部鏈接結構優(yōu)化時,提出了潛在興趣路徑的概念,它是 建立在用戶瀏覽興趣路徑的基礎上。用戶瀏覽興趣路徑是找出網站中用戶最感 興趣的、瀏覽最頻繁的一條或幾條路徑,路徑中相鄰的兩個頁面均有內部鏈接 相連,它們均屬于網站中真實存在的實體路徑。本文認為其中任一條路徑中的 任意兩個頁面都是存在相關性的,距離越近的頁面之間相關性越強,即使它們 之間沒有鏈接相連,因此如果將它們之間連接起來可能會構成一條新的瀏覽興 趣路徑。潛在興趣路徑就是由瀏覽興趣路徑中沒有鏈接相連且相關性較高的兩 個頁面所組成的。
3、應用實例分析根據前兩個步驟的結果,針對實驗網站制定關鍵詞和內部鏈接結構優(yōu)化方 案,通過此方案對網站進行如下優(yōu)化處理:a)修改實施頁面的內容,使通過Web數據挖掘找出的此頁面的隱式關鍵詞 .密度得到提升,從而提升此網頁在搜索引擎中與此關鍵詞的相關度;b)根據分析出的用戶潛在興趣路徑調整網站頁面間的鏈接結構,優(yōu)化網站 內鏈;用搜索引擎優(yōu)化來提升網站頁面在搜索引擎中的排名的最終目的是要使得 頁面甚至網站的訪問量得到提升,因此,本論文最后將對比方案實施前后實驗 頁畝的訪問量等數據,查看其是否得到顯著提升是優(yōu)化是否成功的驗證手段, 從而來驗證本論文研究項目的實施效果。
本文關鍵詞:用戶興趣度算法在搜索引擎優(yōu)化中的研究與應用,由筆耕文化傳播整理發(fā)布。
本文編號:103203
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/103203.html