搜索引擎Google的體系結(jié)構(gòu)及其核心技術(shù)研究
本文關(guān)鍵詞:搜索引擎Google的體系結(jié)構(gòu)及其核心技術(shù)研究,由筆耕文化傳播整理發(fā)布。
介紹Google的體系結(jié)構(gòu)、核心技術(shù)
第22卷第1期
2006年2月
哈爾濱商業(yè)大學(xué)學(xué)報(自然科學(xué)版)
JournalofHarbinUniversityofCommerce(NaturalSciencesEdition)
Vol.22No.1Feb.2006
搜索引擎Google的體系結(jié)構(gòu)及其核心技術(shù)研究
王德峰,李 東
1,2
1
(1.哈爾濱工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院,黑龍江哈爾濱150001;2.哈爾濱商業(yè)大學(xué)計算機與信息工程學(xué)院,黑龍江哈爾濱150028)
摘 要:Google采用了并行,索引桶,數(shù)據(jù)壓縮,PageRank算法等的技術(shù),建立了復(fù)雜的體系結(jié)構(gòu),包括網(wǎng)絡(luò)爬行機器人crawler、知識庫Repository、索引系統(tǒng)(包括索引器indexer,桶barrels,文件索引等)、排序器Sorter和搜索器Searcher五個部分.Google的rank系統(tǒng)綜合了詞頻,類型,相鄰度,網(wǎng)頁重要性等因素.其中最值得一提的是計算網(wǎng)頁重要性的PageRank算法,它把文獻(xiàn)檢索的引用理論應(yīng)用到Web中,即一個網(wǎng)頁有很多網(wǎng)頁指向它,或者一些重要的網(wǎng)頁指向它,則這個網(wǎng)頁很重要.PageRank算法大大提高了檢索效率.
關(guān)鍵詞:搜索引擎;PageRank;Google;網(wǎng)絡(luò)爬行機器人;排序中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A
文章編號:1672-0946(2006)01-0084-04
StudyonarchitectureandcoretechnologyofsearchengineGoogle
WANGDe feng,LIDong
1,2
1
(1.SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin150001,China;2.SchoolofComputerandInformationEngineering,HarbinUniversityofCommerce,Harbin150028,China)
Abstract:ItishardtoretrieveinformationontheInternet,butsearchenginemakeiteasy.ThedataontheInternetissolargethattheretrieveinformationtechnologyonthenormaldatabasecannotmeettherequirement.Toresolvetheproblem,sometechnologies,suchasparallelprocess ing,barrelsorting,compressionandPageRank,areappliedtoGoogle.Soitisacomplicatedsystemwhichhavefiveparts,crawler,Repository,indexsystem(includingindexer,barrels,fileindexandsoon),sorter,searcher.TheranksystemofGoogleconsidersbothcount weight,typeweight,prox weight,andPageRankwhichweighttheimportanceofapage.AppliedAcademiccitationliteraturetotheWeb,apagecanhaveahighPageRankiftherearemanypagesthatpointtoit,oriftherearesomepagesthatpointtoitandhaveahighPageRank.ApplyingthePageR ank,thesearchtechnologyisimprovedeffectively.
Keywords:searchengine;PageRank;Google;crawler;sort
據(jù)統(tǒng)計,Web已經(jīng)擁有100億左右的靜態(tài)網(wǎng)頁
[1]
和550億左右的動態(tài)網(wǎng)頁.在如此浩瀚的信息海洋里尋找信息,如同 大海撈針 .而方便快捷的搜索引擎為我們提供了可能,這也是搜索引擎高據(jù)榜首的原因之一.
收稿日期:2005-09-21.
作者簡介:王德峰(1974-),女,教師,研究方向:搜索引擎,Web數(shù)據(jù)挖掘;李 東(1967-),博士后,教授.研究方向:網(wǎng)絡(luò)信息安全技術(shù),并行計算,計算機系統(tǒng)結(jié)構(gòu),計算機圖形學(xué)等.
根據(jù)!中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告(2005 1) 用戶在互聯(lián)網(wǎng)上獲取信息最常用的方法是通
[2]
過搜索引擎:占70.7%.遠(yuǎn)遠(yuǎn)高于位于第二位的直接訪問已知的網(wǎng)站:占24.6%.搜索引擎的后起之秀Google每天處理的搜索請求已達(dá)2億次.由此可
本文關(guān)鍵詞:搜索引擎Google的體系結(jié)構(gòu)及其核心技術(shù)研究,由筆耕文化傳播整理發(fā)布。
,本文編號:136693
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/136693.html