主題WEB搜索引擎優(yōu)化與實(shí)現(xiàn)研究
本文關(guān)鍵詞:主題WEB搜索引擎優(yōu)化與實(shí)現(xiàn)研究,由筆耕文化傳播整理發(fā)布。
獨(dú)創(chuàng)性聲明
本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)志和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得金目巴』些太堂或其他教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。
學(xué)位論文作者簽字.知p簽字嗍2巾吖,心日
學(xué)位論文版權(quán)使用授權(quán)書
本學(xué)位論文作者完全了解金旦旦王些太堂有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱或借閱。本人授權(quán)盒膽王些盤。炭梢詫W(xué)位論文的全部或部分論文內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。
(保密的學(xué)位論文在解密后適用本授權(quán)書)
學(xué)位論文者簽名:五1血、l導(dǎo)師簽名
簽字日期:≯胡年,1月2S日
J簽字日期:
學(xué)位論文作者畢業(yè)后去向:
工作單位:
通訊地址:電話:郵編:D哆%7刁7衫
致謝
在這里我衷心地感謝我的導(dǎo)師胡學(xué)鋼教授。在攻讀學(xué)位期間,自始至終得到了胡老師無微不至的關(guān)懷,感謝他將豐富的科研經(jīng)驗(yàn)和學(xué)術(shù)思想傳授給我。他嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度,勤奮認(rèn)真、刻苦耐勞、忘我的工作精神,嚴(yán)以律己、寬以待人的處事原則都使我受益非淺。通過胡老師的言傳身教,使我在攻取學(xué)位期間,不僅在學(xué)到了知識(shí),更重要的是我學(xué)會(huì)如何學(xué)習(xí)和鉆研一個(gè)新的知識(shí),一個(gè)新的領(lǐng)域,如何進(jìn)行科研的一套方法,這將讓我在以后的工作學(xué)習(xí)中終身受益。
還要感謝攻讀學(xué)位期間,本校的所有的任課老師,我從他們那里吸取了豐富的知識(shí)營養(yǎng)和分析、解決問題的思路和方法。
最后,還要感謝工大給了我們在職人員一次學(xué)習(xí)和提高自己的機(jī)會(huì),讓我們在以后的人生道路上走的更好,更踏實(shí)。謝謝你們!
劉兵二oo九年九月
第一章引言
1.1本課題的研究背景
隨著科技的發(fā)展,通信和網(wǎng)絡(luò)技術(shù)的進(jìn)步,信息化已經(jīng)是現(xiàn)代社會(huì)發(fā)展的一個(gè)方向,互聯(lián)網(wǎng)絡(luò)已經(jīng)成為人們獲取信息、傳遞信息的最重要途徑,但隨之伴隨著的是造成了WEB信息的爆炸性增長。2009年7月16只,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布《第24次中國互聯(lián)兩絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》I】1顯示,截至2009年6月30只,我國網(wǎng)民規(guī)模(338億)、寬帶網(wǎng)民數(shù)(3.2億)、國家頂級域名注冊量(1296萬)三項(xiàng)指標(biāo)仍然穩(wěn)居世界第一,互聯(lián)網(wǎng)普及率穩(wěn)步提升,網(wǎng)絡(luò)信息的容量呈海量增長的態(tài)勢。
萬人“
35000
28000
21000
14000
7000
O
200512200662006珊礬耄協(xié)毒薹豫嗽
一阿民數(shù)斗互聯(lián)阿昔爰軍1220076200T.122008.620081220096
圖卜12009年歷次上同總?cè)藬?shù)和互聯(lián)阿普及率調(diào)查結(jié)果
在現(xiàn)代社會(huì)中,毫無疑問通過互聯(lián)網(wǎng)進(jìn)行信息的獲取,是人們獲取信息的最重要方式之一。人們在使用互聯(lián)網(wǎng)時(shí),電子郵件是最多的服務(wù)項(xiàng)目,而搜索引擎則是僅次于電子郵件的互聯(lián)網(wǎng)網(wǎng)絡(luò)服務(wù)項(xiàng)目。隨著互聯(lián)網(wǎng)絡(luò)中信息容量的海量增長.而網(wǎng)絡(luò)環(huán)境卻叉日趨復(fù)雜。這樣以Google、Baidu等為代表的,以所有頁面為搜索目的的通用性搜索引擎正面臨著巨大的挑戰(zhàn)。首先,網(wǎng)站的頁面內(nèi)容隨著時(shí)間的變化是不斷更新的,而通用搜索引擎數(shù)據(jù)庫的更新是需要一段時(shí)間的,如Google,其更新數(shù)據(jù)庫大概要一個(gè)月的時(shí)間;其次,通用搜索引肇還無法完成對所有的頁面的索引,比如目前全球最大的搜索引擎Google,其索引也僅占Web所有頁面的762%”1;另外,通用型的搜索引擎無法滿足現(xiàn)代社會(huì)人們所需要的個(gè)性化搜索要求,比如不同的專業(yè)、興趣的人們需要通過個(gè)性化的搜索快速得到所需的信息。
針對通用搜索引擎的現(xiàn)狀和存在的問題,促使人們試圖尋找到一種更為有效的Internet信息檢索方法,從而在瀚如煙海的信息海洋中,盡可能的搜索到需要的網(wǎng)頁內(nèi)容,而對無關(guān)頁面進(jìn)行最大限度的過濾。正是由于這樣的檢索需
要,同時(shí)為滿足一些高級或?qū)I(yè)性領(lǐng)域的Web信息檢索,產(chǎn)生了為獲得一個(gè)面向特定主題(或者特寫領(lǐng)域)的全面的Web頁面集合,這就是信息檢索領(lǐng)域的新方向一一主題Web搜索uJ。
主題Web搜索的任務(wù)是首先根據(jù)搜索對象所確定的目標(biāo)主題,以智能的主題爬蟲¨巧1在Internet上進(jìn)行自動(dòng)爬行(Crawl),下載網(wǎng)頁,然后再對下載的頁面集通過一定的分析算法進(jìn)行智能的分析和處理,保留符合要求的頁面,拋棄不符合要求的頁面,并按照一定的格式進(jìn)行保存,按照類別建立索引,以便用戶可以方便地進(jìn)行檢索和使用。它的核心技術(shù)主要有:主題網(wǎng)絡(luò)蜘蛛的搜索策略、文檔的分類與索引技術(shù)、查詢結(jié)果的表現(xiàn)技術(shù)等。
主題WEB搜索引擎發(fā)展現(xiàn)狀分析
目前,在國內(nèi)的主題搜索引擎已經(jīng)有所發(fā)展,但就整個(gè)發(fā)展來說,還是比較緩慢,遠(yuǎn)遠(yuǎn)不能滿足社會(huì)需求和用戶的專業(yè)搜索需要,還有待更進(jìn)一步的發(fā)展。目前常見的主題型搜索引擎所涉及的領(lǐng)域包括專利檢索、工程、化學(xué)、物理和醫(yī)學(xué)和商機(jī)等。例如,網(wǎng)上電子期刊的檢索工具(中華期刊網(wǎng))【7】、中國專利信息網(wǎng)、國家標(biāo)準(zhǔn)(CNS)搜索系統(tǒng)等。1.2
而國外的主題搜索引擎相對來說發(fā)展較快,數(shù)量上也比較多is】。比如:博客搜索引擎,Blogdex(http://blogdex.media.mit.edu/)、BloggingHeadlineNews(http://blogging—news.info);化學(xué)物質(zhì)信息搜索,,CheraFinder(http://chem.Frnder.camsoft.com)CambridgeSofi公司開發(fā)的面向化學(xué)工作者的檢索;雜志、期刊搜索,eLibrary(http://ask.elibrary.corn/)、FindArticles.com(http://www.find.articles.com/)和MagPortal(http://www.magportal.corn/)。還有圖像/音頻/視頻搜索AllTheWeb(http://www.alltheweb.com/)、AltaVista(http://www.altavista.-corn)和Ditto(imagesonly)(http:Hwww.ditto.com/)等。
在國外,現(xiàn)在主要有以下幾個(gè)有代表性的系統(tǒng)【9。1l】:
(1)Elsevier的Scirus系統(tǒng)(http://www.scirus.tom/)
SCIRUS是由愛思唯爾科學(xué)公司(ElsevierScience)于2001年4月推出的迄今為止國際互聯(lián)網(wǎng)上最全面的科技信息專用搜索引擎。它以自身擁有的資源為主體,對網(wǎng)上具有科學(xué)價(jià)值的資源進(jìn)行整合,集聚了帶有科學(xué)內(nèi)容的網(wǎng)站及與科學(xué)相關(guān)的網(wǎng)頁上的科學(xué)論文、科技報(bào)告、會(huì)議論文、專業(yè)文獻(xiàn)、預(yù)印本等。其目的是力求在科學(xué)領(lǐng)域內(nèi)做到對信息全面深入的收集,以統(tǒng)一的檢索模式面向用戶提供檢索服務(wù)。SCIRUS高級檢索支持邏輯檢,如使用
等邏輯語言進(jìn)行邏輯檢索!埃幔睿洹、“or"
Scirus到目前為止是互聯(lián)網(wǎng)上最全面、綜合性最強(qiáng)的科技文獻(xiàn)門戶網(wǎng)站之
一。曾被《搜索引擎觀察》評為“最佳專業(yè)搜索引擎"。
(2)NEC研究院的Researchlndex(http://citeseer.ist.psu.edu/)2
本文關(guān)鍵詞:主題WEB搜索引擎優(yōu)化與實(shí)現(xiàn)研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):109148
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/109148.html