基于主題的搜索引擎的研究與實(shí)現(xiàn).pdf 全文
本文關(guān)鍵詞:基于主題的搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
北京交通大學(xué)
碩士學(xué)位論文
基于主題的搜索引擎的研究與實(shí)現(xiàn)
姓名:傅士光
申請(qǐng)學(xué)位級(jí)別:碩士
專(zhuān)業(yè):計(jì)算機(jī)應(yīng)用技術(shù)
指導(dǎo)教師:林友芳
20071201
中文摘要
由于Web海量的信息處于不斷的變化中,搜索引擎己經(jīng)很難再為用戶提供一
個(gè)高質(zhì)量的、全面并且更新及時(shí)的信息搜索服務(wù),其局限性在于它試圖索引全部
Web信息并服務(wù)于所有主題的查詢請(qǐng)求。相比之下,主題搜索引擎只覆蓋與特定
主題相關(guān)的Web區(qū)域,這樣它搜索的內(nèi)容可以更深,搜索的周期可以更短,因此
能滿足用戶對(duì)快速、準(zhǔn)確的獲取信息資源的要求。目前,基于主題的Web搜索引
擎正成為計(jì)算機(jī)科學(xué)界和信息產(chǎn)業(yè)界爭(zhēng)相研究、開(kāi)發(fā)的對(duì)象。
本文首先簡(jiǎn)要介紹了搜索引擎及其發(fā)展現(xiàn)狀,分析了存在的優(yōu)缺點(diǎn);然后通過(guò)
對(duì)當(dāng)前通用搜索引擎技術(shù)的學(xué)習(xí)和研究,結(jié)合基于主題搜索引擎的特點(diǎn),設(shè)計(jì)出
了基于主題搜索引擎的各個(gè)模塊和總體的架構(gòu);而后本文分三個(gè)章節(jié)詳細(xì)分析、
設(shè)計(jì)和實(shí)現(xiàn)了該搜索引擎的三大模塊:基于規(guī)則的中文分詞模塊、基于主題的Web
信息抓取和Web內(nèi)容的存儲(chǔ)與索引模塊。它們構(gòu)成了本文的核心部分。通過(guò)對(duì)基
于規(guī)則的中文分詞模塊的設(shè)計(jì)和實(shí)現(xiàn),創(chuàng)新性地將詞典、詞性、詞頻信息,改進(jìn)
的傳統(tǒng)分詞算法和中文文法篩選規(guī)則結(jié)合起來(lái),,從而大大提高了分詞的正確率;
通過(guò)對(duì)基于主題的Web信息抓取模塊的設(shè)計(jì)和實(shí)現(xiàn),在完成了基本的信息抓取的
基礎(chǔ)上,還利用動(dòng)態(tài)Web信息抓取技術(shù)解決了Web2.0給傳統(tǒng)信息抓取帶來(lái)的困難;
本文關(guān)鍵詞:基于主題的搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):154848
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/154848.html