基于時(shí)態(tài)信息的主題搜索引擎的研究與實(shí)現(xiàn).pdf全文
本文關(guān)鍵詞:基于時(shí)態(tài)信息的主題搜索引擎的研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
中國科學(xué)技術(shù)大學(xué)
碩士學(xué)位論文
基于時(shí)態(tài)信息的主題搜索引擎的研究與實(shí)現(xiàn)
姓名:孫逸雪
申請學(xué)位級別:碩士
專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)
指導(dǎo)教師:金培權(quán)
20090501摘夏
摘要
隨著豆聯(lián)網(wǎng)的迅速發(fā)展,麗對這樣一個全球最人的信息資源寶庫,搜索引擎
為人們提供了獲取信息的入口,得到了極人的流行。但山于曲多元化信息的
指數(shù)級增長和人們需求的多樣化,通用搜索引擎返回的結(jié)果已經(jīng)不能滿足人們對
個性化信息檢索服務(wù)的要求,于是主題搜索引擎應(yīng)運(yùn)而生。與通用搜索不同,主
題搜索引擎僅僅專注于某一領(lǐng)域,為特定領(lǐng)域的用戶提供更為精確、更全面、更
及時(shí)的搜索服務(wù)。它的很多技術(shù)與通用搜索引擎類似,但是還有一些自己獨(dú)特的
技術(shù)和一些新的需要解決問題,成為近年來研究的熱點(diǎn)。
傳統(tǒng)的主題搜索引擎僅支持基于關(guān)鍵字的搜索方式,因此在許多情況下難以
有效地表達(dá)用戶的查詢需求,例如在新聞主題搜索引擎中查詢“最近三天內(nèi)關(guān)于
甲型流感的新聞”。通過對網(wǎng)頁信息的分析,時(shí)態(tài)信息是網(wǎng)頁的一個本質(zhì)屬性,
比如網(wǎng)頁的修改時(shí)間、新聞網(wǎng)頁中蘊(yùn)含的新聞事件時(shí)間等。因此,如果能夠利用
網(wǎng)頁的時(shí)態(tài)信息來增強(qiáng)主題搜索引擎的效率,使用戶可以表達(dá)時(shí)態(tài)相關(guān)的查詢需
求,同時(shí)搜索引擎自身也提供時(shí)態(tài)查詢處理能力,則可以有效地提高主題搜索引
擎的性能。
本文圍繞基于時(shí)態(tài)信息的主題搜索引擎開展了若干關(guān)鍵技術(shù)的研究,重點(diǎn)探
討了時(shí)態(tài)主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)、主題爬蟲、搜索結(jié)果的時(shí)態(tài)排序等問題。
本文的主要貢獻(xiàn)可歸納為:
通過分析.結(jié)構(gòu)和網(wǎng)頁特征,提出并實(shí)現(xiàn)了一個混合主題爬蟲。該
爬蟲首先對抓取下來的網(wǎng)頁使用基于的網(wǎng)頁分析算法計(jì)算網(wǎng)頁與主題的相
關(guān)性并選取相關(guān)鏈接,然后結(jié)合元搜索技
本文關(guān)鍵詞:基于時(shí)態(tài)信息的主題搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:137886
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/137886.html