基于時態(tài)信息的主題搜索引擎研究及實(shí)現(xiàn).pdf
本文關(guān)鍵詞:基于時態(tài)信息的主題搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
中國科學(xué)技術(shù)大學(xué) 碩士學(xué)位論文
基于時態(tài)信息的主題搜索引擎的研究與實(shí)現(xiàn) 姓名:孫逸雪 申請學(xué)位級別:碩士 專業(yè):計(jì)算機(jī)應(yīng)用技術(shù) 指導(dǎo)教師:金培權(quán) 座機(jī)電話號碼 摘夏 摘要 隨著豆聯(lián)網(wǎng)的迅速發(fā)展,麗對這樣一個全球最人的信息資源寶庫,搜索引擎 為人們提供了獲取信息的入口,得到了極人的流行。但山于W曲多元化信息的 指數(shù)級增長和人們需求的多樣化,通用搜索引擎返回的結(jié)果已經(jīng)不能滿足人們對 個性化信息檢索服務(wù)的要求,于是主題搜索引擎應(yīng)運(yùn)而生。與通用搜索不同,主 題搜索引擎僅僅專注于某一領(lǐng)域,為特定領(lǐng)域的用戶提供更為精確、更全面、更 及時的搜索服務(wù)。它的很多技術(shù)與通用搜索引擎類似,但是還有一些自己獨(dú)特的
技術(shù)和一些新的需要解決問題,成為近年來研究的熱點(diǎn)。 傳統(tǒng)的主題搜索引擎僅支持基于關(guān)鍵字的搜索方式,因此在許多情況下難以
有效地表達(dá)用戶的查詢需求,例如在新聞主題搜索引擎中查詢“最近三天內(nèi)關(guān)于 甲型流感的新聞”。通過對網(wǎng)頁信息的分析,時態(tài)信息是網(wǎng)頁的一個本質(zhì)屬性, 比如網(wǎng)頁的修改時間、新聞網(wǎng)頁中蘊(yùn)含的新聞事件時間等。因此,如果能夠利用 網(wǎng)頁的時態(tài)信息來增強(qiáng)主題搜索引擎的效率,使用戶可以表達(dá)時態(tài)相關(guān)的查詢需
求,同時搜索引擎自身也提供時態(tài)查詢處理能力,則可以有效地提高主題搜索引
擎的性能。 本文圍繞基于時態(tài)信息的主題搜索引擎開展了若干關(guān)鍵技術(shù)的研究,重點(diǎn)探
討了時態(tài)主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)、主題爬蟲、搜索結(jié)果的時態(tài)排序等問題。
本文的主要貢獻(xiàn)可歸納為: 1 通過分析W.eb結(jié)構(gòu)和網(wǎng)頁特征,,提出并實(shí)現(xiàn)了一個混合主題爬蟲。該
爬蟲首先對抓取下來的網(wǎng)頁使用基于VIPS的網(wǎng)
本文關(guān)鍵詞:基于時態(tài)信息的主題搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:116649
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/116649.html