基于時態(tài)信息的搜索引擎的研究與實(shí)現(xiàn)
發(fā)布時間:2021-06-16 22:46
互聯(lián)網(wǎng)已成為現(xiàn)代人生活不可或缺的一部分,是人們獲取信息的重要來源。同時互聯(lián)網(wǎng)上不斷增長的海量數(shù)據(jù)也給用戶帶來了新的挑戰(zhàn),面對如此海量的信息資源,用戶要從其中快速找出自己需要的信息是是非常困難的。為了解決這一問題,搜索引擎誕生了。搜索引擎根據(jù)一定的策略,利用特定的程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行加工處理后,為用戶提供搜索服務(wù),將和用戶搜索相關(guān)的信息以簡單明了的方式展示給用戶搜索引擎的快速發(fā)展給網(wǎng)民帶來了極大的方便,但其還是沒能從實(shí)質(zhì)上解決上述的問題,現(xiàn)有的搜索引擎通過關(guān)鍵字匹配的方式檢索網(wǎng)頁,通常會返回很多的結(jié)果,其中包含大量對用戶來說是無用的網(wǎng)頁,用戶仍然很難快速準(zhǔn)確的獲取自己所需的網(wǎng)頁。時間作為信息的本質(zhì)屬性之一,同樣也是網(wǎng)頁的本質(zhì)屬性之一。當(dāng)人們閱讀一篇新聞報道時,總是把新聞的內(nèi)容和時間聯(lián)系起來,有些信息只有在特定的時間下才有意義。在搜索信息的時候加上時態(tài)信息,可以更加準(zhǔn)確的表達(dá)用戶的查詢意圖,使得搜索引擎能夠更加快速準(zhǔn)確地找到用戶所需要的信息,所以對時態(tài)信息的研究將是搜索引擎系統(tǒng)中非常重要的課題,越來越多的搜索引擎系統(tǒng)引入了時態(tài)信息搜索,Google,Baidu搜索引擎在高級...
【文章來源】:廣東工業(yè)大學(xué)廣東省
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
目錄
CONTENTS
第一章 緒論
1.1 課題研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文研究內(nèi)容
1.4 本文的組織架構(gòu)
第二章 搜索引擎的相關(guān)原理和技術(shù)
2.1 搜索引擎的概念
2.2 搜索引擎的發(fā)展歷史和趨勢
2.2.1 搜索引擎的發(fā)展歷程
2.2.2 搜索引擎的發(fā)展趨勢
2.3 一些著名的搜索引擎
2.4 搜索引擎的一般工作原理
2.5 Nutch的組成部分及工作原理
2.5.1 Nutch的組成部分
2.5.2 Nutch網(wǎng)頁爬蟲的工作原理
2.6 Solr相關(guān)技術(shù)研究
2.6.1 solr介紹
2.6.2 solr的數(shù)據(jù)結(jié)構(gòu)
2.7 本章小總
第三章 時態(tài)信息的抽取與排序算法改進(jìn)
3.1 時間表示
3.2 網(wǎng)頁時態(tài)信息的處理流程
3.3 網(wǎng)頁內(nèi)容時態(tài)信息的抽取
3.3.1 時間短語的模板規(guī)則
3.3.2 時間詞詞典
3.3.3 時態(tài)信息抽取算法
3.4 時態(tài)信息的格式化處理
3.4.1 時態(tài)信息規(guī)范化
3.4.2 參考時間的確定
3.4.3 時態(tài)信息轉(zhuǎn)換
3.5 基于內(nèi)容時態(tài)信息的排序算法改進(jìn)
3.5.1 問題分析
3.5.2 傳統(tǒng)時態(tài)相關(guān)的排序算法
3.5.3 網(wǎng)頁內(nèi)容時態(tài)相關(guān)度排序算法(CTRR)
3.5.4 基于時態(tài)相關(guān)性的網(wǎng)頁排序
3.6 本章小結(jié)
第四章 基于內(nèi)容時態(tài)信息的搜索引擎系統(tǒng)的實(shí)現(xiàn)
4.1 系統(tǒng)目標(biāo)
4.2 系統(tǒng)架構(gòu)
4.3 功能實(shí)現(xiàn)
4.3.1 時態(tài)信息抽取實(shí)現(xiàn)
4.3.2 時態(tài)信息排序?qū)崿F(xiàn)
4.4 運(yùn)行系統(tǒng)
4.4.1 安裝nutch
4.4.2 安裝tomcat
4.4.3 安裝solr
4.4.4 執(zhí)行抓取
4.4.5 搜索結(jié)果示例
4.4.6 系統(tǒng)性能
4.5 本章小結(jié)
總結(jié)與展望
本文工作總結(jié)
下一步工作展望
參考文獻(xiàn)
致謝
本文編號:3233933
【文章來源】:廣東工業(yè)大學(xué)廣東省
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
目錄
CONTENTS
第一章 緒論
1.1 課題研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文研究內(nèi)容
1.4 本文的組織架構(gòu)
第二章 搜索引擎的相關(guān)原理和技術(shù)
2.1 搜索引擎的概念
2.2 搜索引擎的發(fā)展歷史和趨勢
2.2.1 搜索引擎的發(fā)展歷程
2.2.2 搜索引擎的發(fā)展趨勢
2.3 一些著名的搜索引擎
2.4 搜索引擎的一般工作原理
2.5 Nutch的組成部分及工作原理
2.5.1 Nutch的組成部分
2.5.2 Nutch網(wǎng)頁爬蟲的工作原理
2.6 Solr相關(guān)技術(shù)研究
2.6.1 solr介紹
2.6.2 solr的數(shù)據(jù)結(jié)構(gòu)
2.7 本章小總
第三章 時態(tài)信息的抽取與排序算法改進(jìn)
3.1 時間表示
3.2 網(wǎng)頁時態(tài)信息的處理流程
3.3 網(wǎng)頁內(nèi)容時態(tài)信息的抽取
3.3.1 時間短語的模板規(guī)則
3.3.2 時間詞詞典
3.3.3 時態(tài)信息抽取算法
3.4 時態(tài)信息的格式化處理
3.4.1 時態(tài)信息規(guī)范化
3.4.2 參考時間的確定
3.4.3 時態(tài)信息轉(zhuǎn)換
3.5 基于內(nèi)容時態(tài)信息的排序算法改進(jìn)
3.5.1 問題分析
3.5.2 傳統(tǒng)時態(tài)相關(guān)的排序算法
3.5.3 網(wǎng)頁內(nèi)容時態(tài)相關(guān)度排序算法(CTRR)
3.5.4 基于時態(tài)相關(guān)性的網(wǎng)頁排序
3.6 本章小結(jié)
第四章 基于內(nèi)容時態(tài)信息的搜索引擎系統(tǒng)的實(shí)現(xiàn)
4.1 系統(tǒng)目標(biāo)
4.2 系統(tǒng)架構(gòu)
4.3 功能實(shí)現(xiàn)
4.3.1 時態(tài)信息抽取實(shí)現(xiàn)
4.3.2 時態(tài)信息排序?qū)崿F(xiàn)
4.4 運(yùn)行系統(tǒng)
4.4.1 安裝nutch
4.4.2 安裝tomcat
4.4.3 安裝solr
4.4.4 執(zhí)行抓取
4.4.5 搜索結(jié)果示例
4.4.6 系統(tǒng)性能
4.5 本章小結(jié)
總結(jié)與展望
本文工作總結(jié)
下一步工作展望
參考文獻(xiàn)
致謝
本文編號:3233933
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3233933.html
最近更新
教材專著