面向基礎(chǔ)教育資源的個性化垂直搜索引擎
發(fā)布時間:2017-12-12 11:05
本文關(guān)鍵詞:面向基礎(chǔ)教育資源的個性化垂直搜索引擎
更多相關(guān)文章: 個性化垂直搜索引擎 用戶興趣模型 Lucene Heritrix
【摘要】:當前,互聯(lián)網(wǎng)迅猛發(fā)展,數(shù)據(jù)資源呈指數(shù)增長,用戶從互聯(lián)網(wǎng)中查找自己所需要的信息,這時就變得非常困難,從而亟需一種技術(shù)來解決這種現(xiàn)象。搜索引擎技術(shù)的出現(xiàn)和發(fā)展讓網(wǎng)民能夠更加方便、容易的在互聯(lián)網(wǎng)中搜索自己所需信息資源。而目前大多數(shù)通用搜索引擎是基于關(guān)鍵詞匹配,并且沒有充分利用用戶個性化信息,從而用戶得到的搜索結(jié)果并不完全是用戶所需要,還需要用戶花費額外的精力來過濾無用的信息。借鑒個性化推薦系統(tǒng)的思路,將個性化技術(shù)應(yīng)用到垂直搜索引擎領(lǐng)域,從而能夠讓用戶在專業(yè)領(lǐng)域內(nèi)更有效率、更加準確的查找所需資源,能有更好的搜索體驗。 本論文首先從研究搜索引擎相關(guān)理論著手,然后著重對個性化搜索引擎關(guān)鍵技術(shù)中的主題網(wǎng)絡(luò)爬、網(wǎng)頁信息抽取技術(shù)、用戶興趣模型進行了研究,并且利用用戶興趣模型對Lucene的排序算法進行改進,最后設(shè)計一個個性化垂直搜索引擎系統(tǒng)模型,,并將其應(yīng)用到基礎(chǔ)教育領(lǐng)域。 本論文的重點有: (1)研究分析開源網(wǎng)絡(luò)爬蟲Heritrix,并在其基礎(chǔ)上擴展應(yīng)用基于鏈接分析和領(lǐng)域詞庫的爬行策略,從而設(shè)計主題網(wǎng)絡(luò)爬蟲模型。 (2)研究分析開源檢索工具Lucene的體系結(jié)構(gòu)、索引結(jié)構(gòu)、數(shù)據(jù)流以及功能,著重研究Lucene的排序算法,并對Lucene排序算法進行基于用戶興趣模型的個性化信息改進,設(shè)計檢索模型。 (3)通過研究信息抽取相關(guān)技術(shù),例如正則表達式、開源工具包HTMLParser,結(jié)合網(wǎng)頁數(shù)據(jù)和實際需求,設(shè)計信息抽取模型。 (4)研究用戶興趣建模理論,設(shè)計通過挖掘用戶對教育資源的使用行為建立用戶興趣模型的算法。
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 荊濟學(xué);張偉;;淺談如何利用Google高效搜索[J];電腦知識與技術(shù);2010年19期
本文編號:1282245
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1282245.html
最近更新
教材專著