基于Lucene的教學(xué)資源垂直搜索引擎的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-10-16 03:33
隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,互聯(lián)網(wǎng)上的教育資源呈指數(shù)級(jí)增長(zhǎng)。如何能夠在這數(shù)量巨大、形式多樣的信息中準(zhǔn)確地找到自己需要的呢?通用搜索引擎在針對(duì)某一具體領(lǐng)域檢索資源時(shí),搜索結(jié)果往往覆蓋面非常廣泛,信息相關(guān)性差,不能很好地為用戶提供準(zhǔn)確的檢索服務(wù)。而垂直搜索引擎則是針對(duì)某一個(gè)行業(yè)、某一特定人群需求所設(shè)計(jì)的專業(yè)搜索引擎,它只搜索特定領(lǐng)域,并且可以對(duì)搜索結(jié)果按照該領(lǐng)域內(nèi)人們所關(guān)心的關(guān)鍵信息予以呈現(xiàn),這樣能夠?yàn)橛脩籼峁└哔|(zhì)量的檢索服務(wù)。本文使用Lucene和其它相關(guān)技術(shù)實(shí)現(xiàn)一個(gè)教育領(lǐng)域內(nèi)的專業(yè)垂直搜索引擎。它主要包括以下六個(gè)方面:(1)按照教育資源元數(shù)據(jù)規(guī)范、元數(shù)據(jù)提取的難易程度以及學(xué)習(xí)者需求確定搜索結(jié)果的元數(shù)據(jù);(2)支持網(wǎng)絡(luò)上常見(jiàn)的各種文檔的全文檢索;(3)比較并分析當(dāng)下流行的中文分詞工具包,并從中選擇適合Lucene、分詞準(zhǔn)確率較高、系統(tǒng)消耗比較合理的分詞工具;(4)針對(duì)教育資源的特殊性,改進(jìn)Lucene的排序算法,增加了發(fā)布者、資源的評(píng)分和瀏覽次數(shù)三個(gè)權(quán)重,使排序結(jié)果更加合理。(5)過(guò)濾搜索結(jié)果,用戶可按照特定需求選擇特定發(fā)布人或者發(fā)布時(shí)間的資源。(6)合理的搜索界面的設(shè)計(jì)。該搜索引...
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
去哪兒對(duì)查詢?cè)~“北京郵電大學(xué)”的查詢結(jié)果
宦畚幕?贚ucene的教學(xué)資源垂直搜索引擎的研究與實(shí)現(xiàn)翼豁l嘟黝}耀黝圖3一 1Lucene的整體功能邏輯圖各個(gè)模塊使用符合MOA規(guī)則,方便用戶選擇有效地接口,也為用戶定制自己所需的各個(gè)模塊提供高可擴(kuò)展性。各個(gè)模塊之間保持固定的協(xié)議,將實(shí)現(xiàn)方法隱藏起來(lái)。從圖3一1可以看出L。。ene的系統(tǒng)架構(gòu)分為以下幾個(gè)部分l)文檔是被解析過(guò)的oocument,各種類型的資源通過(guò)解析器被轉(zhuǎn)換成Locene可以分析處理的oocument流。相應(yīng)的文檔結(jié)構(gòu)包為org.即aehe.lueene.doeument,負(fù)責(zé)索引存儲(chǔ)時(shí)的文檔結(jié)構(gòu)管理。2)分析模塊(An。}yzer)為搜索模塊和索引模塊提供相同的解析過(guò)程。相應(yīng)的分析包為。rg.aPache.lucene.analysis,主要功能就是對(duì)文本進(jìn)行切分詞、過(guò)濾等操作。3)寫入索引 (lnde、write)是對(duì)文本內(nèi)容建立索引,而對(duì)索引維護(hù)也可以通過(guò)該接口實(shí)現(xiàn),如更新索引信息,優(yōu)化索引。相應(yīng)的索引包為
LuCene的搜索方法需要一個(gè)Qoery對(duì)象作為參數(shù)。對(duì)查詢表達(dá)式的解析實(shí)際上是將用戶輸入例如“L。。 eneORApache”的查詢表達(dá)式轉(zhuǎn)換成對(duì)應(yīng)的Qoery實(shí)例的過(guò)程,該處理流程如圖3一3所示。圖3一3查詢表達(dá)式轉(zhuǎn)換成Query的流程圖
【參考文獻(xiàn)】:
期刊論文
[1]中文分詞算法研究綜述[J]. 張啟宇,朱玲,張雅萍. 情報(bào)探索. 2008(11)
[2]搜索引擎技術(shù)的現(xiàn)狀和熱點(diǎn)[J]. 崔維梅,范榮鵬. 青年記者. 2006(16)
[3]網(wǎng)站用戶滿意度評(píng)價(jià)[J]. 丁念. 情報(bào)理論與實(shí)踐. 2006(03)
[4]基于Lucene的全文檢索系統(tǒng)研究與開發(fā)[J]. 郎小偉,王申康. 計(jì)算機(jī)工程. 2006(04)
[5]科學(xué)搜索引擎Scirus研究[J]. 程妮. 現(xiàn)代圖書情報(bào)技術(shù). 2005(03)
[6]網(wǎng)絡(luò)信息資源評(píng)價(jià)研究綜述[J]. 孫瑾. 大學(xué)圖書館學(xué)報(bào). 2005(01)
[7]網(wǎng)絡(luò)引文搜索引擎CiteSeer評(píng)析[J]. 黃日昆. 情報(bào)雜志. 2004(06)
[8]描述教育資源的元數(shù)據(jù)標(biāo)準(zhǔn)[J]. 曹樹金,馬利霞. 大學(xué)圖書館學(xué)報(bào). 2004(02)
[9]垂直搜索引擎研究[J]. 肖冬梅. 圖書館學(xué)研究. 2003(02)
碩士論文
[1]面向領(lǐng)域的垂直搜索引擎的研究與實(shí)現(xiàn)[D]. 邱偉林.大連海事大學(xué) 2011
[2]基于主題信息服務(wù)的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D]. 董超.北京郵電大學(xué) 2010
[3]基于Nutch的搜索系統(tǒng)的研究[D]. 尹輝.電子科技大學(xué) 2008
本文編號(hào):3439064
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
去哪兒對(duì)查詢?cè)~“北京郵電大學(xué)”的查詢結(jié)果
宦畚幕?贚ucene的教學(xué)資源垂直搜索引擎的研究與實(shí)現(xiàn)翼豁l嘟黝}耀黝圖3一 1Lucene的整體功能邏輯圖各個(gè)模塊使用符合MOA規(guī)則,方便用戶選擇有效地接口,也為用戶定制自己所需的各個(gè)模塊提供高可擴(kuò)展性。各個(gè)模塊之間保持固定的協(xié)議,將實(shí)現(xiàn)方法隱藏起來(lái)。從圖3一1可以看出L。。ene的系統(tǒng)架構(gòu)分為以下幾個(gè)部分l)文檔是被解析過(guò)的oocument,各種類型的資源通過(guò)解析器被轉(zhuǎn)換成Locene可以分析處理的oocument流。相應(yīng)的文檔結(jié)構(gòu)包為org.即aehe.lueene.doeument,負(fù)責(zé)索引存儲(chǔ)時(shí)的文檔結(jié)構(gòu)管理。2)分析模塊(An。}yzer)為搜索模塊和索引模塊提供相同的解析過(guò)程。相應(yīng)的分析包為。rg.aPache.lucene.analysis,主要功能就是對(duì)文本進(jìn)行切分詞、過(guò)濾等操作。3)寫入索引 (lnde、write)是對(duì)文本內(nèi)容建立索引,而對(duì)索引維護(hù)也可以通過(guò)該接口實(shí)現(xiàn),如更新索引信息,優(yōu)化索引。相應(yīng)的索引包為
LuCene的搜索方法需要一個(gè)Qoery對(duì)象作為參數(shù)。對(duì)查詢表達(dá)式的解析實(shí)際上是將用戶輸入例如“L。。 eneORApache”的查詢表達(dá)式轉(zhuǎn)換成對(duì)應(yīng)的Qoery實(shí)例的過(guò)程,該處理流程如圖3一3所示。圖3一3查詢表達(dá)式轉(zhuǎn)換成Query的流程圖
【參考文獻(xiàn)】:
期刊論文
[1]中文分詞算法研究綜述[J]. 張啟宇,朱玲,張雅萍. 情報(bào)探索. 2008(11)
[2]搜索引擎技術(shù)的現(xiàn)狀和熱點(diǎn)[J]. 崔維梅,范榮鵬. 青年記者. 2006(16)
[3]網(wǎng)站用戶滿意度評(píng)價(jià)[J]. 丁念. 情報(bào)理論與實(shí)踐. 2006(03)
[4]基于Lucene的全文檢索系統(tǒng)研究與開發(fā)[J]. 郎小偉,王申康. 計(jì)算機(jī)工程. 2006(04)
[5]科學(xué)搜索引擎Scirus研究[J]. 程妮. 現(xiàn)代圖書情報(bào)技術(shù). 2005(03)
[6]網(wǎng)絡(luò)信息資源評(píng)價(jià)研究綜述[J]. 孫瑾. 大學(xué)圖書館學(xué)報(bào). 2005(01)
[7]網(wǎng)絡(luò)引文搜索引擎CiteSeer評(píng)析[J]. 黃日昆. 情報(bào)雜志. 2004(06)
[8]描述教育資源的元數(shù)據(jù)標(biāo)準(zhǔn)[J]. 曹樹金,馬利霞. 大學(xué)圖書館學(xué)報(bào). 2004(02)
[9]垂直搜索引擎研究[J]. 肖冬梅. 圖書館學(xué)研究. 2003(02)
碩士論文
[1]面向領(lǐng)域的垂直搜索引擎的研究與實(shí)現(xiàn)[D]. 邱偉林.大連海事大學(xué) 2011
[2]基于主題信息服務(wù)的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D]. 董超.北京郵電大學(xué) 2010
[3]基于Nutch的搜索系統(tǒng)的研究[D]. 尹輝.電子科技大學(xué) 2008
本文編號(hào):3439064
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3439064.html
最近更新
教材專著