基于Lucene的教學資源垂直搜索引擎的研究與實現(xiàn)
發(fā)布時間:2021-10-16 03:33
隨著計算機和網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,互聯(lián)網(wǎng)上的教育資源呈指數(shù)級增長。如何能夠在這數(shù)量巨大、形式多樣的信息中準確地找到自己需要的呢?通用搜索引擎在針對某一具體領(lǐng)域檢索資源時,搜索結(jié)果往往覆蓋面非常廣泛,信息相關(guān)性差,不能很好地為用戶提供準確的檢索服務(wù)。而垂直搜索引擎則是針對某一個行業(yè)、某一特定人群需求所設(shè)計的專業(yè)搜索引擎,它只搜索特定領(lǐng)域,并且可以對搜索結(jié)果按照該領(lǐng)域內(nèi)人們所關(guān)心的關(guān)鍵信息予以呈現(xiàn),這樣能夠為用戶提供更高質(zhì)量的檢索服務(wù)。本文使用Lucene和其它相關(guān)技術(shù)實現(xiàn)一個教育領(lǐng)域內(nèi)的專業(yè)垂直搜索引擎。它主要包括以下六個方面:(1)按照教育資源元數(shù)據(jù)規(guī)范、元數(shù)據(jù)提取的難易程度以及學習者需求確定搜索結(jié)果的元數(shù)據(jù);(2)支持網(wǎng)絡(luò)上常見的各種文檔的全文檢索;(3)比較并分析當下流行的中文分詞工具包,并從中選擇適合Lucene、分詞準確率較高、系統(tǒng)消耗比較合理的分詞工具;(4)針對教育資源的特殊性,改進Lucene的排序算法,增加了發(fā)布者、資源的評分和瀏覽次數(shù)三個權(quán)重,使排序結(jié)果更加合理。(5)過濾搜索結(jié)果,用戶可按照特定需求選擇特定發(fā)布人或者發(fā)布時間的資源。(6)合理的搜索界面的設(shè)計。該搜索引...
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
去哪兒對查詢詞“北京郵電大學”的查詢結(jié)果
宦畚幕?贚ucene的教學資源垂直搜索引擎的研究與實現(xiàn)翼豁l嘟黝}耀黝圖3一 1Lucene的整體功能邏輯圖各個模塊使用符合MOA規(guī)則,方便用戶選擇有效地接口,也為用戶定制自己所需的各個模塊提供高可擴展性。各個模塊之間保持固定的協(xié)議,將實現(xiàn)方法隱藏起來。從圖3一1可以看出L。。ene的系統(tǒng)架構(gòu)分為以下幾個部分l)文檔是被解析過的oocument,各種類型的資源通過解析器被轉(zhuǎn)換成Locene可以分析處理的oocument流。相應(yīng)的文檔結(jié)構(gòu)包為org.即aehe.lueene.doeument,負責索引存儲時的文檔結(jié)構(gòu)管理。2)分析模塊(An。}yzer)為搜索模塊和索引模塊提供相同的解析過程。相應(yīng)的分析包為。rg.aPache.lucene.analysis,主要功能就是對文本進行切分詞、過濾等操作。3)寫入索引 (lnde、write)是對文本內(nèi)容建立索引,而對索引維護也可以通過該接口實現(xiàn),如更新索引信息,優(yōu)化索引。相應(yīng)的索引包為
LuCene的搜索方法需要一個Qoery對象作為參數(shù)。對查詢表達式的解析實際上是將用戶輸入例如“L。。 eneORApache”的查詢表達式轉(zhuǎn)換成對應(yīng)的Qoery實例的過程,該處理流程如圖3一3所示。圖3一3查詢表達式轉(zhuǎn)換成Query的流程圖
【參考文獻】:
期刊論文
[1]中文分詞算法研究綜述[J]. 張啟宇,朱玲,張雅萍. 情報探索. 2008(11)
[2]搜索引擎技術(shù)的現(xiàn)狀和熱點[J]. 崔維梅,范榮鵬. 青年記者. 2006(16)
[3]網(wǎng)站用戶滿意度評價[J]. 丁念. 情報理論與實踐. 2006(03)
[4]基于Lucene的全文檢索系統(tǒng)研究與開發(fā)[J]. 郎小偉,王申康. 計算機工程. 2006(04)
[5]科學搜索引擎Scirus研究[J]. 程妮. 現(xiàn)代圖書情報技術(shù). 2005(03)
[6]網(wǎng)絡(luò)信息資源評價研究綜述[J]. 孫瑾. 大學圖書館學報. 2005(01)
[7]網(wǎng)絡(luò)引文搜索引擎CiteSeer評析[J]. 黃日昆. 情報雜志. 2004(06)
[8]描述教育資源的元數(shù)據(jù)標準[J]. 曹樹金,馬利霞. 大學圖書館學報. 2004(02)
[9]垂直搜索引擎研究[J]. 肖冬梅. 圖書館學研究. 2003(02)
碩士論文
[1]面向領(lǐng)域的垂直搜索引擎的研究與實現(xiàn)[D]. 邱偉林.大連海事大學 2011
[2]基于主題信息服務(wù)的垂直搜索引擎的設(shè)計與實現(xiàn)[D]. 董超.北京郵電大學 2010
[3]基于Nutch的搜索系統(tǒng)的研究[D]. 尹輝.電子科技大學 2008
本文編號:3439064
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
去哪兒對查詢詞“北京郵電大學”的查詢結(jié)果
宦畚幕?贚ucene的教學資源垂直搜索引擎的研究與實現(xiàn)翼豁l嘟黝}耀黝圖3一 1Lucene的整體功能邏輯圖各個模塊使用符合MOA規(guī)則,方便用戶選擇有效地接口,也為用戶定制自己所需的各個模塊提供高可擴展性。各個模塊之間保持固定的協(xié)議,將實現(xiàn)方法隱藏起來。從圖3一1可以看出L。。ene的系統(tǒng)架構(gòu)分為以下幾個部分l)文檔是被解析過的oocument,各種類型的資源通過解析器被轉(zhuǎn)換成Locene可以分析處理的oocument流。相應(yīng)的文檔結(jié)構(gòu)包為org.即aehe.lueene.doeument,負責索引存儲時的文檔結(jié)構(gòu)管理。2)分析模塊(An。}yzer)為搜索模塊和索引模塊提供相同的解析過程。相應(yīng)的分析包為。rg.aPache.lucene.analysis,主要功能就是對文本進行切分詞、過濾等操作。3)寫入索引 (lnde、write)是對文本內(nèi)容建立索引,而對索引維護也可以通過該接口實現(xiàn),如更新索引信息,優(yōu)化索引。相應(yīng)的索引包為
LuCene的搜索方法需要一個Qoery對象作為參數(shù)。對查詢表達式的解析實際上是將用戶輸入例如“L。。 eneORApache”的查詢表達式轉(zhuǎn)換成對應(yīng)的Qoery實例的過程,該處理流程如圖3一3所示。圖3一3查詢表達式轉(zhuǎn)換成Query的流程圖
【參考文獻】:
期刊論文
[1]中文分詞算法研究綜述[J]. 張啟宇,朱玲,張雅萍. 情報探索. 2008(11)
[2]搜索引擎技術(shù)的現(xiàn)狀和熱點[J]. 崔維梅,范榮鵬. 青年記者. 2006(16)
[3]網(wǎng)站用戶滿意度評價[J]. 丁念. 情報理論與實踐. 2006(03)
[4]基于Lucene的全文檢索系統(tǒng)研究與開發(fā)[J]. 郎小偉,王申康. 計算機工程. 2006(04)
[5]科學搜索引擎Scirus研究[J]. 程妮. 現(xiàn)代圖書情報技術(shù). 2005(03)
[6]網(wǎng)絡(luò)信息資源評價研究綜述[J]. 孫瑾. 大學圖書館學報. 2005(01)
[7]網(wǎng)絡(luò)引文搜索引擎CiteSeer評析[J]. 黃日昆. 情報雜志. 2004(06)
[8]描述教育資源的元數(shù)據(jù)標準[J]. 曹樹金,馬利霞. 大學圖書館學報. 2004(02)
[9]垂直搜索引擎研究[J]. 肖冬梅. 圖書館學研究. 2003(02)
碩士論文
[1]面向領(lǐng)域的垂直搜索引擎的研究與實現(xiàn)[D]. 邱偉林.大連海事大學 2011
[2]基于主題信息服務(wù)的垂直搜索引擎的設(shè)計與實現(xiàn)[D]. 董超.北京郵電大學 2010
[3]基于Nutch的搜索系統(tǒng)的研究[D]. 尹輝.電子科技大學 2008
本文編號:3439064
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3439064.html
最近更新
教材專著