天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

搜索引擎Nutch在數(shù)字圖書(shū)館中集成應(yīng)用的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-03-20 11:50
【摘要】: 計(jì)算機(jī)技術(shù)與通信網(wǎng)絡(luò)技術(shù)高速發(fā)展,網(wǎng)頁(yè)資源日益成為一種重要的學(xué)術(shù)資源形式,在數(shù)字圖書(shū)館的資源建設(shè)中受到重視。然而網(wǎng)絡(luò)信息有著數(shù)據(jù)量大,更新速度快、分布靈活分散,無(wú)序化等特點(diǎn)。因此,如何實(shí)現(xiàn)對(duì)特定領(lǐng)域、學(xué)科的實(shí)時(shí)監(jiān)測(cè)和有效分析,使圖書(shū)館用戶(hù)在檢索專(zhuān)業(yè)內(nèi)容時(shí),可以從網(wǎng)絡(luò)信息中更快速,更準(zhǔn)確的找到有用信息,成為數(shù)字圖書(shū)館專(zhuān)題資源建設(shè)工作的重點(diǎn)研究課題。 本文在數(shù)字圖書(shū)館系統(tǒng)集成應(yīng)用的框架下,通過(guò)對(duì)主題搜索引擎技術(shù)原理和應(yīng)用的研究,對(duì)目前具有代表性的開(kāi)源網(wǎng)絡(luò)抓取軟件進(jìn)行了比較分析,最終選擇在Nutch基礎(chǔ)之上進(jìn)行多種擴(kuò)展和改進(jìn),采用正則表達(dá)式過(guò)濾、lucene全文索引、基于字典的中文分詞、多線程控制、webservice、層次化自動(dòng)聚類(lèi)等關(guān)鍵技術(shù),研究并實(shí)現(xiàn)了基于Nutch的專(zhuān)題網(wǎng)絡(luò)資源定向采集服務(wù)系統(tǒng)N-WHSS (Nutch-based Website Harvest and Service system in Special field). N-WHSS系統(tǒng)在引入搜索引擎基本架構(gòu)模型,即抓取器、索引器、查詢(xún)器的基礎(chǔ)上,根據(jù)數(shù)字圖書(shū)館系統(tǒng)集成應(yīng)用的實(shí)用化要求,設(shè)計(jì)開(kāi)發(fā)了GUI信息定制模塊、信息過(guò)濾模塊、基于字典的中文分詞模塊、專(zhuān)題知識(shí)庫(kù)信息加工標(biāo)引模塊和基于webservice的檢索服務(wù)模塊。使得系統(tǒng)功能和性能方面以及實(shí)用性、易用性方面都有很大的提升。此外,在系統(tǒng)獨(dú)立功能實(shí)現(xiàn)的基礎(chǔ)上,本文特別研究了系統(tǒng)在數(shù)字圖書(shū)館中的集成應(yīng)用,介紹了與中心倉(cāng)儲(chǔ)系統(tǒng)、資源加工系統(tǒng)和統(tǒng)一檢索系統(tǒng)的集成,提高了系統(tǒng)的松耦合和擴(kuò)展性,不僅具有實(shí)用價(jià)值也符合SOA技術(shù)發(fā)展的要求。 文中首先對(duì)搜索引擎的概念,發(fā)展歷史和工作原理進(jìn)行了簡(jiǎn)要分析,對(duì)N-WHSS系統(tǒng)所依托的開(kāi)源搜索引擎框架Nutch以及根據(jù)應(yīng)用需求對(duì)其進(jìn)行擴(kuò)展改進(jìn)過(guò)程中所使用的關(guān)鍵技術(shù)進(jìn)行了深入研究,詳細(xì)論述了N-WHSS的體系架構(gòu)和設(shè)計(jì)方案。該文最后在系統(tǒng)實(shí)現(xiàn)的基礎(chǔ)上,對(duì)基于Nutch的專(zhuān)題網(wǎng)絡(luò)資源定向采集服務(wù)系統(tǒng)在數(shù)字圖書(shū)館中的實(shí)用化集成應(yīng)用做了總結(jié),并對(duì)下一步研究做了展望和建議。
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2010
【分類(lèi)號(hào)】:TP391.3;G250.76

【引證文獻(xiàn)】

相關(guān)博士學(xué)位論文 前1條

1 李鵬;數(shù)字圖書(shū)館內(nèi)容管理開(kāi)源軟件應(yīng)用與評(píng)價(jià)研究[D];吉林大學(xué);2012年

相關(guān)碩士學(xué)位論文 前1條

1 陳車(chē)前;基于Nutch的并行搜索系統(tǒng)的優(yōu)化設(shè)計(jì)[D];華南理工大學(xué);2011年

,

本文編號(hào):2591738

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/2591738.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)dc007***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com