基于solr下的搜索引擎核心技術(shù)研究與應(yīng)用
發(fā)布時(shí)間:2021-11-12 10:36
文章對(duì)基于solr技術(shù)對(duì)某種搜索引擎技術(shù)核心系統(tǒng)進(jìn)行進(jìn)行了開(kāi)發(fā),從功能模塊、信息抽取模塊、索引模塊三個(gè)方面進(jìn)行了分析與構(gòu)建;搭建了solr搜索引擎技術(shù)的開(kāi)發(fā)環(huán)境以及索引模塊的工作模式,進(jìn)一步解析了當(dāng)前搜索引擎工作的不足之處,為提高搜索引擎的工作性能指出了方向和方法。
【文章來(lái)源】:電子制作. 2020,(14)
【文章頁(yè)數(shù)】:3 頁(yè)
【部分圖文】:
網(wǎng)頁(yè)抓取模塊類圖
網(wǎng)頁(yè)抓取模塊是信息抽取模塊的基礎(chǔ),信息抽取模塊通過(guò)抽取網(wǎng)頁(yè)抓取模塊的頁(yè)面內(nèi)容,并將其存儲(chǔ)到數(shù)據(jù)庫(kù),信息抽取模塊流類圖如圖3所示。解析文件類以列表的形式返回頁(yè)面庫(kù)中獲取頁(yè)面庫(kù)中所有網(wǎng)頁(yè)的類,返回頁(yè)面庫(kù)的網(wǎng)頁(yè)文件將以列表的形式進(jìn)行。Pares文件利用率是用來(lái)計(jì)算每一個(gè)頁(yè)面相對(duì)應(yīng)的網(wǎng)址;連接實(shí)用程序類是抽象出來(lái)負(fù)責(zé)與數(shù)據(jù)庫(kù)連接,此操作用到了數(shù)據(jù)庫(kù)連接池,在一定程度上減少了對(duì)數(shù)據(jù)庫(kù)的連接次數(shù);信息處理程序包含注射數(shù)據(jù)庫(kù)核心方法,它先調(diào)用解析文件類的獲取所有文件,以列表文件的形式返回所有的網(wǎng)頁(yè)文件,接著調(diào)用解析文件類的獲取絕對(duì)的統(tǒng)一資源定位地址得到每一個(gè)文件對(duì)應(yīng)的網(wǎng)址,之后調(diào)用JoyDoc獲得文件的網(wǎng)頁(yè)內(nèi)容和網(wǎng)頁(yè)標(biāo)題等[4]。最后通過(guò)連接到的通數(shù)據(jù)庫(kù)進(jìn)行連接和插入操作,然后進(jìn)行存儲(chǔ),所有的連接類都以單列模式出現(xiàn)。
索引模塊包括兩部分:調(diào)用建立索引類、定時(shí)器。定時(shí)器會(huì)定時(shí)的調(diào)用對(duì)數(shù)據(jù)庫(kù)中的內(nèi)容建立索引,其流程類圖如圖4所示。Java之后的時(shí)間任務(wù)就是就是調(diào)用任務(wù),它繼承重寫了運(yùn)行的方法,實(shí)現(xiàn)了將網(wǎng)頁(yè)內(nèi)容插入到數(shù)據(jù)庫(kù)中,該方法調(diào)用信息管理員的實(shí)例注射數(shù)據(jù)庫(kù)的方法。該模塊的主類是調(diào)用Solr,它包含一個(gè)計(jì)時(shí)器對(duì)象,該計(jì)時(shí)器對(duì)象定時(shí)運(yùn)行任務(wù)實(shí)例的運(yùn)行方法,運(yùn)用周期和開(kāi)始時(shí)間由開(kāi)始時(shí)間和循環(huán)時(shí)間制定。
【參考文獻(xiàn)】:
期刊論文
[1]基于物聯(lián)網(wǎng)技術(shù)的搜索引擎技術(shù)研究[J]. 唐亞純. 計(jì)算機(jī)產(chǎn)品與流通. 2020(06)
[2]基于Solr的標(biāo)準(zhǔn)信息檢索技術(shù)及其優(yōu)化[J]. 于曉明,史勝楠,甘克勤. 科學(xué)技術(shù)與工程. 2020(04)
[3]百度公司搜索引擎技術(shù)的專利分析[J]. 李海瑩. 中國(guó)發(fā)明與專利. 2019(04)
[4]基于Solr的低成本企業(yè)數(shù)據(jù)采集分析與設(shè)計(jì)[J]. 蘇亞濤. 呼倫貝爾學(xué)院學(xué)報(bào). 2018(04)
[5]基于Heritrix與Solr的就業(yè)主題搜索引擎的研究與優(yōu)化[J]. 鄭燕娥,鄭志明. 齊齊哈爾大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(04)
本文編號(hào):3490741
【文章來(lái)源】:電子制作. 2020,(14)
【文章頁(yè)數(shù)】:3 頁(yè)
【部分圖文】:
網(wǎng)頁(yè)抓取模塊類圖
網(wǎng)頁(yè)抓取模塊是信息抽取模塊的基礎(chǔ),信息抽取模塊通過(guò)抽取網(wǎng)頁(yè)抓取模塊的頁(yè)面內(nèi)容,并將其存儲(chǔ)到數(shù)據(jù)庫(kù),信息抽取模塊流類圖如圖3所示。解析文件類以列表的形式返回頁(yè)面庫(kù)中獲取頁(yè)面庫(kù)中所有網(wǎng)頁(yè)的類,返回頁(yè)面庫(kù)的網(wǎng)頁(yè)文件將以列表的形式進(jìn)行。Pares文件利用率是用來(lái)計(jì)算每一個(gè)頁(yè)面相對(duì)應(yīng)的網(wǎng)址;連接實(shí)用程序類是抽象出來(lái)負(fù)責(zé)與數(shù)據(jù)庫(kù)連接,此操作用到了數(shù)據(jù)庫(kù)連接池,在一定程度上減少了對(duì)數(shù)據(jù)庫(kù)的連接次數(shù);信息處理程序包含注射數(shù)據(jù)庫(kù)核心方法,它先調(diào)用解析文件類的獲取所有文件,以列表文件的形式返回所有的網(wǎng)頁(yè)文件,接著調(diào)用解析文件類的獲取絕對(duì)的統(tǒng)一資源定位地址得到每一個(gè)文件對(duì)應(yīng)的網(wǎng)址,之后調(diào)用JoyDoc獲得文件的網(wǎng)頁(yè)內(nèi)容和網(wǎng)頁(yè)標(biāo)題等[4]。最后通過(guò)連接到的通數(shù)據(jù)庫(kù)進(jìn)行連接和插入操作,然后進(jìn)行存儲(chǔ),所有的連接類都以單列模式出現(xiàn)。
索引模塊包括兩部分:調(diào)用建立索引類、定時(shí)器。定時(shí)器會(huì)定時(shí)的調(diào)用對(duì)數(shù)據(jù)庫(kù)中的內(nèi)容建立索引,其流程類圖如圖4所示。Java之后的時(shí)間任務(wù)就是就是調(diào)用任務(wù),它繼承重寫了運(yùn)行的方法,實(shí)現(xiàn)了將網(wǎng)頁(yè)內(nèi)容插入到數(shù)據(jù)庫(kù)中,該方法調(diào)用信息管理員的實(shí)例注射數(shù)據(jù)庫(kù)的方法。該模塊的主類是調(diào)用Solr,它包含一個(gè)計(jì)時(shí)器對(duì)象,該計(jì)時(shí)器對(duì)象定時(shí)運(yùn)行任務(wù)實(shí)例的運(yùn)行方法,運(yùn)用周期和開(kāi)始時(shí)間由開(kāi)始時(shí)間和循環(huán)時(shí)間制定。
【參考文獻(xiàn)】:
期刊論文
[1]基于物聯(lián)網(wǎng)技術(shù)的搜索引擎技術(shù)研究[J]. 唐亞純. 計(jì)算機(jī)產(chǎn)品與流通. 2020(06)
[2]基于Solr的標(biāo)準(zhǔn)信息檢索技術(shù)及其優(yōu)化[J]. 于曉明,史勝楠,甘克勤. 科學(xué)技術(shù)與工程. 2020(04)
[3]百度公司搜索引擎技術(shù)的專利分析[J]. 李海瑩. 中國(guó)發(fā)明與專利. 2019(04)
[4]基于Solr的低成本企業(yè)數(shù)據(jù)采集分析與設(shè)計(jì)[J]. 蘇亞濤. 呼倫貝爾學(xué)院學(xué)報(bào). 2018(04)
[5]基于Heritrix與Solr的就業(yè)主題搜索引擎的研究與優(yōu)化[J]. 鄭燕娥,鄭志明. 齊齊哈爾大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(04)
本文編號(hào):3490741
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3490741.html
最近更新
教材專著