企業(yè)多業(yè)務(wù)垂直搜索引擎框架設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-01-29 07:06
現(xiàn)今垂直搜索引擎技術(shù)已成為企業(yè)內(nèi)部必不可少的技術(shù)支撐環(huán)節(jié),它幫助企業(yè)為用戶提供某一特定領(lǐng)域的信息搜索服務(wù)。但是隨著企業(yè)的不斷的發(fā)展,越來(lái)越多的企業(yè)從單一業(yè)務(wù)向綜合業(yè)務(wù)發(fā)展,比如做在線旅游的企業(yè)會(huì)同時(shí)擁有景點(diǎn)門(mén)票、酒店、旅游線路、機(jī)票等業(yè)務(wù),不同業(yè)務(wù)之間的產(chǎn)品特性各不相同,這樣也會(huì)帶來(lái)搜索的差異性,那么如何快速搭建不同業(yè)務(wù)的垂直搜索引擎成為企業(yè)內(nèi)部急需解決的問(wèn)題。本文基于Lucene設(shè)計(jì)并實(shí)現(xiàn)了一套垂直搜索引擎開(kāi)發(fā)框架,從數(shù)據(jù)的提取、索引的建立、關(guān)鍵詞搜索、數(shù)值類字段搜索、統(tǒng)計(jì)等功能為企業(yè)搭建垂直搜索引擎提供完整的解決方案,降低企業(yè)搭建搜索引擎的門(mén)檻,使企業(yè)內(nèi)部的開(kāi)發(fā)人員即使不懂搜索引擎的原理也能搭建垂直搜索引擎,同時(shí)不用擔(dān)心性能問(wèn)題。本人在論文中主要的工作內(nèi)容和貢獻(xiàn)如下:1、提出配置化設(shè)計(jì)方法。通過(guò)實(shí)現(xiàn)對(duì)不同業(yè)務(wù)的索引數(shù)據(jù)源配置、索引字段配置、分詞詞庫(kù)配置、糾錯(cuò)詞庫(kù)配置來(lái)實(shí)現(xiàn)靈活、高效的業(yè)務(wù)垂直搜索引擎搭建。2、設(shè)計(jì)實(shí)現(xiàn)了優(yōu)化的數(shù)值類字段范圍搜索方法。針對(duì)數(shù)值類型的字段設(shè)計(jì)一種正排表結(jié)構(gòu),當(dāng)搜索條件即包含關(guān)鍵詞搜索又包含數(shù)值類型范圍搜索時(shí),根據(jù)關(guān)鍵詞搜索得到的文檔編號(hào)從正排表中獲取對(duì)應(yīng)...
【文章來(lái)源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
倒排表存儲(chǔ)結(jié)構(gòu)
值類字段搜索優(yōu)化分析ne 設(shè)計(jì)之初是為了解決大文本類信息的搜索,通過(guò)建立倒排索引能,那么如果以搜索文本的解決方案來(lái)進(jìn)行數(shù)值類搜索是否也能達(dá)類字段搜索可以分為兩個(gè)場(chǎng)景:?jiǎn)沃邓阉骱头秶阉,如果將?shù)值值搜索與文本搜索沒(méi)有太大的區(qū)別,只要在詞典中找到要搜索的排鏈表即是要搜索的結(jié)果。如果進(jìn)行范圍查找呢?我們舉個(gè)例子來(lái)說(shuō)明,在 Lucene 中的搜索從關(guān)鍵詞詞典中找到“襯衫”對(duì)應(yīng)的文檔編號(hào)集合。從價(jià)格詞典中找到價(jià)格范圍在 100 到 200 之間的所有價(jià)格,以及編號(hào)集合。將步驟一和步驟二得到的文檔集合做交集處理。
圖 2-3 框架總體設(shè)計(jì)框圖Fig.2-3 Design Diagram of the Whole Framework2.4. 索引模塊索引模塊的目標(biāo)是將原始信息數(shù)據(jù)建立成倒排索引,為搜索模塊進(jìn)行高效的搜供數(shù)據(jù)基礎(chǔ),Lucene 本身實(shí)現(xiàn)了索引建立的方法,本框架通過(guò)調(diào)用 Lucene 的索引方法進(jìn)行索引的重建,但是為了配置化和多業(yè)務(wù)垂直搜索,在 Lucene 本身的索引基礎(chǔ)上做了二次封裝,將索引建立的參數(shù)存儲(chǔ)在 DB 中,并以界面化的形式提供給者進(jìn)行配置,同時(shí)為了滿足多業(yè)務(wù)的需求,不同的業(yè)務(wù)有著本身獨(dú)有的一套配置,干擾。索引模塊提供了兩種索引更新策略:完全重建策略(Complete Re-Build)和再策略(In-Place)[17]。完全重建策略是指當(dāng)新的索引文件創(chuàng)建完畢后,老的索引將棄,之后由新的索引對(duì)外提供查詢服務(wù);再合并策略是指將新增的索引域老的索引進(jìn)行合并,并對(duì)外提供服務(wù)。
本文編號(hào):3006486
【文章來(lái)源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
倒排表存儲(chǔ)結(jié)構(gòu)
值類字段搜索優(yōu)化分析ne 設(shè)計(jì)之初是為了解決大文本類信息的搜索,通過(guò)建立倒排索引能,那么如果以搜索文本的解決方案來(lái)進(jìn)行數(shù)值類搜索是否也能達(dá)類字段搜索可以分為兩個(gè)場(chǎng)景:?jiǎn)沃邓阉骱头秶阉,如果將?shù)值值搜索與文本搜索沒(méi)有太大的區(qū)別,只要在詞典中找到要搜索的排鏈表即是要搜索的結(jié)果。如果進(jìn)行范圍查找呢?我們舉個(gè)例子來(lái)說(shuō)明,在 Lucene 中的搜索從關(guān)鍵詞詞典中找到“襯衫”對(duì)應(yīng)的文檔編號(hào)集合。從價(jià)格詞典中找到價(jià)格范圍在 100 到 200 之間的所有價(jià)格,以及編號(hào)集合。將步驟一和步驟二得到的文檔集合做交集處理。
圖 2-3 框架總體設(shè)計(jì)框圖Fig.2-3 Design Diagram of the Whole Framework2.4. 索引模塊索引模塊的目標(biāo)是將原始信息數(shù)據(jù)建立成倒排索引,為搜索模塊進(jìn)行高效的搜供數(shù)據(jù)基礎(chǔ),Lucene 本身實(shí)現(xiàn)了索引建立的方法,本框架通過(guò)調(diào)用 Lucene 的索引方法進(jìn)行索引的重建,但是為了配置化和多業(yè)務(wù)垂直搜索,在 Lucene 本身的索引基礎(chǔ)上做了二次封裝,將索引建立的參數(shù)存儲(chǔ)在 DB 中,并以界面化的形式提供給者進(jìn)行配置,同時(shí)為了滿足多業(yè)務(wù)的需求,不同的業(yè)務(wù)有著本身獨(dú)有的一套配置,干擾。索引模塊提供了兩種索引更新策略:完全重建策略(Complete Re-Build)和再策略(In-Place)[17]。完全重建策略是指當(dāng)新的索引文件創(chuàng)建完畢后,老的索引將棄,之后由新的索引對(duì)外提供查詢服務(wù);再合并策略是指將新增的索引域老的索引進(jìn)行合并,并對(duì)外提供服務(wù)。
本文編號(hào):3006486
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3006486.html
最近更新
教材專著