當(dāng)前位置：主頁(yè) > 科技論文 > 計(jì)算機(jī)應(yīng)用論文 >

基于文本聚類(lèi)的垂直搜索引擎系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間：2021-03-10 03:56

　　隨著互聯(lián)網(wǎng)數(shù)據(jù)的快速增長(zhǎng),垂直搜索引擎也迅速發(fā)展起來(lái)。但是目前垂直搜索引擎仍然不能幫助用戶(hù)快速找到自己尋求的目標(biāo),只能通過(guò)輸入關(guān)鍵詞之后,對(duì)返回的結(jié)果集進(jìn)行人工排查。特別是在關(guān)鍵詞具有多重含義時(shí),這種狀況尤其明顯。為了解決上述問(wèn)題,本文提出了在文本預(yù)處理階段對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行聚類(lèi)處理,并將聚類(lèi)的結(jié)果用于以下三方面:第一個(gè)方面是將聚類(lèi)的結(jié)果放入對(duì)應(yīng)的原始數(shù)據(jù)中,同時(shí)提高該聚類(lèi)結(jié)果的權(quán)重,使得所屬聚類(lèi)結(jié)果與關(guān)鍵詞相關(guān)度更高的文章位于前列。第二個(gè)方面是可以將聚類(lèi)的結(jié)果通過(guò)搜索頁(yè)面的分類(lèi)導(dǎo)航欄呈現(xiàn)給用戶(hù),使得用戶(hù)能夠根據(jù)聚類(lèi)結(jié)果,進(jìn)行相關(guān)篩選,更快找到自己需要的內(nèi)容。第三個(gè)方面,由于聚類(lèi)結(jié)果的不穩(wěn)定性,本文提出了由系統(tǒng)人員參考聚類(lèi)結(jié)果,并定義分類(lèi)規(guī)則的方法,然后利用搜索引擎和分類(lèi)規(guī)則對(duì)文本自動(dòng)分類(lèi)。為了適應(yīng)不同領(lǐng)域的數(shù)據(jù)特性,本文設(shè)計(jì)了企業(yè)數(shù)據(jù)管理與垂直搜索系統(tǒng),該系統(tǒng)針對(duì)不同領(lǐng)域的數(shù)據(jù)和不同行業(yè)的需求,輔助該領(lǐng)域人員定制自己的搜索引擎系統(tǒng),從而幫助搜索引擎更好地“理解”數(shù)據(jù)。本文主要工作如下:第一,提出了改進(jìn)的tf-idf算法與k-mean結(jié)合的聚類(lèi)算法。為了體現(xiàn)位于文章中不同位置的詞對(duì)該...

【文章來(lái)源】：北京工業(yè)大學(xué)北京市 211工程院校

【文章頁(yè)數(shù)】：66 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

垂直搜索引擎構(gòu)造Fig.2-1Thearchitectureofverticalsearchengine⑵索引模塊：根據(jù)需求建立分詞的詞庫(kù)，本文包括中文分詞詞庫(kù)與英文分

時(shí)序圖,字段類(lèi)型,配置文件,索引

己的實(shí)際需求自定義 Solr 應(yīng)用。這些配置文件基本上都為 xml 格式，所以用戶(hù)可以選擇直接手動(dòng)修改配置文件，或者使用 Solr 提供的 API 對(duì)配置文件進(jìn)行修改。本文主要使用的是 manage-schema.xml 來(lái)進(jìn)行自定義配置。Manage-schema 是控制 Solr 索引規(guī)范的配置文件。manage-schema 使用字段（fields）的集合來(lái)表示一篇文檔（document），用戶(hù)需要在里面定義字段類(lèi)型（fieldtype）和字段本身的屬性。字段類(lèi)型的定義，是索引時(shí) Solr 對(duì)索引文章的字段處理，和查詢(xún)（query）時(shí) Solr 對(duì)于關(guān)鍵詞的處理。一個(gè)字段類(lèi)型包括以下 4 個(gè)屬性：字段類(lèi)型的名稱(chēng)（必須包含）；一個(gè)必要的該字段類(lèi)型的實(shí)現(xiàn)類(lèi)（implementclass）；如果該字段類(lèi)型為“TextField”，那么就需要配置該字段類(lèi)型對(duì)應(yīng)的分析器（analyzer）；根據(jù)選用的實(shí)現(xiàn)類(lèi)，配置該實(shí)現(xiàn)類(lèi)對(duì)應(yīng)的屬性。2.2.2 Solr 搜索過(guò)程Solr 搜索整體時(shí)序圖如圖 2-2 所示：

體系結(jié)構(gòu)圖,體系結(jié)構(gòu),文檔

圖 2-3 SolrCloud 體系結(jié)構(gòu)Fig.2-3 The architecture of SolrCloud實(shí)線(xiàn)連接部分為 SolrCloud 的物理結(jié)構(gòu)，虛線(xiàn)連接部分為邏輯結(jié)構(gòu)。各部分詳細(xì)介紹如下：Collection：Collection 是 SolrCloud 邏輯意義上完整的索引,產(chǎn)品邏輯上可以理解為一個(gè)數(shù)據(jù)集，一個(gè) SolrCloud 集群可以有多個(gè) Collection。Shard：Shard 是 Collection 中的邏輯分片，一個(gè) Collection 包含多個(gè) Shard，每一個(gè) Shard 包含 Collection 的一部分文檔，具體每個(gè) Shard 包含那些文檔，包含多少文檔，由 Collection 的分片策略所決定。Shard 的數(shù)量控制著 Collection 理論上能包含的文檔數(shù)量和單個(gè)搜索請(qǐng)求可能的并行量。Leader：活躍狀態(tài)（active）的 Replica。每個(gè) Shard 有多個(gè) Replicas，但是一般只有一個(gè) Replica 會(huì)處在活躍狀態(tài)，其他的位于備用狀態(tài)，而活躍的 Replica 就是被選舉出來(lái)的 Leader。Leader 的選舉初始化時(shí)是先來(lái)先得的方式，后續(xù)會(huì)根據(jù)Zookeeper 的規(guī)則進(jìn)行選舉。如果一個(gè) Leader 故障了，其他 Replica 中的一個(gè)會(huì)被自動(dòng)選為新的 Leader。當(dāng)文檔被發(fā)送到 Solr 節(jié)點(diǎn)進(jìn)行索引時(shí)，系統(tǒng)首先確定

本文編號(hào)：3074013

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3074013.html

上一篇：基于V2X的車(chē)路協(xié)同系統(tǒng)防撞預(yù)警研究與實(shí)現(xiàn)
下一篇：基于生成式對(duì)抗網(wǎng)絡(luò)圖片生成文字的研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于文本聚類(lèi)的垂直搜索引擎系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)