基于Solr的企業(yè)異構信息搜索平臺的設計與實現(xiàn)
本文關鍵詞:基于Solr的企業(yè)異構信息搜索平臺的設計與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著企業(yè)的規(guī)模日益增大,信息化程度不斷提高,企業(yè)內(nèi)部產(chǎn)生的海量數(shù)據(jù)分布在各個服務器節(jié)點上。如何精確、快速地查找到用戶所需的信息是每一個大型企業(yè)都需要解決的問題。目前的通用搜索引擎雖然可以實現(xiàn)信息的檢索,但是并沒有滿足企業(yè)的需求。首先,企業(yè)的需求更加復雜,對于不同的企業(yè)員工權限有嚴格的規(guī)定,每個用戶可以查看的資源不同,工作任務有差異,信息的需求也不一樣;其次,企業(yè)的信息種類千差萬別,企業(yè)內(nèi)部最多的是數(shù)據(jù)庫數(shù)據(jù)以及文檔,和以網(wǎng)頁為主的Web資源不一樣。通用搜索引擎對于企業(yè)用戶來說并不能很好的完成任務,因此,本課題研究的目的是針對跨地區(qū)多數(shù)據(jù)中心的大型企業(yè)提出企業(yè)搜索引擎設計方案,該搜索引擎使得異構資源能夠在統(tǒng)一的平臺上融合與檢索。同時優(yōu)化搜索結果排序以及進行個性化結果推薦;谏鲜龇治,本文實現(xiàn)了一個基于Solr的企業(yè)異構信息搜索系統(tǒng)。本文的主要研究內(nèi)容如下:(1) 利用開源網(wǎng)絡爬蟲工具Heritrix對異構信息進行智能抓取,并且研究了信息抽取、元數(shù)據(jù)、中文分詞等技術,對異構資源的有效信息進行智能提取,建立異構信息索引模型,實現(xiàn)了異構信息融合搜索。(2) 應用開源搜索引擎Solr實現(xiàn)了對索引的增加、刪除和修改,包括結構化數(shù)據(jù)索引和非結構化數(shù)據(jù)索引。同時Solr還實現(xiàn)了搜索引擎的查詢,包括最基本的關鍵字查詢,以及限定其他條件的高級查詢。(3) 將Skyline算法引入搜索結果排序優(yōu)化,可根據(jù)用戶需求綜合信息相關度得分和信息的發(fā)布時間兩方面進行排序,以滿足用戶不同工作情景下的需求;根據(jù)用戶的歷史記錄以及使用習慣進行個性化建模,推送適合用戶的搜索結果。(4) 基于Zookeeper的系統(tǒng)監(jiān)控設計,跨地區(qū)的多數(shù)據(jù)中心的企業(yè)可以實時監(jiān)控服務器數(shù)量眾多的集群狀態(tài),保證故障或者宕機的服務器上的信息不會被用戶搜索到,內(nèi)容相同的搜索結果從網(wǎng)絡狀況較好的節(jié)點獲取,可以優(yōu)化搜索體驗。本文基于上述工作內(nèi)容開發(fā)了基于Solr的企業(yè)異構信息搜索引擎系統(tǒng)原型,在實驗環(huán)境中搭載了一個多數(shù)據(jù)中心的搜索引擎,對其構建了異構資源的索引并通過一系列測試得到了實驗結果數(shù)據(jù),證明了本文研究的相關技術與實踐應用的可靠性,為企業(yè)搜索引擎提供了一種可行的解決方案。
【關鍵詞】:企業(yè)搜索引擎 Solr 異構數(shù)據(jù) 個性化搜索
【學位授予單位】:東南大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.3
【目錄】:
- 摘要5-6
- Abstract6-10
- 第一章 緒論10-12
- 1.1 研究背景與意義10
- 1.2 本文主要工作10-11
- 1.3 本文組織結構11-12
- 第二章 相關技術的研究12-30
- 2.1 搜索引擎簡介12-15
- 2.1.1 搜索引擎的基本結構12-13
- 2.1.2 傳統(tǒng)搜索引擎的現(xiàn)狀及不足13-14
- 2.1.3 企業(yè)搜索引擎研究現(xiàn)狀及不足14-15
- 2.2 搜索引擎Solr15-16
- 2.3 Hadoop簡介16-17
- 2.3.1 Hadoop和MapReduce16-17
- 2.3.2 HBase17
- 2.4 網(wǎng)絡爬蟲技術17-20
- 2.4.1 網(wǎng)絡爬蟲基本原理17-18
- 2.4.2 網(wǎng)絡爬蟲抓取策略18-19
- 2.4.3 Heritrix簡介19-20
- 2.5 信息抽取技術20-22
- 2.5.1 元數(shù)據(jù)20-21
- 2.5.2 Tika介紹21-22
- 2.6 信息處理技術22-24
- 2.6.1 中文分詞22-23
- 2.6.2 主題分類23-24
- 2.7 個性化用戶模型24-27
- 2.7.1 基于用戶靜態(tài)信息的個性化建模25
- 2.7.2 基于用戶動態(tài)信息的個性化建模25-26
- 2.7.3 基于關聯(lián)規(guī)則的個性化推薦26-27
- 2.8 搜索引擎排序算法27-29
- 2.8.1 PageRank算法27
- 2.8.2 Solr的相關性排序算法27-28
- 2.8.3 Skyline算法28-29
- 2.9 本章小結29-30
- 第三章 基于Solr的企業(yè)異構信息搜索平臺的設計30-45
- 3.1 平臺需求分析30
- 3.2 平臺總體設計30-31
- 3.3 信息采集處理層設計31-34
- 3.3.1 信息采集處理層模塊整體設計31-32
- 3.3.2 異構數(shù)據(jù)模型32-34
- 3.3.3 XML解析34
- 3.4 按需搜索層設計34-37
- 3.4.1 按需搜索層模塊整體設計34-35
- 3.4.2 去重策略35
- 3.4.3 聚合策略35-36
- 3.4.4 分類策略36-37
- 3.5 個性化處理層設計37-40
- 3.5.1 個性化處理層模塊整體設計37
- 3.5.2 基于Skyline算法的綜合排序優(yōu)化37-39
- 3.5.3 個性化結果推薦39-40
- 3.6 系統(tǒng)監(jiān)控層設計40-41
- 3.7 存儲模塊設計41-43
- 3.7.1 數(shù)據(jù)庫設計42
- 3.7.2 HBase存儲42-43
- 3.8 企業(yè)權限管理設計43-44
- 3.9 本章小結44-45
- 第四章 基于Solr的企業(yè)異構信息搜索平臺的實現(xiàn)45-69
- 4.1 平臺開發(fā)工具和環(huán)境45
- 4.2 信息采集處理層實現(xiàn)45-54
- 4.2.1 配置Solr索引字段45-46
- 4.2.2 配置IKAnalyzer中文分詞包46-48
- 4.2.3 使用Heritrix抓取企業(yè)外部數(shù)據(jù)48-50
- 4.2.4 使用Tika提取元數(shù)據(jù)50-51
- 4.2.5 啟動Solr51-53
- 4.2.6 向Solr添加索引53-54
- 4.3 按需搜索層實現(xiàn)54-58
- 4.3.1 搜索請求解析54-55
- 4.3.2 Solr查詢55-56
- 4.3.3 結果過濾策略56-58
- 4.4 個性化處理層實現(xiàn)58-60
- 4.4.1 基于Skyline算法的綜合排序優(yōu)化59
- 4.4.2 用戶個人靜態(tài)信息采集59
- 4.4.3 個性化推薦59-60
- 4.5 系統(tǒng)監(jiān)控層實現(xiàn)60-61
- 4.6 平臺測試61-68
- 4.6.1 功能概述61
- 4.6.2 平臺功能展示61-64
- 4.6.3 平臺功能測試64-67
- 4.6.4 平臺性能測試67-68
- 4.7 本章小結68-69
- 第五章 總結與展望69-71
- 5.1 全文工作總結69
- 5.2 進一步展望69-71
- 致謝71-72
- 參考文獻72-73
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 魏震方;宋正德;;云計算環(huán)境下異構信息的發(fā)現(xiàn)機制與管理方法研究[J];商場現(xiàn)代化;2011年23期
2 王樂,強曉遠,孫莉;基于本體模型異構信息交互的研究[J];微型機與應用;2005年01期
3 董明哲,張同軍;基于信息語義的異構信息集成方法[J];計算機工程;2005年02期
4 李艾丹;薛中玉;李春梅;;異構信息知識挖掘與可視化分析系統(tǒng)架構模型解析[J];中國科技論壇;2012年10期
5 李劍;宋靖宇;鐘華;;基于本體的異構信息集成查詢劃分及轉換[J];軟件學報;2007年10期
6 李艾丹;薛中玉;李春梅;;異構信息知識挖掘與可視化系統(tǒng)處理流程解析[J];圖書館學研究;2012年14期
7 康文杰;鄭倩冰;陳侃;;基于社會網(wǎng)絡分析的學術合作關系研究[J];計算機技術與發(fā)展;2014年05期
8 史達;楊洋;;一種面向多層次異構信息平臺的數(shù)據(jù)訪問鏈路識別算法[J];信息與控制;2014年01期
9 劉鈺峰;李仁發(fā);;基于查詢—文檔異構信息網(wǎng)絡的半監(jiān)督學習[J];通信學報;2014年08期
10 徐壽芳;嵇美華;曾益坤;;基于本體的異構電子商務信息集成探析[J];紹興文理學院學報(自然科學版);2008年01期
中國重要報紙全文數(shù)據(jù)庫 前2條
1 陳友梅;DB2信息集成提速異構信息管理[N];中國計算機報;2003年
2 齊向真;我市兩項目獲科技部863計劃批復[N];太原日報;2012年
中國博士學位論文全文數(shù)據(jù)庫 前4條
1 黃冬;面向網(wǎng)絡金融知識服務的模型與方法研究[D];哈爾濱工業(yè)大學;2015年
2 劉鈺峰;異構信息網(wǎng)絡檢索技術研究[D];湖南大學;2014年
3 李朋;異構信息網(wǎng)絡分析模型及其應用研究[D];重慶大學;2013年
4 王小剛;異構信息集成環(huán)境中基于語義的查詢研究[D];華中科技大學;2006年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 朱敏;極性異構信息網(wǎng)絡相關性搜索技術研究[D];山東大學;2015年
2 房佳;基于多級模型的金融異構信息獲取與預測分析[D];哈爾濱工業(yè)大學;2014年
3 郝敬彬;融合異構信息的長途客車乘客異動情況覺察技術研究[D];浙江工業(yè)大學;2014年
4 邢欣;基于網(wǎng)絡異構信息挖掘的新股知識服務研究[D];哈爾濱工業(yè)大學;2015年
5 丁蔚然;基于Solr的企業(yè)異構信息搜索平臺的設計與實現(xiàn)[D];東南大學;2015年
6 羅琛;異構信息網(wǎng)絡上半監(jiān)督機器學習算法研究[D];吉林大學;2015年
7 王倩;異構信息網(wǎng)絡上的主題建模研究[D];山東大學;2014年
8 吳晶;面向異構信息集成的數(shù)據(jù)服務通道的設計與實現(xiàn)[D];電子科技大學;2013年
9 李立;基于元路徑選擇和融合的異構信息網(wǎng)絡社區(qū)挖掘算法研究[D];西安電子科技大學;2014年
10 肖穎;面向信息集成的異構信息描述方法研究[D];國防科學技術大學;2003年
本文關鍵詞:基于Solr的企業(yè)異構信息搜索平臺的設計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:285184
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/285184.html