基于Solr的企業(yè)異構信息搜索平臺的設計與實現(xiàn)

發(fā)布時間：2017-04-04 08:08

本文關鍵詞：基于Solr的企業(yè)異構信息搜索平臺的設計與實現(xiàn)，，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著企業(yè)的規(guī)模日益增大,信息化程度不斷提高,企業(yè)內(nèi)部產(chǎn)生的海量數(shù)據(jù)分布在各個服務器節(jié)點上。如何精確、快速地查找到用戶所需的信息是每一個大型企業(yè)都需要解決的問題。目前的通用搜索引擎雖然可以實現(xiàn)信息的檢索,但是并沒有滿足企業(yè)的需求。首先,企業(yè)的需求更加復雜,對于不同的企業(yè)員工權限有嚴格的規(guī)定,每個用戶可以查看的資源不同,工作任務有差異,信息的需求也不一樣；其次,企業(yè)的信息種類千差萬別,企業(yè)內(nèi)部最多的是數(shù)據(jù)庫數(shù)據(jù)以及文檔,和以網(wǎng)頁為主的Web資源不一樣。通用搜索引擎對于企業(yè)用戶來說并不能很好的完成任務,因此,本課題研究的目的是針對跨地區(qū)多數(shù)據(jù)中心的大型企業(yè)提出企業(yè)搜索引擎設計方案,該搜索引擎使得異構資源能夠在統(tǒng)一的平臺上融合與檢索。同時優(yōu)化搜索結果排序以及進行個性化結果推薦�；谏鲜龇治�,本文實現(xiàn)了一個基于Solr的企業(yè)異構信息搜索系統(tǒng)。本文的主要研究內(nèi)容如下：(1) 利用開源網(wǎng)絡爬蟲工具Heritrix對異構信息進行智能抓取,并且研究了信息抽取、元數(shù)據(jù)、中文分詞等技術,對異構資源的有效信息進行智能提取,建立異構信息索引模型,實現(xiàn)了異構信息融合搜索。(2) 應用開源搜索引擎Solr實現(xiàn)了對索引的增加、刪除和修改,包括結構化數(shù)據(jù)索引和非結構化數(shù)據(jù)索引。同時Solr還實現(xiàn)了搜索引擎的查詢,包括最基本的關鍵字查詢,以及限定其他條件的高級查詢。(3) 將Skyline算法引入搜索結果排序優(yōu)化,可根據(jù)用戶需求綜合信息相關度得分和信息的發(fā)布時間兩方面進行排序,以滿足用戶不同工作情景下的需求；根據(jù)用戶的歷史記錄以及使用習慣進行個性化建模,推送適合用戶的搜索結果。(4) 基于Zookeeper的系統(tǒng)監(jiān)控設計,跨地區(qū)的多數(shù)據(jù)中心的企業(yè)可以實時監(jiān)控服務器數(shù)量眾多的集群狀態(tài),保證故障或者宕機的服務器上的信息不會被用戶搜索到,內(nèi)容相同的搜索結果從網(wǎng)絡狀況較好的節(jié)點獲取,可以優(yōu)化搜索體驗。本文基于上述工作內(nèi)容開發(fā)了基于Solr的企業(yè)異構信息搜索引擎系統(tǒng)原型,在實驗環(huán)境中搭載了一個多數(shù)據(jù)中心的搜索引擎,對其構建了異構資源的索引并通過一系列測試得到了實驗結果數(shù)據(jù),證明了本文研究的相關技術與實踐應用的可靠性,為企業(yè)搜索引擎提供了一種可行的解決方案。
【關鍵詞】：企業(yè)搜索引擎 Solr 異構數(shù)據(jù) 個性化搜索
【學位授予單位】：東南大學
【學位級別】：碩士
【學位授予年份】：2015
【分類號】：TP391.3
【目錄】：

摘要5-6
Abstract6-10
第一章緒論10-12
1.1 研究背景與意義10
1.2 本文主要工作10-11
1.3 本文組織結構11-12
第二章相關技術的研究12-30
2.1 搜索引擎簡介12-15
2.1.1 搜索引擎的基本結構12-13
2.1.2 傳統(tǒng)搜索引擎的現(xiàn)狀及不足13-14
2.1.3 企業(yè)搜索引擎研究現(xiàn)狀及不足14-15
2.2 搜索引擎Solr15-16
2.3 Hadoop簡介16-17
2.3.1 Hadoop和MapReduce16-17
2.3.2 HBase17
2.4 網(wǎng)絡爬蟲技術17-20
2.4.1 網(wǎng)絡爬蟲基本原理17-18
2.4.2 網(wǎng)絡爬蟲抓取策略18-19
2.4.3 Heritrix簡介19-20
2.5 信息抽取技術20-22
2.5.1 元數(shù)據(jù)20-21
2.5.2 Tika介紹21-22
2.6 信息處理技術22-24
2.6.1 中文分詞22-23
2.6.2 主題分類23-24
2.7 個性化用戶模型24-27
2.7.1 基于用戶靜態(tài)信息的個性化建模25
2.7.2 基于用戶動態(tài)信息的個性化建模25-26
2.7.3 基于關聯(lián)規(guī)則的個性化推薦26-27
2.8 搜索引擎排序算法27-29
2.8.1 PageRank算法27
2.8.2 Solr的相關性排序算法27-28
2.8.3 Skyline算法28-29
2.9 本章小結29-30
第三章基于Solr的企業(yè)異構信息搜索平臺的設計30-45
3.1 平臺需求分析30
3.2 平臺總體設計30-31
3.3 信息采集處理層設計31-34
3.3.1 信息采集處理層模塊整體設計31-32
3.3.2 異構數(shù)據(jù)模型32-34
3.3.3 XML解析34
3.4 按需搜索層設計34-37
3.4.1 按需搜索層模塊整體設計34-35
3.4.2 去重策略35
3.4.3 聚合策略35-36
3.4.4 分類策略36-37
3.5 個性化處理層設計37-40
3.5.1 個性化處理層模塊整體設計37
3.5.2 基于Skyline算法的綜合排序優(yōu)化37-39
3.5.3 個性化結果推薦39-40
3.6 系統(tǒng)監(jiān)控層設計40-41
3.7 存儲模塊設計41-43
3.7.1 數(shù)據(jù)庫設計42
3.7.2 HBase存儲42-43
3.8 企業(yè)權限管理設計43-44
3.9 本章小結44-45
第四章基于Solr的企業(yè)異構信息搜索平臺的實現(xiàn)45-69
4.1 平臺開發(fā)工具和環(huán)境45
4.2 信息采集處理層實現(xiàn)45-54
4.2.1 配置Solr索引字段45-46
4.2.2 配置IKAnalyzer中文分詞包46-48
4.2.3 使用Heritrix抓取企業(yè)外部數(shù)據(jù)48-50
4.2.4 使用Tika提取元數(shù)據(jù)50-51
4.2.5 啟動Solr51-53
4.2.6 向Solr添加索引53-54
4.3 按需搜索層實現(xiàn)54-58
4.3.1 搜索請求解析54-55
4.3.2 Solr查詢55-56
4.3.3 結果過濾策略56-58
4.4 個性化處理層實現(xiàn)58-60
4.4.1 基于Skyline算法的綜合排序優(yōu)化59
4.4.2 用戶個人靜態(tài)信息采集59
4.4.3 個性化推薦59-60
4.5 系統(tǒng)監(jiān)控層實現(xiàn)60-61
4.6 平臺測試61-68
4.6.1 功能概述61
4.6.2 平臺功能展示61-64
4.6.3 平臺功能測試64-67
4.6.4 平臺性能測試67-68
4.7 本章小結68-69
第五章總結與展望69-71
5.1 全文工作總結69
5.2 進一步展望69-71
致謝71-72
參考文獻72-73

【相似文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 魏震方;宋正德;;云計算環(huán)境下異構信息的發(fā)現(xiàn)機制與管理方法研究[J];商場現(xiàn)代化;2011年23期

2 王樂,強曉遠,孫莉;基于本體模型異構信息交互的研究[J];微型機與應用;2005年01期

3 董明哲,張同軍;基于信息語義的異構信息集成方法[J];計算機工程;2005年02期

4 李艾丹;薛中玉;李春梅;;異構信息知識挖掘與可視化分析系統(tǒng)架構模型解析[J];中國科技論壇;2012年10期

5 李劍;宋靖宇;鐘華;;基于本體的異構信息集成查詢劃分及轉換[J];軟件學報;2007年10期

6 李艾丹;薛中玉;李春梅;;異構信息知識挖掘與可視化系統(tǒng)處理流程解析[J];圖書館學研究;2012年14期

7 康文杰;鄭倩冰;陳侃;;基于社會網(wǎng)絡分析的學術合作關系研究[J];計算機技術與發(fā)展;2014年05期

8 史達;楊洋;;一種面向多層次異構信息平臺的數(shù)據(jù)訪問鏈路識別算法[J];信息與控制;2014年01期

9 劉鈺峰;李仁發(fā);;基于查詢—文檔異構信息網(wǎng)絡的半監(jiān)督學習[J];通信學報;2014年08期

10 徐壽芳;嵇美華;曾益坤;;基于本體的異構電子商務信息集成探析[J];紹興文理學院學報(自然科學版);2008年01期

中國重要報紙全文數(shù)據(jù)庫前2條

1 陳友梅;DB2信息集成提速異構信息管理[N];中國計算機報;2003年

2 齊向真;我市兩項目獲科技部863計劃批復[N];太原日報;2012年

中國博士學位論文全文數(shù)據(jù)庫前4條

1 黃冬;面向網(wǎng)絡金融知識服務的模型與方法研究[D];哈爾濱工業(yè)大學;2015年

2 劉鈺峰;異構信息網(wǎng)絡檢索技術研究[D];湖南大學;2014年

3 李朋;異構信息網(wǎng)絡分析模型及其應用研究[D];重慶大學;2013年

4 王小剛;異構信息集成環(huán)境中基于語義的查詢研究[D];華中科技大學;2006年

中國碩士學位論文全文數(shù)據(jù)庫前10條

1 朱敏;極性異構信息網(wǎng)絡相關性搜索技術研究[D];山東大學;2015年

2 房佳;基于多級模型的金融異構信息獲取與預測分析[D];哈爾濱工業(yè)大學;2014年

3 郝敬彬;融合異構信息的長途客車乘客異動情況覺察技術研究[D];浙江工業(yè)大學;2014年

4 邢欣;基于網(wǎng)絡異構信息挖掘的新股知識服務研究[D];哈爾濱工業(yè)大學;2015年

5 丁蔚然;基于Solr的企業(yè)異構信息搜索平臺的設計與實現(xiàn)[D];東南大學;2015年

6 羅琛;異構信息網(wǎng)絡上半監(jiān)督機器學習算法研究[D];吉林大學;2015年

7 王倩;異構信息網(wǎng)絡上的主題建模研究[D];山東大學;2014年

8 吳晶;面向異構信息集成的數(shù)據(jù)服務通道的設計與實現(xiàn)[D];電子科技大學;2013年

9 李立;基于元路徑選擇和融合的異構信息網(wǎng)絡社區(qū)挖掘算法研究[D];西安電子科技大學;2014年

10 肖穎;面向信息集成的異構信息描述方法研究[D];國防科學技術大學;2003年

本文關鍵詞：基于Solr的企業(yè)異構信息搜索平臺的設計與實現(xiàn)，由筆耕文化傳播整理發(fā)布。

本文編號：285184

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/285184.html

上一篇：基于結構化數(shù)據(jù)的雙語自動問答系統(tǒng)研究與實現(xiàn)
下一篇：基于消費者需求的網(wǎng)絡效應與互聯(lián)網(wǎng)企業(yè)優(yōu)勢地位分析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Solr的企業(yè)異構信息搜索平臺的設計與實現(xiàn)