天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Solr的企業(yè)異構信息搜索平臺的設計與實現(xiàn)

發(fā)布時間:2017-04-04 08:08

  本文關鍵詞:基于Solr的企業(yè)異構信息搜索平臺的設計與實現(xiàn),,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著企業(yè)的規(guī)模日益增大,信息化程度不斷提高,企業(yè)內(nèi)部產(chǎn)生的海量數(shù)據(jù)分布在各個服務器節(jié)點上。如何精確、快速地查找到用戶所需的信息是每一個大型企業(yè)都需要解決的問題。目前的通用搜索引擎雖然可以實現(xiàn)信息的檢索,但是并沒有滿足企業(yè)的需求。首先,企業(yè)的需求更加復雜,對于不同的企業(yè)員工權限有嚴格的規(guī)定,每個用戶可以查看的資源不同,工作任務有差異,信息的需求也不一樣;其次,企業(yè)的信息種類千差萬別,企業(yè)內(nèi)部最多的是數(shù)據(jù)庫數(shù)據(jù)以及文檔,和以網(wǎng)頁為主的Web資源不一樣。通用搜索引擎對于企業(yè)用戶來說并不能很好的完成任務,因此,本課題研究的目的是針對跨地區(qū)多數(shù)據(jù)中心的大型企業(yè)提出企業(yè)搜索引擎設計方案,該搜索引擎使得異構資源能夠在統(tǒng)一的平臺上融合與檢索。同時優(yōu)化搜索結果排序以及進行個性化結果推薦;谏鲜龇治,本文實現(xiàn)了一個基于Solr的企業(yè)異構信息搜索系統(tǒng)。本文的主要研究內(nèi)容如下:(1) 利用開源網(wǎng)絡爬蟲工具Heritrix對異構信息進行智能抓取,并且研究了信息抽取、元數(shù)據(jù)、中文分詞等技術,對異構資源的有效信息進行智能提取,建立異構信息索引模型,實現(xiàn)了異構信息融合搜索。(2) 應用開源搜索引擎Solr實現(xiàn)了對索引的增加、刪除和修改,包括結構化數(shù)據(jù)索引和非結構化數(shù)據(jù)索引。同時Solr還實現(xiàn)了搜索引擎的查詢,包括最基本的關鍵字查詢,以及限定其他條件的高級查詢。(3) 將Skyline算法引入搜索結果排序優(yōu)化,可根據(jù)用戶需求綜合信息相關度得分和信息的發(fā)布時間兩方面進行排序,以滿足用戶不同工作情景下的需求;根據(jù)用戶的歷史記錄以及使用習慣進行個性化建模,推送適合用戶的搜索結果。(4) 基于Zookeeper的系統(tǒng)監(jiān)控設計,跨地區(qū)的多數(shù)據(jù)中心的企業(yè)可以實時監(jiān)控服務器數(shù)量眾多的集群狀態(tài),保證故障或者宕機的服務器上的信息不會被用戶搜索到,內(nèi)容相同的搜索結果從網(wǎng)絡狀況較好的節(jié)點獲取,可以優(yōu)化搜索體驗。本文基于上述工作內(nèi)容開發(fā)了基于Solr的企業(yè)異構信息搜索引擎系統(tǒng)原型,在實驗環(huán)境中搭載了一個多數(shù)據(jù)中心的搜索引擎,對其構建了異構資源的索引并通過一系列測試得到了實驗結果數(shù)據(jù),證明了本文研究的相關技術與實踐應用的可靠性,為企業(yè)搜索引擎提供了一種可行的解決方案。
【關鍵詞】:企業(yè)搜索引擎 Solr 異構數(shù)據(jù) 個性化搜索
【學位授予單位】:東南大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.3
【目錄】:
  • 摘要5-6
  • Abstract6-10
  • 第一章 緒論10-12
  • 1.1 研究背景與意義10
  • 1.2 本文主要工作10-11
  • 1.3 本文組織結構11-12
  • 第二章 相關技術的研究12-30
  • 2.1 搜索引擎簡介12-15
  • 2.1.1 搜索引擎的基本結構12-13
  • 2.1.2 傳統(tǒng)搜索引擎的現(xiàn)狀及不足13-14
  • 2.1.3 企業(yè)搜索引擎研究現(xiàn)狀及不足14-15
  • 2.2 搜索引擎Solr15-16
  • 2.3 Hadoop簡介16-17
  • 2.3.1 Hadoop和MapReduce16-17
  • 2.3.2 HBase17
  • 2.4 網(wǎng)絡爬蟲技術17-20
  • 2.4.1 網(wǎng)絡爬蟲基本原理17-18
  • 2.4.2 網(wǎng)絡爬蟲抓取策略18-19
  • 2.4.3 Heritrix簡介19-20
  • 2.5 信息抽取技術20-22
  • 2.5.1 元數(shù)據(jù)20-21
  • 2.5.2 Tika介紹21-22
  • 2.6 信息處理技術22-24
  • 2.6.1 中文分詞22-23
  • 2.6.2 主題分類23-24
  • 2.7 個性化用戶模型24-27
  • 2.7.1 基于用戶靜態(tài)信息的個性化建模25
  • 2.7.2 基于用戶動態(tài)信息的個性化建模25-26
  • 2.7.3 基于關聯(lián)規(guī)則的個性化推薦26-27
  • 2.8 搜索引擎排序算法27-29
  • 2.8.1 PageRank算法27
  • 2.8.2 Solr的相關性排序算法27-28
  • 2.8.3 Skyline算法28-29
  • 2.9 本章小結29-30
  • 第三章 基于Solr的企業(yè)異構信息搜索平臺的設計30-45
  • 3.1 平臺需求分析30
  • 3.2 平臺總體設計30-31
  • 3.3 信息采集處理層設計31-34
  • 3.3.1 信息采集處理層模塊整體設計31-32
  • 3.3.2 異構數(shù)據(jù)模型32-34
  • 3.3.3 XML解析34
  • 3.4 按需搜索層設計34-37
  • 3.4.1 按需搜索層模塊整體設計34-35
  • 3.4.2 去重策略35
  • 3.4.3 聚合策略35-36
  • 3.4.4 分類策略36-37
  • 3.5 個性化處理層設計37-40
  • 3.5.1 個性化處理層模塊整體設計37
  • 3.5.2 基于Skyline算法的綜合排序優(yōu)化37-39
  • 3.5.3 個性化結果推薦39-40
  • 3.6 系統(tǒng)監(jiān)控層設計40-41
  • 3.7 存儲模塊設計41-43
  • 3.7.1 數(shù)據(jù)庫設計42
  • 3.7.2 HBase存儲42-43
  • 3.8 企業(yè)權限管理設計43-44
  • 3.9 本章小結44-45
  • 第四章 基于Solr的企業(yè)異構信息搜索平臺的實現(xiàn)45-69
  • 4.1 平臺開發(fā)工具和環(huán)境45
  • 4.2 信息采集處理層實現(xiàn)45-54
  • 4.2.1 配置Solr索引字段45-46
  • 4.2.2 配置IKAnalyzer中文分詞包46-48
  • 4.2.3 使用Heritrix抓取企業(yè)外部數(shù)據(jù)48-50
  • 4.2.4 使用Tika提取元數(shù)據(jù)50-51
  • 4.2.5 啟動Solr51-53
  • 4.2.6 向Solr添加索引53-54
  • 4.3 按需搜索層實現(xiàn)54-58
  • 4.3.1 搜索請求解析54-55
  • 4.3.2 Solr查詢55-56
  • 4.3.3 結果過濾策略56-58
  • 4.4 個性化處理層實現(xiàn)58-60
  • 4.4.1 基于Skyline算法的綜合排序優(yōu)化59
  • 4.4.2 用戶個人靜態(tài)信息采集59
  • 4.4.3 個性化推薦59-60
  • 4.5 系統(tǒng)監(jiān)控層實現(xiàn)60-61
  • 4.6 平臺測試61-68
  • 4.6.1 功能概述61
  • 4.6.2 平臺功能展示61-64
  • 4.6.3 平臺功能測試64-67
  • 4.6.4 平臺性能測試67-68
  • 4.7 本章小結68-69
  • 第五章 總結與展望69-71
  • 5.1 全文工作總結69
  • 5.2 進一步展望69-71
  • 致謝71-72
  • 參考文獻72-73

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 魏震方;宋正德;;云計算環(huán)境下異構信息的發(fā)現(xiàn)機制與管理方法研究[J];商場現(xiàn)代化;2011年23期

2 王樂,強曉遠,孫莉;基于本體模型異構信息交互的研究[J];微型機與應用;2005年01期

3 董明哲,張同軍;基于信息語義的異構信息集成方法[J];計算機工程;2005年02期

4 李艾丹;薛中玉;李春梅;;異構信息知識挖掘與可視化分析系統(tǒng)架構模型解析[J];中國科技論壇;2012年10期

5 李劍;宋靖宇;鐘華;;基于本體的異構信息集成查詢劃分及轉換[J];軟件學報;2007年10期

6 李艾丹;薛中玉;李春梅;;異構信息知識挖掘與可視化系統(tǒng)處理流程解析[J];圖書館學研究;2012年14期

7 康文杰;鄭倩冰;陳侃;;基于社會網(wǎng)絡分析的學術合作關系研究[J];計算機技術與發(fā)展;2014年05期

8 史達;楊洋;;一種面向多層次異構信息平臺的數(shù)據(jù)訪問鏈路識別算法[J];信息與控制;2014年01期

9 劉鈺峰;李仁發(fā);;基于查詢—文檔異構信息網(wǎng)絡的半監(jiān)督學習[J];通信學報;2014年08期

10 徐壽芳;嵇美華;曾益坤;;基于本體的異構電子商務信息集成探析[J];紹興文理學院學報(自然科學版);2008年01期

中國重要報紙全文數(shù)據(jù)庫 前2條

1 陳友梅;DB2信息集成提速異構信息管理[N];中國計算機報;2003年

2 齊向真;我市兩項目獲科技部863計劃批復[N];太原日報;2012年

中國博士學位論文全文數(shù)據(jù)庫 前4條

1 黃冬;面向網(wǎng)絡金融知識服務的模型與方法研究[D];哈爾濱工業(yè)大學;2015年

2 劉鈺峰;異構信息網(wǎng)絡檢索技術研究[D];湖南大學;2014年

3 李朋;異構信息網(wǎng)絡分析模型及其應用研究[D];重慶大學;2013年

4 王小剛;異構信息集成環(huán)境中基于語義的查詢研究[D];華中科技大學;2006年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 朱敏;極性異構信息網(wǎng)絡相關性搜索技術研究[D];山東大學;2015年

2 房佳;基于多級模型的金融異構信息獲取與預測分析[D];哈爾濱工業(yè)大學;2014年

3 郝敬彬;融合異構信息的長途客車乘客異動情況覺察技術研究[D];浙江工業(yè)大學;2014年

4 邢欣;基于網(wǎng)絡異構信息挖掘的新股知識服務研究[D];哈爾濱工業(yè)大學;2015年

5 丁蔚然;基于Solr的企業(yè)異構信息搜索平臺的設計與實現(xiàn)[D];東南大學;2015年

6 羅琛;異構信息網(wǎng)絡上半監(jiān)督機器學習算法研究[D];吉林大學;2015年

7 王倩;異構信息網(wǎng)絡上的主題建模研究[D];山東大學;2014年

8 吳晶;面向異構信息集成的數(shù)據(jù)服務通道的設計與實現(xiàn)[D];電子科技大學;2013年

9 李立;基于元路徑選擇和融合的異構信息網(wǎng)絡社區(qū)挖掘算法研究[D];西安電子科技大學;2014年

10 肖穎;面向信息集成的異構信息描述方法研究[D];國防科學技術大學;2003年


  本文關鍵詞:基于Solr的企業(yè)異構信息搜索平臺的設計與實現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號:285184

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/285184.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶22d4a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com