聚類反饋式電網(wǎng)資源分布搜索引擎研究與實(shí)現(xiàn)
本文關(guān)鍵詞:聚類反饋式電網(wǎng)資源分布搜索引擎研究與實(shí)現(xiàn)
更多相關(guān)文章: 搜索引擎 分布式 Solr K-means 聚類反饋 企業(yè)級(jí) 電網(wǎng)
【摘要】:為應(yīng)對(duì)當(dāng)前企業(yè)信息規(guī)模的爆炸式膨脹和信息資源共享的普遍需求,企業(yè)級(jí)搜索引擎興起了。同互聯(lián)網(wǎng)搜索有很大不同,企業(yè)級(jí)搜索是為組織業(yè)務(wù)決策和運(yùn)轉(zhuǎn)而服務(wù)的,因而需要保證信息的查全率和查準(zhǔn)率。企業(yè)級(jí)搜索要應(yīng)對(duì)的難題有: 第一:對(duì)于企業(yè)TB級(jí)的數(shù)據(jù),現(xiàn)有的集中式搜索引擎服務(wù)器難以滿足索引的存儲(chǔ)管理,需要多臺(tái)服務(wù)器分布式存儲(chǔ)索引;在多索引和檢索任務(wù)并發(fā)執(zhí)行的情況下,搜索引擎的性能急劇下降,須采用多臺(tái)服務(wù)器分擔(dān)任務(wù)保證工作效率。 第二:占企業(yè)信息資源總量80%以上的非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)量日趨增大,非結(jié)構(gòu)化數(shù)據(jù)種類多且包含關(guān)系企業(yè)發(fā)展的重要信息,解決非結(jié)構(gòu)化數(shù)據(jù)的檢索對(duì)企業(yè)至關(guān)重要。 第三:搜索領(lǐng)域準(zhǔn)確性的要求越來(lái)越高,多數(shù)搜索引擎返回記錄眾多且不按主題分類顯示,用戶很難在線性排列的結(jié)果集中快捷、準(zhǔn)確地發(fā)現(xiàn)信息。搜索結(jié)果聚類可以從一定程度上幫助用戶定位信息。 電網(wǎng)公司的信息化建設(shè)水平不斷提升,急需一個(gè)電網(wǎng)資源搜索引擎滿足人員查找數(shù)據(jù)信息。根據(jù)以上分析,借助分布式計(jì)算技術(shù)的優(yōu)勢(shì),結(jié)合搜索引擎相關(guān)技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)能夠有效處理海量數(shù)據(jù),支持高并發(fā)任務(wù)且快速響應(yīng)的電網(wǎng)資源分布式搜索引擎。另外,通過(guò)文本信息抽取和文本聚類技術(shù),對(duì)檢索結(jié)果集聚類展示,聚類反饋模式便于用戶快速、準(zhǔn)確定位文檔。本文主要工作內(nèi)容有: (1)基于電網(wǎng)專業(yè)詞庫(kù),借助IKAnalyzer實(shí)現(xiàn)搜索引擎中文分詞,結(jié)合全文檢索技術(shù)和分布式計(jì)算,對(duì)搜索引擎的索引和檢索子系統(tǒng)分別建模分析。 (2)對(duì)K-means文本聚類算法在初始簇心選擇和K值確定方面進(jìn)行了優(yōu)化;谧钸h(yuǎn)距離選擇初始簇心;根據(jù)K的可能取值進(jìn)行聚類,評(píng)價(jià)聚類結(jié)果聚類均值的總方差并在可能取值集中確定K。測(cè)試后證明改進(jìn)的算法在實(shí)現(xiàn)文本集自適應(yīng)聚類的同時(shí)聚類效果良好。 (3)從整體上架構(gòu)電網(wǎng)資源庫(kù)搜索引擎,并對(duì)搜索引擎中的重要模塊給出設(shè)計(jì)方案。借助Solr基于ZooKeeper分布式部署SolrCloud,實(shí)現(xiàn)分布式搜索引擎的細(xì)節(jié)。負(fù)載均衡策略和每個(gè)分布式有效節(jié)點(diǎn)協(xié)同合作。搜索引擎服務(wù)器采用分布式索引及搜索的策略,實(shí)現(xiàn)了海量數(shù)據(jù)的并行索引,并且支持大數(shù)量用戶并發(fā)執(zhí)行搜索任務(wù)。 (4)完成搜索引擎的分布式部署,對(duì)索引和檢索性能進(jìn)行測(cè)試,并通過(guò)搜索實(shí)例展示搜索引擎的檢索功能和結(jié)果集聚類反饋功能。
【關(guān)鍵詞】:搜索引擎 分布式 Solr K-means 聚類反饋 企業(yè)級(jí) 電網(wǎng)
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【目錄】:
- 摘要5-7
- Abstract7-12
- 第一章 緒論12-18
- 1.1 課題研究背景與意義12-13
- 1.2 搜索引擎簡(jiǎn)介13-15
- 1.2.1 搜索引擎的發(fā)展與分類13-14
- 1.2.2 搜索引擎的體系結(jié)構(gòu)14
- 1.2.3 當(dāng)今搜索引擎重要的優(yōu)化方向14-15
- 1.3 搜索引擎優(yōu)化技術(shù)研究現(xiàn)狀15-16
- 1.3.1 分布式搜索引擎的研究15
- 1.3.2 文本聚類技術(shù)在搜索引擎中的應(yīng)用15-16
- 1.4 論文主要?jiǎng)?chuàng)新點(diǎn)16-18
- 第二章 搜索引擎相關(guān)技術(shù)18-32
- 2.1 全文檢索技術(shù)18-22
- 2.1.1 反向索引技術(shù)19-20
- 2.1.2 檢索技術(shù)20-22
- 2.2 全文檢索技術(shù)的開(kāi)源實(shí)現(xiàn)22-26
- 2.2.1 全文檢索工具包Lucene22
- 2.2.2 全文檢索服務(wù)器Solr22-23
- 2.2.3 分布式全文檢索服務(wù)器So1rCloud23-26
- 2.3 文本聚類26-30
- 2.3.1 聚類技術(shù)27
- 2.3.2 K-means聚類算法27-29
- 2.3.3 度量相似性29-30
- 2.4 本章小結(jié)30-32
- 第三章 搜索引擎建模及聚類反饋的算法改進(jìn)32-46
- 3.1 索引及搜索建模32-35
- 3.1.1 基于電力行業(yè)詞庫(kù)中文分詞的實(shí)現(xiàn)32-33
- 3.1.2 企業(yè)文檔索引庫(kù)的建立33-34
- 3.1.3 搜索索引庫(kù)34-35
- 3.2 基于K-means的聚類反饋算法改進(jìn)35-38
- 3.2.1 基于最遠(yuǎn)距離的初始聚類中心選擇方法36-37
- 3.2.2 初始參數(shù)K的確定37-38
- 3.3 改進(jìn)K-means算法的文本聚類性能測(cè)試38-44
- 3.3.1 文本內(nèi)容預(yù)處理設(shè)計(jì)39-41
- 3.3.2 實(shí)驗(yàn)文本集41
- 3.3.3 聚類實(shí)驗(yàn)分析41-44
- 3.4 標(biāo)識(shí)聚類關(guān)鍵詞的提取44
- 3.5 本章小結(jié)44-46
- 第四章 電網(wǎng)資源庫(kù)搜索引擎設(shè)計(jì)46-52
- 4.1 電網(wǎng)資源庫(kù)搜索引擎架構(gòu)46-47
- 4.2 分布式搜索引擎服務(wù)器設(shè)計(jì)47-50
- 4.2.1 Solr處理單元的設(shè)計(jì)47-48
- 4.2.2 分布式協(xié)調(diào)子系統(tǒng)設(shè)計(jì)48-49
- 4.2.3 SolrCloud服務(wù)器集群結(jié)構(gòu)設(shè)計(jì)49-50
- 4.3 負(fù)載均衡設(shè)計(jì)50
- 4.4 檢索結(jié)果的聚類分析50-51
- 4.5 本章小結(jié)51-52
- 第五章 電網(wǎng)資源庫(kù)分布式搜索引擎的部署與性能測(cè)試52-64
- 5.1 部署電網(wǎng)資源庫(kù)搜索引擎52-53
- 5.1.1 ZooKeeper部署52
- 5.1.2 SolrCloud部署52-53
- 5.1.3 搜索引擎業(yè)務(wù)邏輯服務(wù)器部署53
- 5.2 搜索引擎索引和檢索性能測(cè)試53-59
- 5.2.1 測(cè)試環(huán)境54
- 5.2.2 測(cè)試系統(tǒng)的結(jié)構(gòu)54-55
- 5.2.3 索引性能測(cè)試55-57
- 5.2.4 搜索性能測(cè)試57-59
- 5.3 搜索引擎檢索實(shí)例59-60
- 5.4 分類顯示搜索結(jié)果60-62
- 5.5 本章小結(jié)62-64
- 第六章 工作總結(jié)與展望64-66
- 6.1 工作總結(jié)64
- 6.2 工作展望64-66
- 致謝66-68
- 參考文獻(xiàn)68-72
- 附錄A:攻讀碩士學(xué)位期間參與項(xiàng)目及科研成果72
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 程志華;倪時(shí)龍;黃文思;龔賀;;企業(yè)級(jí)非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)研究及實(shí)踐[J];電力信息化;2012年03期
2 劉暢;;全文索引結(jié)構(gòu)的研究[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2012年24期
3 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價(jià)值[J];信息技術(shù);2008年04期
4 孫鐵利;劉延吉;;中文分詞技術(shù)的研究現(xiàn)狀與困難[J];信息技術(shù);2009年07期
5 曾彪;;Solr學(xué)術(shù)索引應(yīng)用顯身手[J];中國(guó)教育網(wǎng)絡(luò);2010年10期
6 李戴維;李寧;;基于Solr的分布式全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2012年11期
7 楊萍;李杰;;利用LoadRunner實(shí)現(xiàn)Web負(fù)載測(cè)試的自動(dòng)化[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年01期
8 林碧英;趙銳;陳良臣;;基于Lucene的全文檢索引擎研究與應(yīng)用[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年05期
9 劉敏娜;;基于向量空間模型的信息檢索技術(shù)研究[J];現(xiàn)代電子技術(shù);2012年11期
10 鮮國(guó)建;趙瑞雪;;基于Solr的中文農(nóng)業(yè)期刊文摘檢索系統(tǒng)的構(gòu)建研究[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2011年06期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 周,
本文編號(hào):823451
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/823451.html