企業(yè)集團(tuán)的智能搜索引擎平臺的建立
本文關(guān)鍵詞:企業(yè)集團(tuán)的智能搜索引擎平臺的建立,由筆耕文化傳播整理發(fā)布。
通用搜索引擎的性質(zhì),決定了其不能滿足特殊領(lǐng)域、特殊人群的精準(zhǔn)化信息檢索的需求。伴隨著企業(yè)信息化快速發(fā)展,為企業(yè)量身定制企業(yè)級搜索引擎成為一種需求,企業(yè)搜索引擎也將成為信息化時代的一大研究熱點(diǎn)。與通用搜索引擎相比,企業(yè)搜索引擎有著采集內(nèi)容更豐富、安全系數(shù)更高、更高的查全率和查準(zhǔn)率等特點(diǎn):企業(yè)搜索引擎面向的數(shù)據(jù)不僅包括互聯(lián)網(wǎng)上網(wǎng)頁形式的數(shù)據(jù),還包括企業(yè)內(nèi)部數(shù)據(jù)庫以及行業(yè)應(yīng)用系統(tǒng)中的業(yè)務(wù)數(shù)據(jù),而業(yè)務(wù)數(shù)據(jù)對通用搜索引擎來說是透明的,所以企業(yè)搜索引擎有著更高的數(shù)據(jù)獲取門檻,企業(yè)搜索引擎面向的用戶群體所要查找的往往是行業(yè)內(nèi)...
通用搜索引擎的性質(zhì),決定了其不能滿足特殊領(lǐng)域、特殊人群的精準(zhǔn)化信息檢索的需求。伴隨著企業(yè)信息化快速發(fā)展,為企業(yè)量身定制企業(yè)級搜索引擎成為一種需求,企業(yè)搜索引擎也將成為信息化時代的一大研究熱點(diǎn)。與通用搜索引擎相比,企業(yè)搜索引擎有著采集內(nèi)容更豐富、安全系數(shù)更高、更高的查全率和查準(zhǔn)率等特點(diǎn):企業(yè)搜索引擎面向的數(shù)據(jù)不僅包括互聯(lián)網(wǎng)上網(wǎng)頁形式的數(shù)據(jù),還包括企業(yè)內(nèi)部數(shù)據(jù)庫以及行業(yè)應(yīng)用系統(tǒng)中的業(yè)務(wù)數(shù)據(jù),而業(yè)務(wù)數(shù)據(jù)對通用搜索引擎來說是透明的,所以企業(yè)搜索引擎有著更高的數(shù)據(jù)獲取門檻,企業(yè)搜索引擎面向的用戶群體所要查找的往往是行業(yè)內(nèi)的信息,因此對準(zhǔn)確率的要求也就更高。本文選擇“企業(yè)集團(tuán)的智能搜索引擎平臺的建立”為課題,文中提出了面向集團(tuán)企業(yè)的搜索引擎體系架構(gòu),并結(jié)合浙江中煙工業(yè)公司對企業(yè)搜索引擎系統(tǒng)的需求,提出了浙江中煙工業(yè)公司企業(yè)搜索引擎系統(tǒng)框架,并對其系統(tǒng)進(jìn)行設(shè)計(jì),系統(tǒng)將實(shí)現(xiàn)基于煙草行業(yè)的垂直搜索引擎。本文具體研究內(nèi)容如下:
1)搜索引擎的四大系統(tǒng):下載系統(tǒng)、分析系統(tǒng)、索引系統(tǒng)、查詢系統(tǒng)。本文根據(jù)煙草行業(yè)的特殊性,,結(jié)合煙草行業(yè)知識深入研究互聯(lián)網(wǎng)搜索引擎原理,確立煙草行業(yè)對搜索引擎的需求以及企業(yè)垂直搜索引擎應(yīng)實(shí)現(xiàn)的功能。
2)提出企業(yè)搜索引擎系統(tǒng)的聚焦網(wǎng)絡(luò)爬蟲體系架構(gòu)。文章分析了行業(yè)內(nèi)網(wǎng)頁爬取的相關(guān)算法,給出了煙草行業(yè)的網(wǎng)頁重訪策略。在存儲網(wǎng)頁信息時引入基于MongoDB的云存儲方案構(gòu)建網(wǎng)頁庫,并給出了企業(yè)內(nèi)部數(shù)據(jù)的抽取方案。
3)企業(yè)搜索引擎的數(shù)據(jù)處理分析系統(tǒng)。提出基于煙草行業(yè)的網(wǎng)頁查重模型,在數(shù)據(jù)處理模塊的研究與設(shè)計(jì)中,本文針對企業(yè)內(nèi)部搜索提出了本體庫的構(gòu)建。
4)企業(yè)搜索引擎的查詢系統(tǒng)。結(jié)合全文搜索的算法以及在PageRank算法的基礎(chǔ)上給出了面向“煙草主題”的算法改進(jìn),并通過對查詢?nèi)罩镜姆治鰧τ脩舨樵円鈭D的推測進(jìn)行研究與應(yīng)用,為企業(yè)搜索引擎系統(tǒng)的設(shè)計(jì)提供理論依據(jù)。
5)基于以上理論知識,本文在浙江理工大學(xué)企業(yè)智能實(shí)驗(yàn)室對企業(yè)搜索引擎研究的基礎(chǔ)上,對企業(yè)搜索引擎系統(tǒng)進(jìn)行設(shè)計(jì),提出企業(yè)搜索引擎的體系架構(gòu)。將該體系應(yīng)用到作者正在參與開發(fā)的浙江中煙工業(yè)企業(yè)搜索引擎系統(tǒng)中,提出浙江中煙搜索引擎系統(tǒng)框圖,以浙江中煙搜索引擎系統(tǒng)的實(shí)現(xiàn)效果對本文提出的系統(tǒng)方案進(jìn)行檢驗(yàn)。
展開
本文關(guān)鍵詞:企業(yè)集團(tuán)的智能搜索引擎平臺的建立,由筆耕文化傳播整理發(fā)布。
本文編號:108137
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/108137.html