基于企業(yè)深度挖掘型垂直搜索引擎的研究與應(yīng)用
發(fā)布時間:2024-06-12 04:46
隨著Internet的普及信息處理等高科技技術(shù)的不斷發(fā)展,越來越多的企業(yè)也在廣泛利用Internet技術(shù)進(jìn)行數(shù)據(jù)共享等信息處理的應(yīng)用,使得信息內(nèi)容也正以驚人的速度增加,同時內(nèi)部業(yè)務(wù)系統(tǒng)催生大量的復(fù)發(fā)性、多結(jié)構(gòu)化的數(shù)據(jù)。在企業(yè)規(guī)模的不斷擴大,數(shù)據(jù)不斷累積的情況下,傳統(tǒng)的搜索引擎自身存在信息處理的缺陷,用戶只能檢索到公開的網(wǎng)頁信息,對網(wǎng)頁查全率以及查準(zhǔn)率過低,對于企業(yè)內(nèi)部的網(wǎng)頁則無法檢索到,無法滿足企業(yè)用戶的檢索需要。企業(yè)的運營分析層如何把正確的信息、在正確的時機提供給相應(yīng)的決策層,以及決策層如何及時準(zhǔn)確地獲得必要的決策參考信息等問題將成為一個緊迫而復(fù)雜的課題;谛枨蟮尿(qū)動,一種基于企業(yè)深度挖掘型垂直搜索引擎的出現(xiàn)利用元數(shù)據(jù)的管理等技術(shù)構(gòu)建一個“綜合的營銷平臺”的數(shù)據(jù)中心,以及構(gòu)筑在其上的商務(wù)智能,來管理和合理利用信息,給數(shù)據(jù)服務(wù)帶來了新的解決方案,因此本文選擇課題“基于企業(yè)深度挖掘型垂直搜索引擎在數(shù)據(jù)服務(wù)上的研究與應(yīng)用”,提出了面向企業(yè)的搜索引擎體系架構(gòu),并將其應(yīng)用到浙江中煙工業(yè)企業(yè)搜索引擎系統(tǒng)中,提出了浙江中煙營銷搜索引擎系統(tǒng)框架。文章主要研究內(nèi)容如下: 1)根據(jù)卷煙企業(yè)營銷的狀況和...
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景、意義
1.2 垂直搜索引擎的服務(wù)市場
1.2.1 搜索引擎服務(wù)市場背景
1.2.2 企業(yè)搜索引擎服務(wù)市場趨勢
1.3 本文研究內(nèi)容
1.4 本文組織結(jié)構(gòu)
第二章 垂直搜索引擎研究
2.1 垂直搜索引擎的概述
2.2 垂直搜索引擎結(jié)構(gòu)及工作原理
2.3 垂直搜索引擎的優(yōu)勢
2.4 構(gòu)建良好深度挖掘型垂直搜索引擎的要求
2.5 本章小結(jié)
第三章 面向主題的數(shù)據(jù)采集
3.1 網(wǎng)絡(luò)主題爬蟲概述
3.1.1 網(wǎng)絡(luò)主題爬蟲定義
3.1.2 網(wǎng)絡(luò)主題爬蟲搜索策略
3.1.3 主題爬蟲網(wǎng)頁的搜集
3.2 主題相關(guān)性算法及改進(jìn)
3.2.1 偏好主題 PageRank 算法
3.3 元數(shù)據(jù)管理模塊
3.3.1 元數(shù)據(jù)管理
3.4 本章小結(jié)
第四章 數(shù)據(jù)的壓縮索引和 HBase 云存儲
4.1 數(shù)據(jù)的壓縮
4.1.1 范式哈夫曼算法
4.2 壓縮索引的方法
4.2.1 倒排文件壓縮算法
4.3 HBase 云存儲
4.3.1 引言
4.3.2 文件存儲系統(tǒng) HDFS
4.3.3 海量數(shù)據(jù)處理 MapReduce
4.3.4 協(xié)同服務(wù)管理 Zookeeper
4.4 本章小結(jié)
第五章 企業(yè)搜索引擎的用戶查詢
5.1 引言
5.2 網(wǎng)頁信息匹配和檢索
5.2.1 煙草本體詞典的構(gòu)建
5.2.2 中文分詞技術(shù)
5.2.3 語義相似度計算
5.2.4 面向特征的網(wǎng)頁查重刪除技術(shù)
5.3 索引庫的建立
5.4 檢索模塊
5.4.1 概率模型算法
5.4.2 檢索結(jié)果的排序
5.4.3 檢索結(jié)果文檔摘要
5.5 檢索結(jié)果的特點分析
5.6 本章總結(jié)
第六章 企業(yè)搜索引擎系統(tǒng)設(shè)計及實現(xiàn)
6.1 引言
6.2 浙江中煙營銷搜索引擎系統(tǒng)設(shè)計
6.2.1 系統(tǒng)的需求分析
6.2.2 系統(tǒng)的總體架構(gòu)
6.2.3 系統(tǒng)架構(gòu)設(shè)計
6.3 系統(tǒng)開發(fā)環(huán)境
6.4 煙草領(lǐng)域本體構(gòu)建
6.5 人機交互界面
6.6 本章總結(jié)
第七章 總結(jié)與展望
7.1 全文總結(jié)
7.2 研究展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間的研究成果
本文編號:3993250
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景、意義
1.2 垂直搜索引擎的服務(wù)市場
1.2.1 搜索引擎服務(wù)市場背景
1.2.2 企業(yè)搜索引擎服務(wù)市場趨勢
1.3 本文研究內(nèi)容
1.4 本文組織結(jié)構(gòu)
第二章 垂直搜索引擎研究
2.1 垂直搜索引擎的概述
2.2 垂直搜索引擎結(jié)構(gòu)及工作原理
2.3 垂直搜索引擎的優(yōu)勢
2.4 構(gòu)建良好深度挖掘型垂直搜索引擎的要求
2.5 本章小結(jié)
第三章 面向主題的數(shù)據(jù)采集
3.1 網(wǎng)絡(luò)主題爬蟲概述
3.1.1 網(wǎng)絡(luò)主題爬蟲定義
3.1.2 網(wǎng)絡(luò)主題爬蟲搜索策略
3.1.3 主題爬蟲網(wǎng)頁的搜集
3.2 主題相關(guān)性算法及改進(jìn)
3.2.1 偏好主題 PageRank 算法
3.3 元數(shù)據(jù)管理模塊
3.3.1 元數(shù)據(jù)管理
3.4 本章小結(jié)
第四章 數(shù)據(jù)的壓縮索引和 HBase 云存儲
4.1 數(shù)據(jù)的壓縮
4.1.1 范式哈夫曼算法
4.2 壓縮索引的方法
4.2.1 倒排文件壓縮算法
4.3 HBase 云存儲
4.3.1 引言
4.3.2 文件存儲系統(tǒng) HDFS
4.3.3 海量數(shù)據(jù)處理 MapReduce
4.3.4 協(xié)同服務(wù)管理 Zookeeper
4.4 本章小結(jié)
第五章 企業(yè)搜索引擎的用戶查詢
5.1 引言
5.2 網(wǎng)頁信息匹配和檢索
5.2.1 煙草本體詞典的構(gòu)建
5.2.2 中文分詞技術(shù)
5.2.3 語義相似度計算
5.2.4 面向特征的網(wǎng)頁查重刪除技術(shù)
5.3 索引庫的建立
5.4 檢索模塊
5.4.1 概率模型算法
5.4.2 檢索結(jié)果的排序
5.4.3 檢索結(jié)果文檔摘要
5.5 檢索結(jié)果的特點分析
5.6 本章總結(jié)
第六章 企業(yè)搜索引擎系統(tǒng)設(shè)計及實現(xiàn)
6.1 引言
6.2 浙江中煙營銷搜索引擎系統(tǒng)設(shè)計
6.2.1 系統(tǒng)的需求分析
6.2.2 系統(tǒng)的總體架構(gòu)
6.2.3 系統(tǒng)架構(gòu)設(shè)計
6.3 系統(tǒng)開發(fā)環(huán)境
6.4 煙草領(lǐng)域本體構(gòu)建
6.5 人機交互界面
6.6 本章總結(jié)
第七章 總結(jié)與展望
7.1 全文總結(jié)
7.2 研究展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間的研究成果
本文編號:3993250
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3993250.html
最近更新
教材專著