基于企業(yè)深度挖掘型垂直搜索引擎的研究與應(yīng)用
發(fā)布時(shí)間:2024-06-12 04:46
隨著Internet的普及信息處理等高科技技術(shù)的不斷發(fā)展,越來(lái)越多的企業(yè)也在廣泛利用Internet技術(shù)進(jìn)行數(shù)據(jù)共享等信息處理的應(yīng)用,使得信息內(nèi)容也正以驚人的速度增加,同時(shí)內(nèi)部業(yè)務(wù)系統(tǒng)催生大量的復(fù)發(fā)性、多結(jié)構(gòu)化的數(shù)據(jù)。在企業(yè)規(guī)模的不斷擴(kuò)大,數(shù)據(jù)不斷累積的情況下,傳統(tǒng)的搜索引擎自身存在信息處理的缺陷,用戶(hù)只能檢索到公開(kāi)的網(wǎng)頁(yè)信息,對(duì)網(wǎng)頁(yè)查全率以及查準(zhǔn)率過(guò)低,對(duì)于企業(yè)內(nèi)部的網(wǎng)頁(yè)則無(wú)法檢索到,無(wú)法滿(mǎn)足企業(yè)用戶(hù)的檢索需要。企業(yè)的運(yùn)營(yíng)分析層如何把正確的信息、在正確的時(shí)機(jī)提供給相應(yīng)的決策層,以及決策層如何及時(shí)準(zhǔn)確地獲得必要的決策參考信息等問(wèn)題將成為一個(gè)緊迫而復(fù)雜的課題。基于需求的驅(qū)動(dòng),一種基于企業(yè)深度挖掘型垂直搜索引擎的出現(xiàn)利用元數(shù)據(jù)的管理等技術(shù)構(gòu)建一個(gè)“綜合的營(yíng)銷(xiāo)平臺(tái)”的數(shù)據(jù)中心,以及構(gòu)筑在其上的商務(wù)智能,來(lái)管理和合理利用信息,給數(shù)據(jù)服務(wù)帶來(lái)了新的解決方案,因此本文選擇課題“基于企業(yè)深度挖掘型垂直搜索引擎在數(shù)據(jù)服務(wù)上的研究與應(yīng)用”,提出了面向企業(yè)的搜索引擎體系架構(gòu),并將其應(yīng)用到浙江中煙工業(yè)企業(yè)搜索引擎系統(tǒng)中,提出了浙江中煙營(yíng)銷(xiāo)搜索引擎系統(tǒng)框架。文章主要研究?jī)?nèi)容如下: 1)根據(jù)卷煙企業(yè)營(yíng)銷(xiāo)的狀況和...
【文章頁(yè)數(shù)】:74 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景、意義
1.2 垂直搜索引擎的服務(wù)市場(chǎng)
1.2.1 搜索引擎服務(wù)市場(chǎng)背景
1.2.2 企業(yè)搜索引擎服務(wù)市場(chǎng)趨勢(shì)
1.3 本文研究?jī)?nèi)容
1.4 本文組織結(jié)構(gòu)
第二章 垂直搜索引擎研究
2.1 垂直搜索引擎的概述
2.2 垂直搜索引擎結(jié)構(gòu)及工作原理
2.3 垂直搜索引擎的優(yōu)勢(shì)
2.4 構(gòu)建良好深度挖掘型垂直搜索引擎的要求
2.5 本章小結(jié)
第三章 面向主題的數(shù)據(jù)采集
3.1 網(wǎng)絡(luò)主題爬蟲(chóng)概述
3.1.1 網(wǎng)絡(luò)主題爬蟲(chóng)定義
3.1.2 網(wǎng)絡(luò)主題爬蟲(chóng)搜索策略
3.1.3 主題爬蟲(chóng)網(wǎng)頁(yè)的搜集
3.2 主題相關(guān)性算法及改進(jìn)
3.2.1 偏好主題 PageRank 算法
3.3 元數(shù)據(jù)管理模塊
3.3.1 元數(shù)據(jù)管理
3.4 本章小結(jié)
第四章 數(shù)據(jù)的壓縮索引和 HBase 云存儲(chǔ)
4.1 數(shù)據(jù)的壓縮
4.1.1 范式哈夫曼算法
4.2 壓縮索引的方法
4.2.1 倒排文件壓縮算法
4.3 HBase 云存儲(chǔ)
4.3.1 引言
4.3.2 文件存儲(chǔ)系統(tǒng) HDFS
4.3.3 海量數(shù)據(jù)處理 MapReduce
4.3.4 協(xié)同服務(wù)管理 Zookeeper
4.4 本章小結(jié)
第五章 企業(yè)搜索引擎的用戶(hù)查詢(xún)
5.1 引言
5.2 網(wǎng)頁(yè)信息匹配和檢索
5.2.1 煙草本體詞典的構(gòu)建
5.2.2 中文分詞技術(shù)
5.2.3 語(yǔ)義相似度計(jì)算
5.2.4 面向特征的網(wǎng)頁(yè)查重刪除技術(shù)
5.3 索引庫(kù)的建立
5.4 檢索模塊
5.4.1 概率模型算法
5.4.2 檢索結(jié)果的排序
5.4.3 檢索結(jié)果文檔摘要
5.5 檢索結(jié)果的特點(diǎn)分析
5.6 本章總結(jié)
第六章 企業(yè)搜索引擎系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)
6.1 引言
6.2 浙江中煙營(yíng)銷(xiāo)搜索引擎系統(tǒng)設(shè)計(jì)
6.2.1 系統(tǒng)的需求分析
6.2.2 系統(tǒng)的總體架構(gòu)
6.2.3 系統(tǒng)架構(gòu)設(shè)計(jì)
6.3 系統(tǒng)開(kāi)發(fā)環(huán)境
6.4 煙草領(lǐng)域本體構(gòu)建
6.5 人機(jī)交互界面
6.6 本章總結(jié)
第七章 總結(jié)與展望
7.1 全文總結(jié)
7.2 研究展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間的研究成果
本文編號(hào):3993250
【文章頁(yè)數(shù)】:74 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景、意義
1.2 垂直搜索引擎的服務(wù)市場(chǎng)
1.2.1 搜索引擎服務(wù)市場(chǎng)背景
1.2.2 企業(yè)搜索引擎服務(wù)市場(chǎng)趨勢(shì)
1.3 本文研究?jī)?nèi)容
1.4 本文組織結(jié)構(gòu)
第二章 垂直搜索引擎研究
2.1 垂直搜索引擎的概述
2.2 垂直搜索引擎結(jié)構(gòu)及工作原理
2.3 垂直搜索引擎的優(yōu)勢(shì)
2.4 構(gòu)建良好深度挖掘型垂直搜索引擎的要求
2.5 本章小結(jié)
第三章 面向主題的數(shù)據(jù)采集
3.1 網(wǎng)絡(luò)主題爬蟲(chóng)概述
3.1.1 網(wǎng)絡(luò)主題爬蟲(chóng)定義
3.1.2 網(wǎng)絡(luò)主題爬蟲(chóng)搜索策略
3.1.3 主題爬蟲(chóng)網(wǎng)頁(yè)的搜集
3.2 主題相關(guān)性算法及改進(jìn)
3.2.1 偏好主題 PageRank 算法
3.3 元數(shù)據(jù)管理模塊
3.3.1 元數(shù)據(jù)管理
3.4 本章小結(jié)
第四章 數(shù)據(jù)的壓縮索引和 HBase 云存儲(chǔ)
4.1 數(shù)據(jù)的壓縮
4.1.1 范式哈夫曼算法
4.2 壓縮索引的方法
4.2.1 倒排文件壓縮算法
4.3 HBase 云存儲(chǔ)
4.3.1 引言
4.3.2 文件存儲(chǔ)系統(tǒng) HDFS
4.3.3 海量數(shù)據(jù)處理 MapReduce
4.3.4 協(xié)同服務(wù)管理 Zookeeper
4.4 本章小結(jié)
第五章 企業(yè)搜索引擎的用戶(hù)查詢(xún)
5.1 引言
5.2 網(wǎng)頁(yè)信息匹配和檢索
5.2.1 煙草本體詞典的構(gòu)建
5.2.2 中文分詞技術(shù)
5.2.3 語(yǔ)義相似度計(jì)算
5.2.4 面向特征的網(wǎng)頁(yè)查重刪除技術(shù)
5.3 索引庫(kù)的建立
5.4 檢索模塊
5.4.1 概率模型算法
5.4.2 檢索結(jié)果的排序
5.4.3 檢索結(jié)果文檔摘要
5.5 檢索結(jié)果的特點(diǎn)分析
5.6 本章總結(jié)
第六章 企業(yè)搜索引擎系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)
6.1 引言
6.2 浙江中煙營(yíng)銷(xiāo)搜索引擎系統(tǒng)設(shè)計(jì)
6.2.1 系統(tǒng)的需求分析
6.2.2 系統(tǒng)的總體架構(gòu)
6.2.3 系統(tǒng)架構(gòu)設(shè)計(jì)
6.3 系統(tǒng)開(kāi)發(fā)環(huán)境
6.4 煙草領(lǐng)域本體構(gòu)建
6.5 人機(jī)交互界面
6.6 本章總結(jié)
第七章 總結(jié)與展望
7.1 全文總結(jié)
7.2 研究展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間的研究成果
本文編號(hào):3993250
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3993250.html
最近更新
教材專(zhuān)著