二手房的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-04-30 03:18
隨著互聯(lián)網(wǎng)的飛速發(fā)展以及大數(shù)據(jù)的到來(lái),各個(gè)領(lǐng)域充斥著大量的信息。如何檢索出有用的信息成為了各領(lǐng)域的首要任務(wù)。因此,結(jié)合垂直搜索引擎技術(shù)開(kāi)發(fā)出二手房的搜索引擎平臺(tái)成為了該領(lǐng)域的亟需解決的問(wèn)題。主題網(wǎng)絡(luò)爬蟲(chóng)策略融合了網(wǎng)頁(yè)采集、網(wǎng)頁(yè)分塊、主題相關(guān)度判定以及信息提取等技術(shù)。該策略在領(lǐng)域網(wǎng)頁(yè)采集方面有著明顯的優(yōu)勢(shì),如具有很高的網(wǎng)絡(luò)資源利用率以及信息采集的準(zhǔn)確率。本文在考慮網(wǎng)頁(yè)的相關(guān)度計(jì)算中,融合了鏈接所在的內(nèi)容塊與主題的相似度,通過(guò)對(duì)鏈接的相似度與網(wǎng)頁(yè)內(nèi)容的相似度的權(quán)重組合,來(lái)過(guò)濾與主題無(wú)關(guān)的網(wǎng)頁(yè),同時(shí)鏈接與主題相似度也能夠降低爬蟲(chóng)服務(wù)對(duì)無(wú)關(guān)鏈接的訪問(wèn)量。本文結(jié)合全文檢索框架Lucene、分布式爬蟲(chóng)框架以及HBase集群開(kāi)發(fā)了一套二手房的垂直搜索引擎。該爬蟲(chóng)框架實(shí)時(shí)抓取國(guó)內(nèi)多個(gè)二手房網(wǎng)站數(shù)據(jù),目前已經(jīng)抓取的網(wǎng)頁(yè)庫(kù)達(dá)到千萬(wàn)級(jí)的二手房數(shù)據(jù),并存儲(chǔ)到HBase集群,可用于數(shù)據(jù)分析以及挖掘等。該搜索引擎融合了同義詞以及Rocchio相關(guān)反饋算法對(duì)原始查詢(xún)的擴(kuò)展,進(jìn)而優(yōu)化Lucene的默認(rèn)查詢(xún),并提供了域查詢(xún)以及模糊查詢(xún)等多樣化的功能。最后對(duì)二手房的垂直搜索引擎中的網(wǎng)絡(luò)爬蟲(chóng)以及檢索模塊進(jìn)行了功能測(cè)試,并與...
【文章來(lái)源】:西南交通大學(xué)四川省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:80 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 主要內(nèi)容和結(jié)構(gòu)安排
第2章 垂直搜索引擎相關(guān)技術(shù)
2.1 搜索引擎工作原理
2.2 二手房的垂直搜索引擎的特點(diǎn)
2.2.1 垂直搜索引擎的特點(diǎn)
2.2.2 二手房信息的特點(diǎn)
2.3 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
2.3.1 主題爬蟲(chóng)架構(gòu)
2.3.2 網(wǎng)絡(luò)爬蟲(chóng)策略
2.4 中文分詞技術(shù)
2.4.1 中文分詞概述
2.4.2 中文分詞基本算法
2.5 非關(guān)系型數(shù)據(jù)庫(kù)HBase
2.5.1 HBase概述
2.5.2 HBase特性
2.5.3 HBase集群架構(gòu)
2.6 全文檢索框架Lucene
2.6.1 Lucene概述
2.6.2 Lucene系統(tǒng)結(jié)構(gòu)
2.6.3 Lucene索引
2.7 本章小結(jié)
第3章 二手房的主題網(wǎng)絡(luò)爬蟲(chóng)策略設(shè)計(jì)
3.1 基于網(wǎng)頁(yè)內(nèi)容的網(wǎng)絡(luò)爬蟲(chóng)策略
3.1.1 Fish-Search算法
3.1.2 Shark-Search算法
3.2 內(nèi)容塊相似度
3.2.1 網(wǎng)頁(yè)分塊技術(shù)
3.2.2 主題相似度算法
3.3 二手房的網(wǎng)絡(luò)爬蟲(chóng)策略
3.3.1 鏈接以及網(wǎng)頁(yè)相似度算法
3.3.2 網(wǎng)絡(luò)爬蟲(chóng)策略流程
3.3.3 爬蟲(chóng)策略設(shè)計(jì)及分析
3.4 本章小結(jié)
第4章 基于Lucene檢索模型的查詢(xún)優(yōu)化
4.1 問(wèn)題描述
4.2 Lucene檢索模型及評(píng)分算法
4.2.1 布爾檢索模型
4.2.2 向量空間檢索模型
4.2.3 默認(rèn)評(píng)分算法
4.3 Rocchio算法模型
4.4 融合同義詞與Rocchio算法的查詢(xún)優(yōu)化
4.4.1 流程描述
4.4.2 評(píng)價(jià)原則與標(biāo)準(zhǔn)
4.4.3 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集
4.4.4 實(shí)驗(yàn)設(shè)計(jì)及分析
4.5 本章小結(jié)
第5章 二手房的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
5.1 二手房的垂直搜索引擎的功能和目標(biāo)
5.2 二手房的垂直搜索引擎的整體設(shè)計(jì)
5.2.1 整體架構(gòu)設(shè)計(jì)
5.2.2 系統(tǒng)數(shù)據(jù)流設(shè)計(jì)
5.2.3 分布式數(shù)據(jù)庫(kù)HBase架構(gòu)以及表設(shè)計(jì)
5.3 網(wǎng)頁(yè)爬蟲(chóng)模塊的設(shè)計(jì)與實(shí)現(xiàn)
5.3.1 分布式爬蟲(chóng)框架JLiteSpider
5.3.2 爬蟲(chóng)服務(wù)架構(gòu)設(shè)計(jì)
5.3.3 網(wǎng)頁(yè)抓取
5.3.4 文檔解析與處理模塊
5.4 索引模塊的設(shè)計(jì)與實(shí)現(xiàn)
5.4.1 數(shù)據(jù)預(yù)處理
5.4.2 IKAnalyzer中文分詞器
5.4.3 索引構(gòu)建
5.5 檢索模塊的設(shè)計(jì)與實(shí)現(xiàn)
5.5.1 檢索過(guò)程
5.5.2 查詢(xún)效果
5.6 本章小結(jié)
第6章 系統(tǒng)測(cè)試
6.1 開(kāi)發(fā)環(huán)境
6.2 功能測(cè)試
6.2.1 網(wǎng)絡(luò)爬蟲(chóng)測(cè)試
6.2.2 查詢(xún)模塊測(cè)試
總結(jié)與展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及科研成果
本文編號(hào):3168733
【文章來(lái)源】:西南交通大學(xué)四川省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:80 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 主要內(nèi)容和結(jié)構(gòu)安排
第2章 垂直搜索引擎相關(guān)技術(shù)
2.1 搜索引擎工作原理
2.2 二手房的垂直搜索引擎的特點(diǎn)
2.2.1 垂直搜索引擎的特點(diǎn)
2.2.2 二手房信息的特點(diǎn)
2.3 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
2.3.1 主題爬蟲(chóng)架構(gòu)
2.3.2 網(wǎng)絡(luò)爬蟲(chóng)策略
2.4 中文分詞技術(shù)
2.4.1 中文分詞概述
2.4.2 中文分詞基本算法
2.5 非關(guān)系型數(shù)據(jù)庫(kù)HBase
2.5.1 HBase概述
2.5.2 HBase特性
2.5.3 HBase集群架構(gòu)
2.6 全文檢索框架Lucene
2.6.1 Lucene概述
2.6.2 Lucene系統(tǒng)結(jié)構(gòu)
2.6.3 Lucene索引
2.7 本章小結(jié)
第3章 二手房的主題網(wǎng)絡(luò)爬蟲(chóng)策略設(shè)計(jì)
3.1 基于網(wǎng)頁(yè)內(nèi)容的網(wǎng)絡(luò)爬蟲(chóng)策略
3.1.1 Fish-Search算法
3.1.2 Shark-Search算法
3.2 內(nèi)容塊相似度
3.2.1 網(wǎng)頁(yè)分塊技術(shù)
3.2.2 主題相似度算法
3.3 二手房的網(wǎng)絡(luò)爬蟲(chóng)策略
3.3.1 鏈接以及網(wǎng)頁(yè)相似度算法
3.3.2 網(wǎng)絡(luò)爬蟲(chóng)策略流程
3.3.3 爬蟲(chóng)策略設(shè)計(jì)及分析
3.4 本章小結(jié)
第4章 基于Lucene檢索模型的查詢(xún)優(yōu)化
4.1 問(wèn)題描述
4.2 Lucene檢索模型及評(píng)分算法
4.2.1 布爾檢索模型
4.2.2 向量空間檢索模型
4.2.3 默認(rèn)評(píng)分算法
4.3 Rocchio算法模型
4.4 融合同義詞與Rocchio算法的查詢(xún)優(yōu)化
4.4.1 流程描述
4.4.2 評(píng)價(jià)原則與標(biāo)準(zhǔn)
4.4.3 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集
4.4.4 實(shí)驗(yàn)設(shè)計(jì)及分析
4.5 本章小結(jié)
第5章 二手房的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
5.1 二手房的垂直搜索引擎的功能和目標(biāo)
5.2 二手房的垂直搜索引擎的整體設(shè)計(jì)
5.2.1 整體架構(gòu)設(shè)計(jì)
5.2.2 系統(tǒng)數(shù)據(jù)流設(shè)計(jì)
5.2.3 分布式數(shù)據(jù)庫(kù)HBase架構(gòu)以及表設(shè)計(jì)
5.3 網(wǎng)頁(yè)爬蟲(chóng)模塊的設(shè)計(jì)與實(shí)現(xiàn)
5.3.1 分布式爬蟲(chóng)框架JLiteSpider
5.3.2 爬蟲(chóng)服務(wù)架構(gòu)設(shè)計(jì)
5.3.3 網(wǎng)頁(yè)抓取
5.3.4 文檔解析與處理模塊
5.4 索引模塊的設(shè)計(jì)與實(shí)現(xiàn)
5.4.1 數(shù)據(jù)預(yù)處理
5.4.2 IKAnalyzer中文分詞器
5.4.3 索引構(gòu)建
5.5 檢索模塊的設(shè)計(jì)與實(shí)現(xiàn)
5.5.1 檢索過(guò)程
5.5.2 查詢(xún)效果
5.6 本章小結(jié)
第6章 系統(tǒng)測(cè)試
6.1 開(kāi)發(fā)環(huán)境
6.2 功能測(cè)試
6.2.1 網(wǎng)絡(luò)爬蟲(chóng)測(cè)試
6.2.2 查詢(xún)模塊測(cè)試
總結(jié)與展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及科研成果
本文編號(hào):3168733
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3168733.html
最近更新
教材專(zhuān)著