基于Nutch的就業(yè)垂直搜索引擎研究
發(fā)布時間:2023-04-20 22:44
針對通用搜索引擎專業(yè)性不夠、查準(zhǔn)率較低的問題,基于Nutch開源搜索引擎,采用基于本地詞庫和動態(tài)加載詞庫的正向迭代最細(xì)粒度切分算法實現(xiàn)中文分詞;谔卣髟~和元數(shù)據(jù)標(biāo)簽的空間向量模型實現(xiàn)就業(yè)領(lǐng)域主題相關(guān)性判定,基于MapReduce引入網(wǎng)頁鏈入鏈接權(quán)重因子和時間衰減因子改進(jìn)LinkRank排序算法等對Nutch進(jìn)行二次開發(fā),并在網(wǎng)頁信息抓取和過濾、就業(yè)信息搜索和特征詞推薦等環(huán)節(jié)引入就業(yè)領(lǐng)域本體信息,采用Java框架技術(shù)對用戶查詢接口進(jìn)行了二次開發(fā),提供了如關(guān)鍵字智能提醒、定制爬蟲、二次查找、設(shè)定查詢結(jié)果日期、訂閱查詢等擴(kuò)展查詢接口,設(shè)計并實現(xiàn)了基于Nutch的就業(yè)垂直搜索引擎。實驗結(jié)果表明,基于Nutch的就業(yè)垂直搜索引擎具有較高的查準(zhǔn)率,可以滿足用戶專業(yè)檢索的需求。
【文章頁數(shù)】:5 頁
【文章目錄】:
0 引言
1 系統(tǒng)框架
2 系統(tǒng)關(guān)鍵技術(shù)
2.1 中文分詞
2.2 主題相關(guān)性判別
2.3 檢索結(jié)果排序
2.3.1 基于MapReduce的LinkRank并行排序算法
2.3.2 網(wǎng)頁的就業(yè)相關(guān)度計算
2.3.3改進(jìn)Nutch原有結(jié)果排序
2.4 用戶查詢接口擴(kuò)展
2.4.1 關(guān)鍵字智能提醒
2.4.2 定制爬蟲
2.4.3 搜索輔助接口
3 測試與分析
3.1 測試數(shù)據(jù)準(zhǔn)備
3.2 測試及結(jié)果分析
3.2.1 主題相關(guān)性分析
3.2.2 不同搜索引擎的比較
4 結(jié)束語
本文編號:3795305
【文章頁數(shù)】:5 頁
【文章目錄】:
0 引言
1 系統(tǒng)框架
2 系統(tǒng)關(guān)鍵技術(shù)
2.1 中文分詞
2.2 主題相關(guān)性判別
2.3 檢索結(jié)果排序
2.3.1 基于MapReduce的LinkRank并行排序算法
2.3.2 網(wǎng)頁的就業(yè)相關(guān)度計算
2.3.3改進(jìn)Nutch原有結(jié)果排序
2.4 用戶查詢接口擴(kuò)展
2.4.1 關(guān)鍵字智能提醒
2.4.2 定制爬蟲
2.4.3 搜索輔助接口
3 測試與分析
3.1 測試數(shù)據(jù)準(zhǔn)備
3.2 測試及結(jié)果分析
3.2.1 主題相關(guān)性分析
3.2.2 不同搜索引擎的比較
4 結(jié)束語
本文編號:3795305
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3795305.html
最近更新
教材專著