天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

招聘信息垂直搜索引擎系統(tǒng)設(shè)計與實現(xiàn)

發(fā)布時間:2017-04-27 01:08

  本文關(guān)鍵詞:招聘信息垂直搜索引擎系統(tǒng)設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:在信息技術(shù)高速發(fā)展的今天,web網(wǎng)站數(shù)目呈爆炸式的增長趨勢,互聯(lián)網(wǎng)世界已經(jīng)進入了大數(shù)據(jù)時代。當(dāng)今通用搜索引擎發(fā)展已經(jīng)十分成熟,人們對專業(yè)領(lǐng)域的搜索需求越來越迫切,垂直搜索引擎應(yīng)運而生。 雖然已有部分成功的垂直搜索引擎典范,但垂直搜索的主題爬蟲技術(shù)仍然不成熟,需要更好的算法來提高搜索結(jié)果的精確度。本文首先全面分析了垂直搜索引擎各模塊的應(yīng)用的相關(guān)技術(shù),然后在深入了解和分析已有的垂直搜索算法的基礎(chǔ)上提出一種基于混合模型的主題相關(guān)度預(yù)測改進算法。該算法綜合運用主題相關(guān)度預(yù)測因子、潛在主題相關(guān)度因子及頁面質(zhì)量分析因子對URL進行主題相關(guān)度預(yù)測及排序,使主題爬蟲可優(yōu)先爬取主題相關(guān)頁面,從而提高主題爬蟲的工作效率。 商用搜索引擎排序算法不開源,頁面排序受多種因素制約,,包括帶有商業(yè)性質(zhì)的競價排名。Nutch框架是一個開源的通用網(wǎng)絡(luò)爬蟲框架,提供基本的網(wǎng)頁爬取功能并可以利用其插件機制對其進行擴展和定制。Solr是一款基于Lucene的開源索引服務(wù)器,可以提供良好的構(gòu)建索引的功能。這兩種框架內(nèi)部算法公開透明,旨在打破當(dāng)今搜索引擎市場基本被幾家大公司壟斷的局面,提供優(yōu)質(zhì)的搜索結(jié)果。本文基于Nutch和Solr框架設(shè)計并實現(xiàn)了一個招聘信息垂直搜索引擎系統(tǒng),提供招聘信息專業(yè)領(lǐng)域的搜索結(jié)果。該系統(tǒng)通過新增頁面評分插件修改了Nutch的主題爬蟲中頁面評分算法,運用基于混合模型的主題相關(guān)度預(yù)測算法對待爬取URL進行排序,為Solr配置IKAnalyzer分詞器用以對網(wǎng)頁文檔進行預(yù)處理,前端使用Struts2框架與用戶進行交互。
【關(guān)鍵詞】:招聘信息 主題爬蟲 Nutch框架 Solr框架
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
  • 摘要4-5
  • Abstract5-9
  • 1 緒論9-15
  • 1.1 研究背景與意義9-11
  • 1.2 國內(nèi)外研究概況11-13
  • 1.3 論文的主要研究內(nèi)容13
  • 1.4 論文的組織結(jié)構(gòu)13-15
  • 2 垂直搜索引擎相關(guān)技術(shù)分析15-25
  • 2.1 垂直搜索引擎體系結(jié)構(gòu)15-16
  • 2.2 網(wǎng)絡(luò)爬蟲模塊相關(guān)技術(shù)分析16-18
  • 2.3 索引模塊相關(guān)技術(shù)分析18-21
  • 2.4 檢索模塊相關(guān)技術(shù)分析21-24
  • 2.5 本章小結(jié)24-25
  • 3 基于混合模型的主題爬蟲改進算法25-32
  • 3.1 主題爬蟲算法分析25-27
  • 3.2 基于混合模型的主題爬蟲改進算法27-29
  • 3.3 實驗結(jié)果與分析29-31
  • 3.4 本章小結(jié)31-32
  • 4 招聘信息垂直搜索引擎系統(tǒng)分析與設(shè)計32-46
  • 4.1 招聘信息垂直搜索引擎系統(tǒng)需求分析32-36
  • 4.2 招聘信息垂直搜索引擎系統(tǒng)設(shè)計36-45
  • 4.3 本章小結(jié)45-46
  • 5 招聘信息垂直搜索引擎系統(tǒng)實現(xiàn)46-59
  • 5.1 開發(fā)環(huán)境46
  • 5.2 主題爬蟲的實現(xiàn)46-51
  • 5.3 Solr 索引及檢索模塊的實現(xiàn)51-52
  • 5.4 頁面響應(yīng)模塊的實現(xiàn)52-56
  • 5.5 UI 模塊的實現(xiàn)56-57
  • 5.6 系統(tǒng)測試與運行57-58
  • 5.7 本章小結(jié)58-59
  • 6 總結(jié)與展望59-61
  • 6.1 全文總結(jié)59
  • 6.2 展望59-61
  • 致謝61-62
  • 參考文獻62-65

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前2條

1 崔航,文繼榮,李敏強;基于用戶日志的查詢擴展統(tǒng)計模型[J];軟件學(xué)報;2003年09期

2 宋睿華,馬少平,陳剛,李景陽;一種提高中文搜索引擎檢索質(zhì)量的HTML解析方法[J];中文信息學(xué)報;2003年04期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年

2 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前5條

1 張_g;基于Nutch的農(nóng)業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學(xué);2013年

2 黃錦捷;基于Solr的企業(yè)級檢索系統(tǒng)的設(shè)計與實現(xiàn)[D];華南理工大學(xué);2013年

3 鄔亞文;威客垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)[D];華南理工大學(xué);2010年

4 吳翠雁;基于Nutch的信息采集系統(tǒng)的研究與實現(xiàn)[D];華南理工大學(xué);2010年

5 李東海;基于Nutch技術(shù)的主題搜索引擎實現(xiàn)[D];吉林大學(xué);2008年


  本文關(guān)鍵詞:招聘信息垂直搜索引擎系統(tǒng)設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號:329597

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/329597.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9f1c1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com