天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向校園招聘主題的分布式爬蟲系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間:2020-08-13 12:50
【摘要】:近年來,高校畢業(yè)生規(guī)模的不斷擴(kuò)大,大學(xué)生的就業(yè)問題不容忽視,社會對此問題給予了廣泛關(guān)注。目前網(wǎng)絡(luò)上招聘網(wǎng)站不勝枚舉,很多招聘信息存在重復(fù)冗余,查詢效率低,信息可靠性低的問題,對畢業(yè)生來說,需要花費大量的時間甄別虛假信息、篩選重復(fù)信息,影響求職效率。本文通過研究分析爬蟲系統(tǒng)相關(guān)技術(shù),在深入了解相關(guān)技術(shù)算法的基礎(chǔ)上,搭建Hadoop分布式運行環(huán)境,運行爬取校園招聘相關(guān)職位信息,以解決招聘信息爬取效率低的問題,并且滿足面向校園招聘這一主題;通過并行爬取三個招聘網(wǎng)站校園招聘信息以解決校園招聘職位信息分布散且雜的問題;通過研究基于正則化的過濾方法篩選過濾主題不相關(guān)URL鏈接,以達(dá)到將爬取范圍限制到這三個招聘網(wǎng)站域名范圍內(nèi);通過研究基于標(biāo)題特征詞文本相似度的計算方式降低虛假招聘信息的PageRank評分:最終達(dá)到招聘信息冗余度較低、覆蓋信息較為全面的目的,并且提供了簡潔、易于操作的用戶查詢交互接口。論文主要工作如下:(1)面向校園招聘主題的分布式爬蟲系統(tǒng)設(shè)計。為獲取校園招聘信息,需要對各招聘網(wǎng)站的校園招聘信息鏈接進(jìn)行爬取;采用分布式計算框架對校園招聘信息進(jìn)行高效爬取;為實現(xiàn)面向校園招聘爬取這一主題,需要對爬取的URL鏈接進(jìn)行過濾;為方便用戶查詢校園招聘信息,需要提供搜索查詢服務(wù)功能。根據(jù)上述功能需求,系統(tǒng)模塊主要劃分為爬蟲模塊、索引模塊和檢索模塊。(2)面向校園招聘主題的分布式爬蟲系統(tǒng)實現(xiàn)。爬蟲模塊選用Nutch開源爬蟲框架,采用基于正則化的過濾方法進(jìn)行URL篩選,并利用其插件機(jī)制對其進(jìn)行二次開發(fā),實現(xiàn)基于標(biāo)題特征詞文本相似度的職位信息可靠性評分。索引模塊采用Solr框架對爬取到的校園招聘數(shù)據(jù)建立索引,并配置了 IK-Analyzer中文分詞器對校園招聘網(wǎng)頁本文執(zhí)行預(yù)處理,以提高查詢準(zhǔn)確度。檢索模塊設(shè)計實現(xiàn)基于JSP+CSS的用戶交互界面,方便用戶進(jìn)行檢索查詢。
【學(xué)位授予單位】:大連交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP391.1
【圖文】:

組件結(jié)構(gòu),分布式文件系統(tǒng)


Namenode邋會定期從邋DataNodes邋那里收到邋Heartbeat邋和邋Blockreport邋反饋,Heartbeat邋反饋逡逑用來確保DataNode沒有出現(xiàn)功能異常:Blockreport包含DataNode所存儲的Block集合。逡逑如圖2.2所示給出了邋HDFS的組件結(jié)構(gòu)[13]。逡逑邐邋Metadata邋(Name,邋replicas,...):逡逑Metadata邋ops"邋Namenode邋H邐/home/foo/data,邋3,...邐逡逑(邋Client邐Block邋ops逡逑Reid邋Datanodes邐Datanodes逡逑EDE]|邐°邐It?邋■邋Replication邋D邋D逡逑□邐口邐\邐JZ\邋Dbiocks逡逑v邐\邋J邐/vZZl.邐J逡逑V邋-邐'Y逡逑Rack邋1邐Rack邋2逡逑(Client逡逑圖2.2邋HDFS組件結(jié)構(gòu)逡逑Fig.邋2.2邋The邋structure邋of邋HDFS邋component逡逑在HDFS分布式文件系統(tǒng)中,NameNode和DataNode是分別運行在單個機(jī)器上的逡逑7逡逑

系統(tǒng)數(shù)據(jù),網(wǎng)頁,校園招聘,框架


..4.2系統(tǒng)設(shè)計逡逑本校園招聘爬蟲系統(tǒng)整體架構(gòu)如圖4.2所示,Nutch框架搭載在Hadoop分布式集群逡逑利用MapReduce計算框架對Internet上的招聘信息進(jìn)行分布式高效爬取,將爬取到的校逡逑園招聘網(wǎng)頁數(shù)據(jù)存儲到HDFS文件系統(tǒng)中,然后啟動Solr服務(wù)器為校園招聘網(wǎng)頁數(shù)據(jù)建逡逑

系統(tǒng)結(jié)構(gòu)圖,系統(tǒng)結(jié)構(gòu)圖,校園招聘


分高的URL校園招聘信息。在達(dá)到預(yù)先設(shè)定的爬取深度后,循環(huán)爬取過程結(jié)束,爬取逡逑到的校園招聘網(wǎng)頁數(shù)據(jù)存儲在HDFS分布式文件系統(tǒng)中,等待索引模塊建立索弓丨。爬蟲逡逑模塊流程圖如圖4.4所不。逡逑c開力臺)逡逑邐J邐逡逑建立初始URL種子逡逑集逡逑邐I邐逡逑邐?生成抓取隊列逡逑|基于正化規(guī)則逡逑的URL過濾逡逑抓取園招聘逡逑網(wǎng)頁信患逡逑否邐|解析校園招聘逡逑網(wǎng)貧信息逡逑I校園招聘患可靠性逡逑度置評分計算逡逑,1逡逑I更新羝取庫-逡逑4-逡逑(邋結(jié)束邋)逡逑圖4.4爬蟲模塊流程圖逡逑Fig.邋4.4邋Flowchart邋of邋the邋crawler邋module逡逑為了便于在Nutch爬蟲基礎(chǔ)上加入校園招聘信息可靠性計算,需要對Nutch框架源逡逑碼進(jìn)行分析,如圖4.5所示是Nutch系統(tǒng)結(jié)構(gòu)圖,根據(jù)對Nutch源碼的研讀可

【參考文獻(xiàn)】

相關(guān)期刊論文 前7條

1 岳紹敏;李萬龍;王璐;光順利;;基于Lucene索引的數(shù)據(jù)庫全文檢索[J];吉林大學(xué)學(xué)報(理學(xué)版);2014年05期

2 嚴(yán)磊;馬勇男;丁賓;鄭濤;;垂直搜索引擎之主題網(wǎng)絡(luò)爬蟲[J];福建電腦;2013年03期

3 王建雄;;基于特殊主題的PageRank改進(jìn)算法[J];圖書情報工作;2012年21期

4 方巍;文學(xué)志;潘吳斌;薛勝軍;;云計算:概念、技術(shù)及應(yīng)用研究綜述[J];南京信息工程大學(xué)學(xué)報(自然科學(xué)版);2012年04期

5 吳黎兵;柯亞林;何炎祥;劉楠;;分布式網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];計算機(jī)應(yīng)用與軟件;2011年11期

6 李稚楹;楊武;謝治軍;;PageRank算法研究綜述[J];計算機(jī)科學(xué);2011年S1期

7 張啟宇;朱玲;張雅萍;;中文分詞算法研究綜述[J];情報探索;2008年11期



本文編號:2792018

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2792018.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶772b2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com