第四方就業(yè)信息推薦系統(tǒng)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間：2017-05-26 09:03

本文關(guān)鍵詞：第四方就業(yè)信息推薦系統(tǒng)的研究與實(shí)現(xiàn)，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著Web2.0的不斷發(fā)展和流行，互聯(lián)網(wǎng)上的信息量急劇增加，用戶很容易迷失在信息的海洋中。網(wǎng)絡(luò)招聘信息，作為互聯(lián)網(wǎng)信息的一種，廣泛充斥在互聯(lián)網(wǎng)中。而且，，就業(yè)信息網(wǎng)站林林總總、真假難辨。面對(duì)海量信息，信息檢索和信息過(guò)濾是當(dāng)前兩種主要的解決方案。其中，信息檢索的結(jié)果是大眾化的，只要輸入的關(guān)鍵詞一樣，搜索結(jié)果就相同，并且搜索結(jié)果的數(shù)據(jù)量可能仍然很大。而信息過(guò)濾則能有效的彌補(bǔ)信息檢索的不足，通過(guò)個(gè)性化定制的方法進(jìn)一步提升用戶體驗(yàn)度。常用的信息過(guò)濾方式為個(gè)性化推薦。因此，本文在就業(yè)信息的處理中充分結(jié)合信息檢索和信息過(guò)濾這兩種方式，為求職者盡可能簡(jiǎn)潔高效的提供真實(shí)有用的信息。此外，本文結(jié)合一些Web開發(fā)的相關(guān)技術(shù)，利用Mysql、SolrCloud等開源軟件設(shè)計(jì)并實(shí)現(xiàn)了第四方就業(yè)信息推薦系統(tǒng)。論文主要工作包括： ①實(shí)現(xiàn)就業(yè)信息的抓取、解析和清洗。本文首先采用網(wǎng)絡(luò)爬蟲的方式從各大第三方招聘網(wǎng)站抓取信息。然后對(duì)獲取的就業(yè)信息進(jìn)行清洗和格式整理。最后，將所有格式化的就業(yè)信息映射到一個(gè)標(biāo)準(zhǔn)的行業(yè)分類目錄上，形成一個(gè)分類一致的就業(yè)信息數(shù)據(jù)集。 ②實(shí)現(xiàn)就業(yè)信息的分布式存儲(chǔ)。本文采用Mysql數(shù)據(jù)庫(kù)集群的數(shù)據(jù)存儲(chǔ)方案，通過(guò)負(fù)載均衡、數(shù)據(jù)切分、讀寫分離等方法，保證數(shù)據(jù)庫(kù)并發(fā)讀寫效率和分布式數(shù)據(jù)庫(kù)事務(wù)的正確性。 ③搭建分布式全文檢索系統(tǒng)。本文采用SolrCloud作為分布式全文檢索引擎，Zookeeper作為搜索引擎集群監(jiān)視器和配置文件管理器，搭建了一個(gè)高性能、高可用的分布式全文檢索系統(tǒng)。 ④實(shí)現(xiàn)就業(yè)信息的個(gè)性化推薦。利用用戶的行為數(shù)據(jù)，基于用戶的個(gè)性化推薦算法為用戶推薦感興趣的工作；利用評(píng)分可信度和Hadoop框架，研究和設(shè)計(jì)了基于評(píng)分可信度的UserCF并行推薦算法。
【關(guān)鍵詞】：全文檢索 并行化 可信度 推薦系統(tǒng) 高性能
【學(xué)位授予單位】：重慶大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2014
【分類號(hào)】：TP391.3
【目錄】：

摘要3-4
ABSTRACT4-9
1 緒論9-14
1.1 研究背景和意義9
1.2 國(guó)內(nèi)外研究現(xiàn)狀9-12
1.2.1 推薦系統(tǒng)的國(guó)內(nèi)外研究現(xiàn)狀9-11
1.2.2 高性能 Web 開發(fā)技術(shù)的國(guó)內(nèi)外研究現(xiàn)狀11-12
1.3 本文的主要工作12
1.4 論文的組織結(jié)構(gòu)12-13
1.5 本章小結(jié)13-14
2 相關(guān)技術(shù)介紹和研究14-28
2.1 集群概述14
2.1.1 負(fù)載均衡技術(shù)14
2.1.2 集群中的高可用技術(shù)14
2.2 Web 應(yīng)用程序和 Web 服務(wù)器的優(yōu)化14-16
2.2.1 代碼優(yōu)化14-15
2.2.2 SQL 語(yǔ)句優(yōu)化15
2.2.3 高性能 Web 服務(wù)器15-16
2.3 分布式數(shù)據(jù)庫(kù)技術(shù)16-18
2.3.1 分布式數(shù)據(jù)庫(kù)技術(shù)16
2.3.2 單表數(shù)據(jù)量過(guò)大的處理策略16-17
2.3.3 數(shù)據(jù)庫(kù)切分策略17-18
2.3.4 數(shù)據(jù)庫(kù)中間層18
2.4 全文搜索技術(shù)研究18-20
2.4.1 倒排索引技術(shù)18
2.4.2 中文分詞技術(shù)18-19
2.4.3 Solr 簡(jiǎn)介19
2.4.4 Solr 架構(gòu)19-20
2.4.5 SolrCloud 分布式搜索方案20
2.5 Hadoop 分布式平臺(tái)20-24
2.5.1 Hadoop 技術(shù)20-21
2.5.2 MapReduce 計(jì)算模型21-22
2.5.3 HDFS 分布式文件系統(tǒng)22-24
2.6 推薦系統(tǒng)介紹24-26
2.6.1 關(guān)聯(lián)規(guī)則推薦算法24-25
2.6.2 協(xié)同過(guò)濾推薦算法25-26
2.7 就業(yè)信息和用戶行為數(shù)據(jù)的收集、整理26
2.7.1 用戶行為數(shù)據(jù)26
2.7.2 語(yǔ)義相似度計(jì)算26
2.8 本章小結(jié)26-28
3 第四方就業(yè)信息推薦系統(tǒng)的研究與設(shè)計(jì)28-36
3.1 基于用戶（求職者）的協(xié)同過(guò)濾推薦28-29
3.1.1 用戶相似度計(jì)算28-29
3.1.2 最終推薦結(jié)果的產(chǎn)生29
3.2 UserCF 算法存在的問(wèn)題29
3.3 第四方就業(yè)信息推薦系統(tǒng)的設(shè)計(jì)29-35
3.3.1 總體架構(gòu)29-30
3.3.2 評(píng)分的可信度計(jì)算30-31
3.3.3 冷啟動(dòng)問(wèn)題的解決方案31-32
3.3.4 基于 MapReduce 的推薦算法并行化32-35
3.4 本章小結(jié)35-36
4 第四方就業(yè)信息推薦系統(tǒng)的實(shí)現(xiàn)36-71
4.1 系統(tǒng)需求分析及整體設(shè)計(jì)36-37
4.1.1 功能模塊36-37
4.1.2 系統(tǒng)結(jié)構(gòu)圖37
4.2 Tomcat 應(yīng)用服務(wù)器集群搭建37-40
4.3 多線程網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)方案40-44
4.3.1 網(wǎng)絡(luò)工作信息爬取模式40-41
4.3.2 ExecutorService+Task 多線程編程模型41-42
4.3.3 解析 HTML 文件42-43
4.3.4 網(wǎng)頁(yè)信息分析43-44
4.4 網(wǎng)站分類目錄的整合44-46
4.4.1 標(biāo)簽相似度計(jì)算-Xsimilarity44
4.4.2 目錄映射算法44-46
4.5 Mysql 數(shù)據(jù)庫(kù)集群的設(shè)計(jì)46-48
4.5.1 Mysql 分區(qū)表簡(jiǎn)介46-47
4.5.2 數(shù)據(jù)庫(kù)設(shè)計(jì)拓?fù)鋱D47-48
4.6 SolrCloud 分布式搜索服務(wù)的設(shè)計(jì)48-52
4.6.1 搜索關(guān)鍵詞智能提示49-50
4.6.2 索引增量導(dǎo)入50
4.6.3 中文分詞器 IK Analyzer 的配置50
4.6.4 分布式搜索請(qǐng)求50-51
4.6.5 搜索容錯(cuò)能力51
4.6.6 基于地理位置的搜索51-52
4.7 用戶行為收集52-53
4.8 定時(shí)任務(wù)53
4.9 關(guān)聯(lián)規(guī)則的推薦算法實(shí)現(xiàn)53-55
4.9.1 Apriori 算法53-54
4.9.2 Apriori 算法實(shí)現(xiàn)54-55
4.10 協(xié)同過(guò)濾推薦的算法實(shí)現(xiàn)55-57
4.10.1 算法主要步驟55-57
4.11 系統(tǒng)優(yōu)化57-59
4.11.1 Apache 優(yōu)化57-58
4.11.2 Tomcat 優(yōu)化58-59
4.11.3 Solr 優(yōu)化59
4.12 Tomcat 服務(wù)器集群的測(cè)試和分析59-64
4.13 系統(tǒng)展示64-70
4.14 本章小結(jié)70-71
5 總結(jié)與展望71-72
5.1 總結(jié)71
5.2 展望71-72
致謝72-73
參考文獻(xiàn)73-76
附錄76
A. 作者在攻讀學(xué)位期間發(fā)表的論文目錄76
B. 作者在攻讀學(xué)位期間取得的科研成果目錄76

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 谷瓊,朱莉,袁紅星;分布式數(shù)據(jù)庫(kù)的設(shè)計(jì)與信息查詢[J];電腦知識(shí)與技術(shù);2005年08期

2 胡宏濤;常佳;;基于網(wǎng)絡(luò)的信息獲取技術(shù)淺析[J];福建電腦;2006年04期

3 郭洪海;姜錦虎;蔡涵;;C2C電子社區(qū)成員信譽(yù)值的計(jì)算模型研究[J];管理學(xué)報(bào);2009年08期

4 伍之昂;莊毅;王有權(quán);曹杰;;基于特征選擇的推薦系統(tǒng)托攻擊檢測(cè)算法[J];電子學(xué)報(bào);2012年08期

5 肖凌,劉繼紅,姚建初;分布式數(shù)據(jù)庫(kù)系統(tǒng)的研究與應(yīng)用[J];計(jì)算機(jī)工程;2001年01期

6 張新猛;蔣盛益;;基于加權(quán)二部圖的個(gè)性化推薦算法[J];計(jì)算機(jī)應(yīng)用;2012年03期

7 李戴維;李寧;;基于Solr的分布式全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2012年11期

8 李萍;;淺談TOMCAT之性能優(yōu)化[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2011年12期

9 張劍,王炎修,劉倩;關(guān)于分布式數(shù)據(jù)庫(kù)事務(wù)處理機(jī)制的探討[J];山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年02期

10 王培吉;趙玉琳;呂劍峰;;基于Apriori算法的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘研究[J];統(tǒng)計(jì)與決策;2011年23期

本文關(guān)鍵詞：第四方就業(yè)信息推薦系統(tǒng)的研究與實(shí)現(xiàn)，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：396295

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/396295.html

上一篇：基于語(yǔ)義關(guān)系圖的小視窗智能機(jī)上可視化探索式搜索研究
下一篇：瑜伽練習(xí)對(duì)女大學(xué)生情緒與形態(tài)機(jī)能素質(zhì)的影響

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

第四方就業(yè)信息推薦系統(tǒng)的研究與實(shí)現(xiàn)