第四方就業(yè)信息推薦系統(tǒng)的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:第四方就業(yè)信息推薦系統(tǒng)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著Web2.0的不斷發(fā)展和流行,互聯(lián)網(wǎng)上的信息量急劇增加,用戶很容易迷失在信息的海洋中。網(wǎng)絡(luò)招聘信息,作為互聯(lián)網(wǎng)信息的一種,廣泛充斥在互聯(lián)網(wǎng)中。而且,,就業(yè)信息網(wǎng)站林林總總、真假難辨。面對(duì)海量信息,信息檢索和信息過(guò)濾是當(dāng)前兩種主要的解決方案。其中,信息檢索的結(jié)果是大眾化的,只要輸入的關(guān)鍵詞一樣,搜索結(jié)果就相同,并且搜索結(jié)果的數(shù)據(jù)量可能仍然很大。而信息過(guò)濾則能有效的彌補(bǔ)信息檢索的不足,通過(guò)個(gè)性化定制的方法進(jìn)一步提升用戶體驗(yàn)度。常用的信息過(guò)濾方式為個(gè)性化推薦。因此,本文在就業(yè)信息的處理中充分結(jié)合信息檢索和信息過(guò)濾這兩種方式,為求職者盡可能簡(jiǎn)潔高效的提供真實(shí)有用的信息。此外,本文結(jié)合一些Web開發(fā)的相關(guān)技術(shù),利用Mysql、SolrCloud等開源軟件設(shè)計(jì)并實(shí)現(xiàn)了第四方就業(yè)信息推薦系統(tǒng)。 論文主要工作包括: ①實(shí)現(xiàn)就業(yè)信息的抓取、解析和清洗。本文首先采用網(wǎng)絡(luò)爬蟲的方式從各大第三方招聘網(wǎng)站抓取信息。然后對(duì)獲取的就業(yè)信息進(jìn)行清洗和格式整理。最后,將所有格式化的就業(yè)信息映射到一個(gè)標(biāo)準(zhǔn)的行業(yè)分類目錄上,形成一個(gè)分類一致的就業(yè)信息數(shù)據(jù)集。 ②實(shí)現(xiàn)就業(yè)信息的分布式存儲(chǔ)。本文采用Mysql數(shù)據(jù)庫(kù)集群的數(shù)據(jù)存儲(chǔ)方案,通過(guò)負(fù)載均衡、數(shù)據(jù)切分、讀寫分離等方法,保證數(shù)據(jù)庫(kù)并發(fā)讀寫效率和分布式數(shù)據(jù)庫(kù)事務(wù)的正確性。 ③搭建分布式全文檢索系統(tǒng)。本文采用SolrCloud作為分布式全文檢索引擎,Zookeeper作為搜索引擎集群監(jiān)視器和配置文件管理器,搭建了一個(gè)高性能、高可用的分布式全文檢索系統(tǒng)。 ④實(shí)現(xiàn)就業(yè)信息的個(gè)性化推薦。利用用戶的行為數(shù)據(jù),基于用戶的個(gè)性化推薦算法為用戶推薦感興趣的工作;利用評(píng)分可信度和Hadoop框架,研究和設(shè)計(jì)了基于評(píng)分可信度的UserCF并行推薦算法。
【關(guān)鍵詞】:全文檢索 并行化 可信度 推薦系統(tǒng) 高性能
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【目錄】:
- 摘要3-4
- ABSTRACT4-9
- 1 緒論9-14
- 1.1 研究背景和意義9
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-12
- 1.2.1 推薦系統(tǒng)的國(guó)內(nèi)外研究現(xiàn)狀9-11
- 1.2.2 高性能 Web 開發(fā)技術(shù)的國(guó)內(nèi)外研究現(xiàn)狀11-12
- 1.3 本文的主要工作12
- 1.4 論文的組織結(jié)構(gòu)12-13
- 1.5 本章小結(jié)13-14
- 2 相關(guān)技術(shù)介紹和研究14-28
- 2.1 集群概述14
- 2.1.1 負(fù)載均衡技術(shù)14
- 2.1.2 集群中的高可用技術(shù)14
- 2.2 Web 應(yīng)用程序和 Web 服務(wù)器的優(yōu)化14-16
- 2.2.1 代碼優(yōu)化14-15
- 2.2.2 SQL 語(yǔ)句優(yōu)化15
- 2.2.3 高性能 Web 服務(wù)器15-16
- 2.3 分布式數(shù)據(jù)庫(kù)技術(shù)16-18
- 2.3.1 分布式數(shù)據(jù)庫(kù)技術(shù)16
- 2.3.2 單表數(shù)據(jù)量過(guò)大的處理策略16-17
- 2.3.3 數(shù)據(jù)庫(kù)切分策略17-18
- 2.3.4 數(shù)據(jù)庫(kù)中間層18
- 2.4 全文搜索技術(shù)研究18-20
- 2.4.1 倒排索引技術(shù)18
- 2.4.2 中文分詞技術(shù)18-19
- 2.4.3 Solr 簡(jiǎn)介19
- 2.4.4 Solr 架構(gòu)19-20
- 2.4.5 SolrCloud 分布式搜索方案20
- 2.5 Hadoop 分布式平臺(tái)20-24
- 2.5.1 Hadoop 技術(shù)20-21
- 2.5.2 MapReduce 計(jì)算模型21-22
- 2.5.3 HDFS 分布式文件系統(tǒng)22-24
- 2.6 推薦系統(tǒng)介紹24-26
- 2.6.1 關(guān)聯(lián)規(guī)則推薦算法24-25
- 2.6.2 協(xié)同過(guò)濾推薦算法25-26
- 2.7 就業(yè)信息和用戶行為數(shù)據(jù)的收集、整理26
- 2.7.1 用戶行為數(shù)據(jù)26
- 2.7.2 語(yǔ)義相似度計(jì)算26
- 2.8 本章小結(jié)26-28
- 3 第四方就業(yè)信息推薦系統(tǒng)的研究與設(shè)計(jì)28-36
- 3.1 基于用戶(求職者)的協(xié)同過(guò)濾推薦28-29
- 3.1.1 用戶相似度計(jì)算28-29
- 3.1.2 最終推薦結(jié)果的產(chǎn)生29
- 3.2 UserCF 算法存在的問(wèn)題29
- 3.3 第四方就業(yè)信息推薦系統(tǒng)的設(shè)計(jì)29-35
- 3.3.1 總體架構(gòu)29-30
- 3.3.2 評(píng)分的可信度計(jì)算30-31
- 3.3.3 冷啟動(dòng)問(wèn)題的解決方案31-32
- 3.3.4 基于 MapReduce 的推薦算法并行化32-35
- 3.4 本章小結(jié)35-36
- 4 第四方就業(yè)信息推薦系統(tǒng)的實(shí)現(xiàn)36-71
- 4.1 系統(tǒng)需求分析及整體設(shè)計(jì)36-37
- 4.1.1 功能模塊36-37
- 4.1.2 系統(tǒng)結(jié)構(gòu)圖37
- 4.2 Tomcat 應(yīng)用服務(wù)器集群搭建37-40
- 4.3 多線程網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)方案40-44
- 4.3.1 網(wǎng)絡(luò)工作信息爬取模式40-41
- 4.3.2 ExecutorService+Task 多線程編程模型41-42
- 4.3.3 解析 HTML 文件42-43
- 4.3.4 網(wǎng)頁(yè)信息分析43-44
- 4.4 網(wǎng)站分類目錄的整合44-46
- 4.4.1 標(biāo)簽相似度計(jì)算-Xsimilarity44
- 4.4.2 目錄映射算法44-46
- 4.5 Mysql 數(shù)據(jù)庫(kù)集群的設(shè)計(jì)46-48
- 4.5.1 Mysql 分區(qū)表簡(jiǎn)介46-47
- 4.5.2 數(shù)據(jù)庫(kù)設(shè)計(jì)拓?fù)鋱D47-48
- 4.6 SolrCloud 分布式搜索服務(wù)的設(shè)計(jì)48-52
- 4.6.1 搜索關(guān)鍵詞智能提示49-50
- 4.6.2 索引增量導(dǎo)入50
- 4.6.3 中文分詞器 IK Analyzer 的配置50
- 4.6.4 分布式搜索請(qǐng)求50-51
- 4.6.5 搜索容錯(cuò)能力51
- 4.6.6 基于地理位置的搜索51-52
- 4.7 用戶行為收集52-53
- 4.8 定時(shí)任務(wù)53
- 4.9 關(guān)聯(lián)規(guī)則的推薦算法實(shí)現(xiàn)53-55
- 4.9.1 Apriori 算法53-54
- 4.9.2 Apriori 算法實(shí)現(xiàn)54-55
- 4.10 協(xié)同過(guò)濾推薦的算法實(shí)現(xiàn)55-57
- 4.10.1 算法主要步驟55-57
- 4.11 系統(tǒng)優(yōu)化57-59
- 4.11.1 Apache 優(yōu)化57-58
- 4.11.2 Tomcat 優(yōu)化58-59
- 4.11.3 Solr 優(yōu)化59
- 4.12 Tomcat 服務(wù)器集群的測(cè)試和分析59-64
- 4.13 系統(tǒng)展示64-70
- 4.14 本章小結(jié)70-71
- 5 總結(jié)與展望71-72
- 5.1 總結(jié)71
- 5.2 展望71-72
- 致謝72-73
- 參考文獻(xiàn)73-76
- 附錄76
- A. 作者在攻讀學(xué)位期間發(fā)表的論文目錄76
- B. 作者在攻讀學(xué)位期間取得的科研成果目錄76
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 谷瓊,朱莉,袁紅星;分布式數(shù)據(jù)庫(kù)的設(shè)計(jì)與信息查詢[J];電腦知識(shí)與技術(shù);2005年08期
2 胡宏濤;常佳;;基于網(wǎng)絡(luò)的信息獲取技術(shù)淺析[J];福建電腦;2006年04期
3 郭洪海;姜錦虎;蔡涵;;C2C電子社區(qū)成員信譽(yù)值的計(jì)算模型研究[J];管理學(xué)報(bào);2009年08期
4 伍之昂;莊毅;王有權(quán);曹杰;;基于特征選擇的推薦系統(tǒng)托攻擊檢測(cè)算法[J];電子學(xué)報(bào);2012年08期
5 肖凌,劉繼紅,姚建初;分布式數(shù)據(jù)庫(kù)系統(tǒng)的研究與應(yīng)用[J];計(jì)算機(jī)工程;2001年01期
6 張新猛;蔣盛益;;基于加權(quán)二部圖的個(gè)性化推薦算法[J];計(jì)算機(jī)應(yīng)用;2012年03期
7 李戴維;李寧;;基于Solr的分布式全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2012年11期
8 李萍;;淺談TOMCAT之性能優(yōu)化[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2011年12期
9 張劍,王炎修,劉倩;關(guān)于分布式數(shù)據(jù)庫(kù)事務(wù)處理機(jī)制的探討[J];山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年02期
10 王培吉;趙玉琳;呂劍峰;;基于Apriori算法的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘研究[J];統(tǒng)計(jì)與決策;2011年23期
本文關(guān)鍵詞:第四方就業(yè)信息推薦系統(tǒng)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):396295
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/396295.html