天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

第四方就業(yè)信息推薦系統(tǒng)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-05-26 09:03

  本文關(guān)鍵詞:第四方就業(yè)信息推薦系統(tǒng)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:隨著Web2.0的不斷發(fā)展和流行,互聯(lián)網(wǎng)上的信息量急劇增加,用戶很容易迷失在信息的海洋中。網(wǎng)絡(luò)招聘信息,作為互聯(lián)網(wǎng)信息的一種,廣泛充斥在互聯(lián)網(wǎng)中。而且,,就業(yè)信息網(wǎng)站林林總總、真假難辨。面對(duì)海量信息,信息檢索和信息過(guò)濾是當(dāng)前兩種主要的解決方案。其中,信息檢索的結(jié)果是大眾化的,只要輸入的關(guān)鍵詞一樣,搜索結(jié)果就相同,并且搜索結(jié)果的數(shù)據(jù)量可能仍然很大。而信息過(guò)濾則能有效的彌補(bǔ)信息檢索的不足,通過(guò)個(gè)性化定制的方法進(jìn)一步提升用戶體驗(yàn)度。常用的信息過(guò)濾方式為個(gè)性化推薦。因此,本文在就業(yè)信息的處理中充分結(jié)合信息檢索和信息過(guò)濾這兩種方式,為求職者盡可能簡(jiǎn)潔高效的提供真實(shí)有用的信息。此外,本文結(jié)合一些Web開發(fā)的相關(guān)技術(shù),利用Mysql、SolrCloud等開源軟件設(shè)計(jì)并實(shí)現(xiàn)了第四方就業(yè)信息推薦系統(tǒng)。 論文主要工作包括: ①實(shí)現(xiàn)就業(yè)信息的抓取、解析和清洗。本文首先采用網(wǎng)絡(luò)爬蟲的方式從各大第三方招聘網(wǎng)站抓取信息。然后對(duì)獲取的就業(yè)信息進(jìn)行清洗和格式整理。最后,將所有格式化的就業(yè)信息映射到一個(gè)標(biāo)準(zhǔn)的行業(yè)分類目錄上,形成一個(gè)分類一致的就業(yè)信息數(shù)據(jù)集。 ②實(shí)現(xiàn)就業(yè)信息的分布式存儲(chǔ)。本文采用Mysql數(shù)據(jù)庫(kù)集群的數(shù)據(jù)存儲(chǔ)方案,通過(guò)負(fù)載均衡、數(shù)據(jù)切分、讀寫分離等方法,保證數(shù)據(jù)庫(kù)并發(fā)讀寫效率和分布式數(shù)據(jù)庫(kù)事務(wù)的正確性。 ③搭建分布式全文檢索系統(tǒng)。本文采用SolrCloud作為分布式全文檢索引擎,Zookeeper作為搜索引擎集群監(jiān)視器和配置文件管理器,搭建了一個(gè)高性能、高可用的分布式全文檢索系統(tǒng)。 ④實(shí)現(xiàn)就業(yè)信息的個(gè)性化推薦。利用用戶的行為數(shù)據(jù),基于用戶的個(gè)性化推薦算法為用戶推薦感興趣的工作;利用評(píng)分可信度和Hadoop框架,研究和設(shè)計(jì)了基于評(píng)分可信度的UserCF并行推薦算法。
【關(guān)鍵詞】:全文檢索 并行化 可信度 推薦系統(tǒng) 高性能
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【目錄】:
  • 摘要3-4
  • ABSTRACT4-9
  • 1 緒論9-14
  • 1.1 研究背景和意義9
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-12
  • 1.2.1 推薦系統(tǒng)的國(guó)內(nèi)外研究現(xiàn)狀9-11
  • 1.2.2 高性能 Web 開發(fā)技術(shù)的國(guó)內(nèi)外研究現(xiàn)狀11-12
  • 1.3 本文的主要工作12
  • 1.4 論文的組織結(jié)構(gòu)12-13
  • 1.5 本章小結(jié)13-14
  • 2 相關(guān)技術(shù)介紹和研究14-28
  • 2.1 集群概述14
  • 2.1.1 負(fù)載均衡技術(shù)14
  • 2.1.2 集群中的高可用技術(shù)14
  • 2.2 Web 應(yīng)用程序和 Web 服務(wù)器的優(yōu)化14-16
  • 2.2.1 代碼優(yōu)化14-15
  • 2.2.2 SQL 語(yǔ)句優(yōu)化15
  • 2.2.3 高性能 Web 服務(wù)器15-16
  • 2.3 分布式數(shù)據(jù)庫(kù)技術(shù)16-18
  • 2.3.1 分布式數(shù)據(jù)庫(kù)技術(shù)16
  • 2.3.2 單表數(shù)據(jù)量過(guò)大的處理策略16-17
  • 2.3.3 數(shù)據(jù)庫(kù)切分策略17-18
  • 2.3.4 數(shù)據(jù)庫(kù)中間層18
  • 2.4 全文搜索技術(shù)研究18-20
  • 2.4.1 倒排索引技術(shù)18
  • 2.4.2 中文分詞技術(shù)18-19
  • 2.4.3 Solr 簡(jiǎn)介19
  • 2.4.4 Solr 架構(gòu)19-20
  • 2.4.5 SolrCloud 分布式搜索方案20
  • 2.5 Hadoop 分布式平臺(tái)20-24
  • 2.5.1 Hadoop 技術(shù)20-21
  • 2.5.2 MapReduce 計(jì)算模型21-22
  • 2.5.3 HDFS 分布式文件系統(tǒng)22-24
  • 2.6 推薦系統(tǒng)介紹24-26
  • 2.6.1 關(guān)聯(lián)規(guī)則推薦算法24-25
  • 2.6.2 協(xié)同過(guò)濾推薦算法25-26
  • 2.7 就業(yè)信息和用戶行為數(shù)據(jù)的收集、整理26
  • 2.7.1 用戶行為數(shù)據(jù)26
  • 2.7.2 語(yǔ)義相似度計(jì)算26
  • 2.8 本章小結(jié)26-28
  • 3 第四方就業(yè)信息推薦系統(tǒng)的研究與設(shè)計(jì)28-36
  • 3.1 基于用戶(求職者)的協(xié)同過(guò)濾推薦28-29
  • 3.1.1 用戶相似度計(jì)算28-29
  • 3.1.2 最終推薦結(jié)果的產(chǎn)生29
  • 3.2 UserCF 算法存在的問(wèn)題29
  • 3.3 第四方就業(yè)信息推薦系統(tǒng)的設(shè)計(jì)29-35
  • 3.3.1 總體架構(gòu)29-30
  • 3.3.2 評(píng)分的可信度計(jì)算30-31
  • 3.3.3 冷啟動(dòng)問(wèn)題的解決方案31-32
  • 3.3.4 基于 MapReduce 的推薦算法并行化32-35
  • 3.4 本章小結(jié)35-36
  • 4 第四方就業(yè)信息推薦系統(tǒng)的實(shí)現(xiàn)36-71
  • 4.1 系統(tǒng)需求分析及整體設(shè)計(jì)36-37
  • 4.1.1 功能模塊36-37
  • 4.1.2 系統(tǒng)結(jié)構(gòu)圖37
  • 4.2 Tomcat 應(yīng)用服務(wù)器集群搭建37-40
  • 4.3 多線程網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)方案40-44
  • 4.3.1 網(wǎng)絡(luò)工作信息爬取模式40-41
  • 4.3.2 ExecutorService+Task 多線程編程模型41-42
  • 4.3.3 解析 HTML 文件42-43
  • 4.3.4 網(wǎng)頁(yè)信息分析43-44
  • 4.4 網(wǎng)站分類目錄的整合44-46
  • 4.4.1 標(biāo)簽相似度計(jì)算-Xsimilarity44
  • 4.4.2 目錄映射算法44-46
  • 4.5 Mysql 數(shù)據(jù)庫(kù)集群的設(shè)計(jì)46-48
  • 4.5.1 Mysql 分區(qū)表簡(jiǎn)介46-47
  • 4.5.2 數(shù)據(jù)庫(kù)設(shè)計(jì)拓?fù)鋱D47-48
  • 4.6 SolrCloud 分布式搜索服務(wù)的設(shè)計(jì)48-52
  • 4.6.1 搜索關(guān)鍵詞智能提示49-50
  • 4.6.2 索引增量導(dǎo)入50
  • 4.6.3 中文分詞器 IK Analyzer 的配置50
  • 4.6.4 分布式搜索請(qǐng)求50-51
  • 4.6.5 搜索容錯(cuò)能力51
  • 4.6.6 基于地理位置的搜索51-52
  • 4.7 用戶行為收集52-53
  • 4.8 定時(shí)任務(wù)53
  • 4.9 關(guān)聯(lián)規(guī)則的推薦算法實(shí)現(xiàn)53-55
  • 4.9.1 Apriori 算法53-54
  • 4.9.2 Apriori 算法實(shí)現(xiàn)54-55
  • 4.10 協(xié)同過(guò)濾推薦的算法實(shí)現(xiàn)55-57
  • 4.10.1 算法主要步驟55-57
  • 4.11 系統(tǒng)優(yōu)化57-59
  • 4.11.1 Apache 優(yōu)化57-58
  • 4.11.2 Tomcat 優(yōu)化58-59
  • 4.11.3 Solr 優(yōu)化59
  • 4.12 Tomcat 服務(wù)器集群的測(cè)試和分析59-64
  • 4.13 系統(tǒng)展示64-70
  • 4.14 本章小結(jié)70-71
  • 5 總結(jié)與展望71-72
  • 5.1 總結(jié)71
  • 5.2 展望71-72
  • 致謝72-73
  • 參考文獻(xiàn)73-76
  • 附錄76
  • A. 作者在攻讀學(xué)位期間發(fā)表的論文目錄76
  • B. 作者在攻讀學(xué)位期間取得的科研成果目錄76

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 谷瓊,朱莉,袁紅星;分布式數(shù)據(jù)庫(kù)的設(shè)計(jì)與信息查詢[J];電腦知識(shí)與技術(shù);2005年08期

2 胡宏濤;常佳;;基于網(wǎng)絡(luò)的信息獲取技術(shù)淺析[J];福建電腦;2006年04期

3 郭洪海;姜錦虎;蔡涵;;C2C電子社區(qū)成員信譽(yù)值的計(jì)算模型研究[J];管理學(xué)報(bào);2009年08期

4 伍之昂;莊毅;王有權(quán);曹杰;;基于特征選擇的推薦系統(tǒng)托攻擊檢測(cè)算法[J];電子學(xué)報(bào);2012年08期

5 肖凌,劉繼紅,姚建初;分布式數(shù)據(jù)庫(kù)系統(tǒng)的研究與應(yīng)用[J];計(jì)算機(jī)工程;2001年01期

6 張新猛;蔣盛益;;基于加權(quán)二部圖的個(gè)性化推薦算法[J];計(jì)算機(jī)應(yīng)用;2012年03期

7 李戴維;李寧;;基于Solr的分布式全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2012年11期

8 李萍;;淺談TOMCAT之性能優(yōu)化[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2011年12期

9 張劍,王炎修,劉倩;關(guān)于分布式數(shù)據(jù)庫(kù)事務(wù)處理機(jī)制的探討[J];山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年02期

10 王培吉;趙玉琳;呂劍峰;;基于Apriori算法的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘研究[J];統(tǒng)計(jì)與決策;2011年23期


  本文關(guān)鍵詞:第四方就業(yè)信息推薦系統(tǒng)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號(hào):396295

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/396295.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶05c9b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com