基于文本挖掘的網(wǎng)絡招聘信息分析
發(fā)布時間:2020-12-30 04:17
隨著互聯(lián)網(wǎng)技術的發(fā)展,人才招聘方式發(fā)生了非常大的變化,逐步從以前那些招聘方法過渡到現(xiàn)在的網(wǎng)絡招聘,網(wǎng)絡招聘平臺的信息最直觀地反映了當今社會對人才的需求,尤其是近年來風生水起的大數(shù)據(jù)行業(yè)。為了研究當今招聘市場的詳情和大數(shù)據(jù)行業(yè)的需求情況,本文以山東省為例,對普通崗位和大數(shù)據(jù)崗位的招聘數(shù)據(jù)進行了相關研究。本文通過爬取前程無憂和智聯(lián)招聘兩個綜合性的招聘網(wǎng)站的數(shù)據(jù),主要對山東省普通崗位和大數(shù)據(jù)崗位進行了研究。針對普通崗位,主要是采用描述性統(tǒng)計分析的方法,從工作地點、工作經(jīng)驗要求、薪資水平、學歷水平、公司性質(zhì)、公司規(guī)模等方面對普通崗位的招聘情況進行了分析;對大數(shù)據(jù)崗位,一方面利用描述性分析,對上述指標進行了統(tǒng)計分析,另一方面,針對崗位要求和崗位職責兩個指標進行詳細分析,利用TF-IDF算法、構(gòu)建LDA主題模型和職位畫像,對大數(shù)據(jù)各類崗位對人才的要求進行了研究。通過分析,可以得到不管是普通崗位也好,還是大數(shù)據(jù)類崗位也好,在山東省內(nèi)部大多都是分布在濟南和青島兩座城市,普通崗位對經(jīng)驗、學歷的要求要低于大數(shù)據(jù)類崗位,相應的薪資水平也較低,而公司性質(zhì)和公司規(guī)模都是以小型民營企業(yè)為主。通過對大數(shù)據(jù)類崗位的分...
【文章來源】:山東師范大學山東省
【文章頁數(shù)】:48 頁
【學位級別】:碩士
【部分圖文】:
Scrapy框架結(jié)構(gòu)圖
LDA 主題模型是一個三層貝葉斯概率生成模型,是一種典型的無監(jiān)督、基于統(tǒng)計學詞袋模型,也就是說,它認為一篇文章是由一組詞構(gòu)成的一個集合,詞與詞之間沒有順和先后關系[10]。主題模型可以用來提取文本集合的主題和主題之間的關聯(lián)關系。LDA主要思想是:每篇文章都有各自的主題分布,其中,主題和它的主題詞都服從多項分布,自分布的參數(shù)也都服從狄利克雷分布。所以,有以下概率公式: ( | ) = ∑ ∈ ( | ) ( | ) ( 2 - 4 )式 2-4 的概率公式表示的是詞 在文檔 中出現(xiàn)的概率。這個概率等于特征值的概和主題詞的概率之積,即詞 在主題 中出現(xiàn)的概率與主題 在文檔 中出現(xiàn)的概率乘積。LDA 模型的思想可以用矩陣的形式表示出來,把整個文檔看作是文檔詞條矩陣,把個矩陣分成文檔-主題矩陣和主題-詞條矩陣,如圖 2-2 表示了三者之間的關系,和式 2-4含義相同。
③將公司規(guī)模統(tǒng)一為 100 人以下、100-499 人、500-999 人、1000-9999 人、10000 人以上五個標準;④將學歷統(tǒng)一為高中及以下、大專、本科、碩士、博士、不限六個學歷水平;⑤將工作經(jīng)驗統(tǒng)一為無經(jīng)驗、1-3 年、3-5 年、5-10 年、10 年以上及經(jīng)驗不限六個水平;⑥將薪資統(tǒng)一劃分到月薪 0-5k、5-10k、10-15k、15-20k、20-25k、25-30k、30-100七個水平,由于爬取的數(shù)據(jù)薪資水平上下限都不統(tǒng)一,因此取上下限的平均值,然后按照平均值隸屬以上哪個水平就將該條崗位信息的薪資劃分到哪個區(qū)間,以此做到統(tǒng)一薪資水平。3.2 山東省普通崗位描述性統(tǒng)計分析(1)崗位地點分布
【參考文獻】:
期刊論文
[1]基于聚焦網(wǎng)絡爬蟲技術的人才招聘數(shù)據(jù)采集[J]. 劉貴平,劉娜,段紅義. 電腦編程技巧與維護. 2018(05)
[2]國內(nèi)招聘類網(wǎng)站的數(shù)據(jù)類崗位人才需求特征挖掘[J]. 張俊峰,魏瑞斌. 情報雜志. 2018(06)
[3]基于大數(shù)據(jù)技術的社交網(wǎng)絡招聘研究[J]. 邵丹. 中國戰(zhàn)略新興產(chǎn)業(yè). 2018(16)
[4]大數(shù)據(jù)行業(yè)人才培養(yǎng)探究[J]. 譚林海. 中國信息化. 2017(10)
[5]基于Scrapy的深層網(wǎng)絡爬蟲研究[J]. 劉宇,鄭成煥. 軟件. 2017(07)
[6]基于國內(nèi)市場需求的大數(shù)據(jù)管理人才知識結(jié)構(gòu)分析[J]. 周曉燕,尹亞麗. 情報科學. 2017(01)
[7]基于詞頻統(tǒng)計的文本關鍵詞提取方法[J]. 羅燕,趙書良,李曉超,韓玉輝,丁亞飛. 計算機應用. 2016(03)
[8]大數(shù)據(jù)背景下的應用統(tǒng)計專業(yè)碩士人才培養(yǎng)模式研究[J]. 阮敬,陳濤. 統(tǒng)計與管理. 2015(08)
[9]基于數(shù)據(jù)挖掘的Web招聘信息相關性分析[J]. 鐘曉旭,胡學鋼. 安徽建筑工業(yè)學院學報(自然科學版). 2010(04)
[10]我國網(wǎng)絡招聘研究綜述[J]. 張萌,衣馮源. 現(xiàn)代經(jīng)濟信息. 2009(20)
碩士論文
[1]基于爬蟲和LDA的新聞話題挖掘[D]. 曹牧原.河北大學 2018
[2]基于TF-IDF推薦算法的多樣性研究[D]. 熊魏.長江大學 2018
[3]基于網(wǎng)絡爬蟲的信息采集技術研究[D]. 王子豪.西北師范大學 2018
[4]基于LDA主題模型的文本聚類研究[D]. 王惠.蘭州大學 2018
[5]網(wǎng)絡招聘信息的分析與挖掘[D]. 趙丹.貴州財經(jīng)大學 2017
[6]基于非結(jié)構(gòu)化招聘信息的采集與清洗系統(tǒng)[D]. 張瑀.湖南師范大學 2017
[7]基于Web文本挖掘的電子商務專業(yè)人才市場需求研究[D]. 王萍.重慶工商大學 2016
[8]基于概率主題模型的中草藥文獻服務系統(tǒng)的研究與實現(xiàn)[D]. 凌超.浙江大學 2014
[9]基于VSM擴展算法和經(jīng)典聚類算法的Web挖掘研究[D]. 王安.首都經(jīng)濟貿(mào)易大學 2013
本文編號:2946971
【文章來源】:山東師范大學山東省
【文章頁數(shù)】:48 頁
【學位級別】:碩士
【部分圖文】:
Scrapy框架結(jié)構(gòu)圖
LDA 主題模型是一個三層貝葉斯概率生成模型,是一種典型的無監(jiān)督、基于統(tǒng)計學詞袋模型,也就是說,它認為一篇文章是由一組詞構(gòu)成的一個集合,詞與詞之間沒有順和先后關系[10]。主題模型可以用來提取文本集合的主題和主題之間的關聯(lián)關系。LDA主要思想是:每篇文章都有各自的主題分布,其中,主題和它的主題詞都服從多項分布,自分布的參數(shù)也都服從狄利克雷分布。所以,有以下概率公式: ( | ) = ∑ ∈ ( | ) ( | ) ( 2 - 4 )式 2-4 的概率公式表示的是詞 在文檔 中出現(xiàn)的概率。這個概率等于特征值的概和主題詞的概率之積,即詞 在主題 中出現(xiàn)的概率與主題 在文檔 中出現(xiàn)的概率乘積。LDA 模型的思想可以用矩陣的形式表示出來,把整個文檔看作是文檔詞條矩陣,把個矩陣分成文檔-主題矩陣和主題-詞條矩陣,如圖 2-2 表示了三者之間的關系,和式 2-4含義相同。
③將公司規(guī)模統(tǒng)一為 100 人以下、100-499 人、500-999 人、1000-9999 人、10000 人以上五個標準;④將學歷統(tǒng)一為高中及以下、大專、本科、碩士、博士、不限六個學歷水平;⑤將工作經(jīng)驗統(tǒng)一為無經(jīng)驗、1-3 年、3-5 年、5-10 年、10 年以上及經(jīng)驗不限六個水平;⑥將薪資統(tǒng)一劃分到月薪 0-5k、5-10k、10-15k、15-20k、20-25k、25-30k、30-100七個水平,由于爬取的數(shù)據(jù)薪資水平上下限都不統(tǒng)一,因此取上下限的平均值,然后按照平均值隸屬以上哪個水平就將該條崗位信息的薪資劃分到哪個區(qū)間,以此做到統(tǒng)一薪資水平。3.2 山東省普通崗位描述性統(tǒng)計分析(1)崗位地點分布
【參考文獻】:
期刊論文
[1]基于聚焦網(wǎng)絡爬蟲技術的人才招聘數(shù)據(jù)采集[J]. 劉貴平,劉娜,段紅義. 電腦編程技巧與維護. 2018(05)
[2]國內(nèi)招聘類網(wǎng)站的數(shù)據(jù)類崗位人才需求特征挖掘[J]. 張俊峰,魏瑞斌. 情報雜志. 2018(06)
[3]基于大數(shù)據(jù)技術的社交網(wǎng)絡招聘研究[J]. 邵丹. 中國戰(zhàn)略新興產(chǎn)業(yè). 2018(16)
[4]大數(shù)據(jù)行業(yè)人才培養(yǎng)探究[J]. 譚林海. 中國信息化. 2017(10)
[5]基于Scrapy的深層網(wǎng)絡爬蟲研究[J]. 劉宇,鄭成煥. 軟件. 2017(07)
[6]基于國內(nèi)市場需求的大數(shù)據(jù)管理人才知識結(jié)構(gòu)分析[J]. 周曉燕,尹亞麗. 情報科學. 2017(01)
[7]基于詞頻統(tǒng)計的文本關鍵詞提取方法[J]. 羅燕,趙書良,李曉超,韓玉輝,丁亞飛. 計算機應用. 2016(03)
[8]大數(shù)據(jù)背景下的應用統(tǒng)計專業(yè)碩士人才培養(yǎng)模式研究[J]. 阮敬,陳濤. 統(tǒng)計與管理. 2015(08)
[9]基于數(shù)據(jù)挖掘的Web招聘信息相關性分析[J]. 鐘曉旭,胡學鋼. 安徽建筑工業(yè)學院學報(自然科學版). 2010(04)
[10]我國網(wǎng)絡招聘研究綜述[J]. 張萌,衣馮源. 現(xiàn)代經(jīng)濟信息. 2009(20)
碩士論文
[1]基于爬蟲和LDA的新聞話題挖掘[D]. 曹牧原.河北大學 2018
[2]基于TF-IDF推薦算法的多樣性研究[D]. 熊魏.長江大學 2018
[3]基于網(wǎng)絡爬蟲的信息采集技術研究[D]. 王子豪.西北師范大學 2018
[4]基于LDA主題模型的文本聚類研究[D]. 王惠.蘭州大學 2018
[5]網(wǎng)絡招聘信息的分析與挖掘[D]. 趙丹.貴州財經(jīng)大學 2017
[6]基于非結(jié)構(gòu)化招聘信息的采集與清洗系統(tǒng)[D]. 張瑀.湖南師范大學 2017
[7]基于Web文本挖掘的電子商務專業(yè)人才市場需求研究[D]. 王萍.重慶工商大學 2016
[8]基于概率主題模型的中草藥文獻服務系統(tǒng)的研究與實現(xiàn)[D]. 凌超.浙江大學 2014
[9]基于VSM擴展算法和經(jīng)典聚類算法的Web挖掘研究[D]. 王安.首都經(jīng)濟貿(mào)易大學 2013
本文編號:2946971
本文鏈接:http://sikaile.net/guanlilunwen/sjfx/2946971.html
教材專著