基于改進的樸素貝葉斯算法和KNN算法在招聘文本分類中的應用
發(fā)布時間:2022-12-07 21:18
隨著因特網(wǎng)時代的快速發(fā)展,大量的數(shù)據(jù)可以通過因特網(wǎng)來獲得。同樣的,求職者也可以從因特網(wǎng)中的招聘網(wǎng)站上獲取招聘信息。但是在這些招聘網(wǎng)站上,卻存在著一些亂象:例如,存在大量不相干的廣告,或者存在需求不明確的招聘信息。這些情況的出現(xiàn),給求職者在尋找工作的道路上平添了許多煩惱,不僅需要浪費大量的時間去瀏覽無效的招聘信息,還需要花費精力去分析這些招聘信息是否是正確的“招聘信息”。這些情況的出現(xiàn),嚴重影響求職者的求職效率。為了改善這種情況,可以對招聘的文本進行分類處理。例如將招聘信息進行準確分類,就可以剔除掉那些不屬于招聘信息的文本。那樣,求職者只需要在屬于招聘信息的文本中瀏覽自己感興趣的招聘信息即可。通常對文本進行分類可采用的算法有:樸素貝葉斯算法、KNN算法、支持向量機等。本論文通過分析招聘文本信息的特點,改進了樸素貝葉斯算法和KNN算法,并且分別實現(xiàn)了改進后的算法,完成了對招聘文本更加準確快速分類的工作。本論文的主要研究工作為:(1)改進了樸素貝葉斯算法,提出了No-Zero Na?ve Bayes(NZ-NB)算法,并對其進行驗證。通過分析招聘文本存在的特征和樸素貝葉斯算法的原理,發(fā)現(xiàn)樸素...
【文章頁數(shù)】:60 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 引言
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 本文主要研究內(nèi)容
1.3.1 論文的主要工作
1.3.2 論文的組織結(jié)構(gòu)
1.4 本章小結(jié)
第2章 關(guān)于文本分類相關(guān)技術(shù)的研究
2.1 數(shù)據(jù)獲取
2.2 數(shù)據(jù)預處理
2.2.1 中文分詞
2.2.2 去除停用詞
2.2.3 特征選擇
2.3 文本分類的種類及算法
2.4 本章小結(jié)
第3章 基于招聘文本分類改進的樸素貝葉斯算法
3.1 樸素貝葉斯算法的研究現(xiàn)狀
3.2 面對招聘文本時樸素貝葉斯算法存在的不足
3.3 樸素貝葉斯算法的改進
3.4 改進后樸素貝葉斯算法
3.5 實驗設(shè)置及結(jié)果
3.5.1 實驗設(shè)置
3.5.2 實驗結(jié)果分析
3.6 結(jié)論
3.7 本章小結(jié)
第4章 基于招聘文本分類改進的KNN算法
4.1 KNN算法的研究現(xiàn)狀
4.2 面對招聘文本時KNN算法存在的不足
4.3 KNN算法的改進
4.4 改進后的KNN算法
4.5 實驗設(shè)置及結(jié)果
4.5.1 實驗設(shè)置
4.5.2 實驗結(jié)果及分析
4.6 結(jié)論
4.7 本章小結(jié)
第5章 總結(jié)與未來工作
5.1 總結(jié)
5.2 未來工作
參考文獻
致謝
攻讀學位期間的科研成果
【參考文獻】:
期刊論文
[1]基于TF-IDF算法和LDA主題模型數(shù)據(jù)挖掘技術(shù)在電力客戶抱怨文本中的應用[J]. 李銳,張偉彬. 自動化技術(shù)與應用. 2018(11)
[2]基于輔助集的專利主題分析領(lǐng)域停用詞選取[J]. 俞琰,趙乃瑄. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(11)
[3]基于爬蟲的智能爬行算法研究[J]. 侯美靜,崔艷鵬,胡建偉. 計算機應用與軟件. 2018(11)
[4]基于改進特征選擇方法的文本情感分類研究[J]. 劉洺辛,陳晶,王麒媛. 電信科學. 2018(10)
[5]分布式數(shù)據(jù)挖掘算法在熱點微博分析系統(tǒng)中的應用[J]. 朱賀,黃克清. 數(shù)字通信世界. 2018(10)
[6]面向新聞文本的分類方法的比較研究[J]. 劉測,韓家新. 智能計算機與應用. 2018(05)
[7]樸素貝葉斯算法在垃圾郵件過濾方面的應用[J]. 徐夢龍,黃家旺. 網(wǎng)絡(luò)安全技術(shù)與應用. 2018(07)
[8]文本分類中一種特征選擇方法研究[J]. 趙婧,邵雄凱,劉建舟,王春枝. 計算機應用研究. 2019(08)
[9]基于樸素貝葉斯的農(nóng)業(yè)文本分類方法研究[J]. 趙燕,李曉輝,周云成,張越. 節(jié)水灌溉. 2018(02)
[10]K最近鄰算法理論與應用綜述[J]. 毋雪雁,王水花,張煜東. 計算機工程與應用. 2017(21)
碩士論文
[1]數(shù)據(jù)挖掘分類算法的改進研究[D]. 陳潔.南京郵電大學 2018
[2]基于樸素貝葉斯算法的不良文本過濾技術(shù)研究及應用[D]. 趙文.長安大學 2018
[3]基于深度神經(jīng)網(wǎng)絡(luò)的文本表示與分類研究[D]. 劉騰飛.北京交通大學 2018
[4]KNN文本分類算法的研究[D]. 田琳.西安理工大學 2016
[5]基于支持向量機的文本分類研究[D]. 張華鑫.西南科技大學 2016
[6]基于文本語義及結(jié)構(gòu)的中文文本相似度研究[D]. 鐘杰.江西財經(jīng)大學 2015
[7]企業(yè)級元搜索引擎的研究與應用[D]. 胡楊.復旦大學 2012
[8]基于詞袋模型的醫(yī)學影像分類的研究與實現(xiàn)[D]. 劉岳.東北大學 2012
[9]基于演化樸素貝葉斯的木馬檢測技術(shù)研究[D]. 劉永昌.華中科技大學 2012
[10]K-近鄰中文文本分類方法的研究[D]. 魯婷.合肥工業(yè)大學 2010
本文編號:3712871
【文章頁數(shù)】:60 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 引言
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 本文主要研究內(nèi)容
1.3.1 論文的主要工作
1.3.2 論文的組織結(jié)構(gòu)
1.4 本章小結(jié)
第2章 關(guān)于文本分類相關(guān)技術(shù)的研究
2.1 數(shù)據(jù)獲取
2.2 數(shù)據(jù)預處理
2.2.1 中文分詞
2.2.2 去除停用詞
2.2.3 特征選擇
2.3 文本分類的種類及算法
2.4 本章小結(jié)
第3章 基于招聘文本分類改進的樸素貝葉斯算法
3.1 樸素貝葉斯算法的研究現(xiàn)狀
3.2 面對招聘文本時樸素貝葉斯算法存在的不足
3.3 樸素貝葉斯算法的改進
3.4 改進后樸素貝葉斯算法
3.5 實驗設(shè)置及結(jié)果
3.5.1 實驗設(shè)置
3.5.2 實驗結(jié)果分析
3.6 結(jié)論
3.7 本章小結(jié)
第4章 基于招聘文本分類改進的KNN算法
4.1 KNN算法的研究現(xiàn)狀
4.2 面對招聘文本時KNN算法存在的不足
4.3 KNN算法的改進
4.4 改進后的KNN算法
4.5 實驗設(shè)置及結(jié)果
4.5.1 實驗設(shè)置
4.5.2 實驗結(jié)果及分析
4.6 結(jié)論
4.7 本章小結(jié)
第5章 總結(jié)與未來工作
5.1 總結(jié)
5.2 未來工作
參考文獻
致謝
攻讀學位期間的科研成果
【參考文獻】:
期刊論文
[1]基于TF-IDF算法和LDA主題模型數(shù)據(jù)挖掘技術(shù)在電力客戶抱怨文本中的應用[J]. 李銳,張偉彬. 自動化技術(shù)與應用. 2018(11)
[2]基于輔助集的專利主題分析領(lǐng)域停用詞選取[J]. 俞琰,趙乃瑄. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(11)
[3]基于爬蟲的智能爬行算法研究[J]. 侯美靜,崔艷鵬,胡建偉. 計算機應用與軟件. 2018(11)
[4]基于改進特征選擇方法的文本情感分類研究[J]. 劉洺辛,陳晶,王麒媛. 電信科學. 2018(10)
[5]分布式數(shù)據(jù)挖掘算法在熱點微博分析系統(tǒng)中的應用[J]. 朱賀,黃克清. 數(shù)字通信世界. 2018(10)
[6]面向新聞文本的分類方法的比較研究[J]. 劉測,韓家新. 智能計算機與應用. 2018(05)
[7]樸素貝葉斯算法在垃圾郵件過濾方面的應用[J]. 徐夢龍,黃家旺. 網(wǎng)絡(luò)安全技術(shù)與應用. 2018(07)
[8]文本分類中一種特征選擇方法研究[J]. 趙婧,邵雄凱,劉建舟,王春枝. 計算機應用研究. 2019(08)
[9]基于樸素貝葉斯的農(nóng)業(yè)文本分類方法研究[J]. 趙燕,李曉輝,周云成,張越. 節(jié)水灌溉. 2018(02)
[10]K最近鄰算法理論與應用綜述[J]. 毋雪雁,王水花,張煜東. 計算機工程與應用. 2017(21)
碩士論文
[1]數(shù)據(jù)挖掘分類算法的改進研究[D]. 陳潔.南京郵電大學 2018
[2]基于樸素貝葉斯算法的不良文本過濾技術(shù)研究及應用[D]. 趙文.長安大學 2018
[3]基于深度神經(jīng)網(wǎng)絡(luò)的文本表示與分類研究[D]. 劉騰飛.北京交通大學 2018
[4]KNN文本分類算法的研究[D]. 田琳.西安理工大學 2016
[5]基于支持向量機的文本分類研究[D]. 張華鑫.西南科技大學 2016
[6]基于文本語義及結(jié)構(gòu)的中文文本相似度研究[D]. 鐘杰.江西財經(jīng)大學 2015
[7]企業(yè)級元搜索引擎的研究與應用[D]. 胡楊.復旦大學 2012
[8]基于詞袋模型的醫(yī)學影像分類的研究與實現(xiàn)[D]. 劉岳.東北大學 2012
[9]基于演化樸素貝葉斯的木馬檢測技術(shù)研究[D]. 劉永昌.華中科技大學 2012
[10]K-近鄰中文文本分類方法的研究[D]. 魯婷.合肥工業(yè)大學 2010
本文編號:3712871
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3712871.html
最近更新
教材專著