深度學習在簡歷解析中的應用研究
發(fā)布時間:2023-10-14 07:02
隨著文本數(shù)據在互聯(lián)網上的快速增長,海量格式自由的文本簡歷雖然在工作中給人們帶來了便利,但也產生了信息過載的困擾。為了提升非結構化文本簡歷的解析性能,本文將深度學習技術應用于簡歷解析中。主要工作如下:1.基于字序列的中文簡歷解析方法研究。針對淺層神經網絡生成詞表示的缺陷,構建雙向長短時記憶模型(Bidirectional Long Short-Term Memory,BLSTM)對字序列進行建模,獲得包含詞內部信息的詞表示;然后結合BLSTM和條件隨機場(Conditional Random Fields,CRF)(BLSTM-CRF)對生成的詞表示進行建模并對模型調優(yōu);最后使用訓練好的模型對非結構化文本簡歷進行解析。實驗結果顯示,與傳統(tǒng)詞向量方案的簡歷解析模型相比,該方法的F1-score提升了2.31%。2.基于特征融合的中文簡歷解析方法研究。針對簡歷解析模型使用單一特征難以提高模型性能的局限性,提出融合多種有效特征來提升簡歷解析模型性能的方案。本文融合的是傳統(tǒng)淺層神經網絡生成的語義特征和BLSTM對字序列建模生成的特征。(1)采用concat的方式對這兩種特征進行融合,然后使用BL...
【文章頁數(shù)】:85 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景和意義
1.1.1 研究背景
1.1.2 研究意義
1.2 簡歷解析的發(fā)展與現(xiàn)狀
1.3 中文簡歷解析的技術難點
1.4 研究內容與論文結構
第2章 簡歷解析相關理論基礎
2.1 基于規(guī)則的簡歷解析方法
2.2 基于條件隨機場的簡歷解析方法
2.3 深度學習理論基礎
2.3.1 深度學習概述
2.3.2 深度神經網絡基礎理論
2.4 評價方法
2.5 本章小結
第3章 基于字序列的中文簡歷解析方法
3.1 命名實體識別技術概述
3.2 基于CBLSTMs-CRF的中文簡歷解析方法
3.2.1 字序列信息的詞表示
3.2.2 基于BLSTM-CRF的中文簡歷解析
3.2.3 算法流程總結
3.3 實驗結果與分析
3.3.1 數(shù)據集與實驗環(huán)境
3.3.2 數(shù)據預處理
3.3.3 實驗設置
3.3.4 CBLSTMs-CRF模型有效性驗證
3.3.5 字序列詞表示在不同模型中的有效性驗證
3.4 本章小結
第4章 基于多特征融合的中文簡歷解析方法
4.1 引言
4.2 基于CWBLSTMs-CRF的中文簡歷解析方法
4.2.1 詞向量模型
4.2.2 聯(lián)合字序列信息的詞表示
4.2.3 算法流程總結
4.2.4 實驗設置
4.2.5 CWBLSTMs-CRF方法有效性驗證
4.2.6 融合字序列特征方法在不同模型中的有效性驗證
4.3 基于注意力機制的中文簡歷解析方法
4.3.1 注意力機制概述
4.3.2 基于Att-BLSTMs-CRF的中文簡歷解析方法
4.3.3 算法流程總結
4.3.4 實驗設置
4.3.5 注意力機制有效性驗證
4.4 本章小結
第5章 基于深度學習的簡歷解析系統(tǒng)設計
5.1 系統(tǒng)需求分析
5.2 基于深度學習的簡歷解析系統(tǒng)設計
5.2.1 獲取文本簡歷模塊
5.2.2 實體標注抽取模塊
5.2.3 數(shù)據存儲模塊
5.2.4 前端輸出模塊
5.3 本章小結
第6章 總結與展望
6.1 工作總結
6.2 工作展望
參考文獻
致謝
附錄 攻讀碩士學位期間從事的科研工作及取得的成果
本文編號:3853829
【文章頁數(shù)】:85 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景和意義
1.1.1 研究背景
1.1.2 研究意義
1.2 簡歷解析的發(fā)展與現(xiàn)狀
1.3 中文簡歷解析的技術難點
1.4 研究內容與論文結構
第2章 簡歷解析相關理論基礎
2.1 基于規(guī)則的簡歷解析方法
2.2 基于條件隨機場的簡歷解析方法
2.3 深度學習理論基礎
2.3.1 深度學習概述
2.3.2 深度神經網絡基礎理論
2.4 評價方法
2.5 本章小結
第3章 基于字序列的中文簡歷解析方法
3.1 命名實體識別技術概述
3.2 基于CBLSTMs-CRF的中文簡歷解析方法
3.2.1 字序列信息的詞表示
3.2.2 基于BLSTM-CRF的中文簡歷解析
3.2.3 算法流程總結
3.3 實驗結果與分析
3.3.1 數(shù)據集與實驗環(huán)境
3.3.2 數(shù)據預處理
3.3.3 實驗設置
3.3.4 CBLSTMs-CRF模型有效性驗證
3.3.5 字序列詞表示在不同模型中的有效性驗證
3.4 本章小結
第4章 基于多特征融合的中文簡歷解析方法
4.1 引言
4.2 基于CWBLSTMs-CRF的中文簡歷解析方法
4.2.1 詞向量模型
4.2.2 聯(lián)合字序列信息的詞表示
4.2.3 算法流程總結
4.2.4 實驗設置
4.2.5 CWBLSTMs-CRF方法有效性驗證
4.2.6 融合字序列特征方法在不同模型中的有效性驗證
4.3 基于注意力機制的中文簡歷解析方法
4.3.1 注意力機制概述
4.3.2 基于Att-BLSTMs-CRF的中文簡歷解析方法
4.3.3 算法流程總結
4.3.4 實驗設置
4.3.5 注意力機制有效性驗證
4.4 本章小結
第5章 基于深度學習的簡歷解析系統(tǒng)設計
5.1 系統(tǒng)需求分析
5.2 基于深度學習的簡歷解析系統(tǒng)設計
5.2.1 獲取文本簡歷模塊
5.2.2 實體標注抽取模塊
5.2.3 數(shù)據存儲模塊
5.2.4 前端輸出模塊
5.3 本章小結
第6章 總結與展望
6.1 工作總結
6.2 工作展望
參考文獻
致謝
附錄 攻讀碩士學位期間從事的科研工作及取得的成果
本文編號:3853829
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3853829.html