基于強化學習的命名實體識別算法研究
發(fā)布時間:2020-12-25 09:38
文本信息是互聯(lián)網(wǎng)中海量數(shù)據(jù)的主要表現(xiàn)形式之一,也是人類目前獲取知識的最普遍途徑。這類數(shù)據(jù)往往表現(xiàn)出非結(jié)構(gòu)化和語義多樣化等特點,因此對文本進行知識抽取是自然語言處理技術(shù)的關(guān)鍵難題。命名實體識別就是信息抽取領域中一個基礎任務,F(xiàn)有的命名實體識別模型可以分為基于統(tǒng)計的方法和基于深度學習的方法。前者需要人工抽取特征模板進行模式匹配,后者主要通過深度神經(jīng)網(wǎng)絡進行端到端的文本語義解析,從而實現(xiàn)自動標注。與此同時,深度學習的發(fā)展增強了強化學習的表達能力,使其在游戲、控制系統(tǒng)上取得了一定的進展。在這個背景下,本文主要研究了強化學習在命名實體識別任務上的應用,主要工作如下:(1)針對標注全局性的要求,本文設計了面向命名實體識別的馬爾科夫決策過程(MDP)。與Maes等人的工作不同在于:本文利用神經(jīng)網(wǎng)絡對MDP狀態(tài)進行語義建模,改善了傳統(tǒng)MDP模型手工抽取特征的不足。在基于策略梯度求解的實驗中,本文總結(jié)了算法的高方差、低經(jīng)驗利用率等缺陷,進一步提出了本文的核心問題:如何求解MDP模型使其具有找到接近全局最優(yōu)標注序列的能力?(2)針對(1)中的核心問題,本文提出了新穎的基于策略價值網(wǎng)絡的模型,稱為MM-NE...
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學位級別】:碩士
【部分圖文】:
圖1-1阿里小蜜信息處理流程圖⑴??習習監(jiān)習之一習,它理??
征、停用訕特征、核心詞特征以及語義特征等;?統(tǒng)U?的模型主要以丨IMM、??MEMM和CRF為代表。這三者都屬于圖模型,其中HMM和MEMM為有向圖??模型,CRF則為無向圖模型,具體閣模型的對比見圖2-1。??〇^>〇?CK>-<p?0*9*9??000066660??HMM?MEMM?CRF??圖2-1?HMM,?MEMM和Li?near?GRF的圖糢型結(jié)構(gòu)對比圖??HMM適用于解決的問題?般具有兩個特征:(1)問題是越于序列的。(2)??問題中存在兩類數(shù)據(jù),一類序列數(shù)據(jù)是可以觀測到的,記為可觀測序列X;另-???類數(shù)據(jù)是不可觀測的,記為隱藏狀態(tài)序列Y。HMM在基于齊次馬爾科夫鏈假設??和觀測獨立性的假設下對這兩類數(shù)據(jù)進行建模。前者假設任意時刻的隱藏狀態(tài)只??依賴于它前?個時刻的隱藏狀態(tài),而后者假設任意時刻的可觀測序列儀僅依賴于??當前時刻的隱藏狀態(tài)。因此模型在定義狀態(tài)轉(zhuǎn)移矩陣、發(fā)射矩陣和初始狀態(tài)分布??7??
折扣因子(DiscountFactor,y):表示主體對米來獎勵的不確定性評估,其中??ye?[〇,1]。??主體和環(huán)境交互過程由圖2-6給出,主體在當前狀態(tài)St卜根據(jù)當前策略tt選??擇動作At。環(huán)境在動作At的影響下根據(jù)轉(zhuǎn)移概率P轉(zhuǎn)移到下一時刻的狀態(tài)St+1,??并將獎勵Rt反饋給主體。??與監(jiān)督學習不同的是強化學習算法不再需要有標簽的監(jiān)督。從模型求解方法??上看,強化學習模型主要分為基于價值函數(shù)的算法、基于策略的算法和同時學習??價值和策略的算法。??14??
本文編號:2937396
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學位級別】:碩士
【部分圖文】:
圖1-1阿里小蜜信息處理流程圖⑴??習習監(jiān)習之一習,它理??
征、停用訕特征、核心詞特征以及語義特征等;?統(tǒng)U?的模型主要以丨IMM、??MEMM和CRF為代表。這三者都屬于圖模型,其中HMM和MEMM為有向圖??模型,CRF則為無向圖模型,具體閣模型的對比見圖2-1。??〇^>〇?CK>-<p?0*9*9??000066660??HMM?MEMM?CRF??圖2-1?HMM,?MEMM和Li?near?GRF的圖糢型結(jié)構(gòu)對比圖??HMM適用于解決的問題?般具有兩個特征:(1)問題是越于序列的。(2)??問題中存在兩類數(shù)據(jù),一類序列數(shù)據(jù)是可以觀測到的,記為可觀測序列X;另-???類數(shù)據(jù)是不可觀測的,記為隱藏狀態(tài)序列Y。HMM在基于齊次馬爾科夫鏈假設??和觀測獨立性的假設下對這兩類數(shù)據(jù)進行建模。前者假設任意時刻的隱藏狀態(tài)只??依賴于它前?個時刻的隱藏狀態(tài),而后者假設任意時刻的可觀測序列儀僅依賴于??當前時刻的隱藏狀態(tài)。因此模型在定義狀態(tài)轉(zhuǎn)移矩陣、發(fā)射矩陣和初始狀態(tài)分布??7??
折扣因子(DiscountFactor,y):表示主體對米來獎勵的不確定性評估,其中??ye?[〇,1]。??主體和環(huán)境交互過程由圖2-6給出,主體在當前狀態(tài)St卜根據(jù)當前策略tt選??擇動作At。環(huán)境在動作At的影響下根據(jù)轉(zhuǎn)移概率P轉(zhuǎn)移到下一時刻的狀態(tài)St+1,??并將獎勵Rt反饋給主體。??與監(jiān)督學習不同的是強化學習算法不再需要有標簽的監(jiān)督。從模型求解方法??上看,強化學習模型主要分為基于價值函數(shù)的算法、基于策略的算法和同時學習??價值和策略的算法。??14??
本文編號:2937396
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2937396.html
最近更新
教材專著