基于BiLSTM-CRF的司法領(lǐng)域?qū)嶓w識別研究
發(fā)布時間:2024-04-14 08:48
司法信息自動化是司法領(lǐng)域發(fā)展的必然趨勢,而司法實體識別是實現(xiàn)司法信息自動化的基礎(chǔ),是后續(xù)實現(xiàn)司法事件抽取,構(gòu)建司法領(lǐng)域知識圖譜的必要前提,具有重要的研究意義。目前,隨著自然語言處理技術(shù)的不斷發(fā)展,實體識別領(lǐng)域的研究也越來越成熟,但由于中文字符的特殊性以及司法領(lǐng)域?qū)?zhǔn)確性要求非常高等原因,面向司法領(lǐng)域的實體識別研究比較少。對此,提出一種基于深度學(xué)習(xí)的模型來自動識別裁判文書中的實體,該模型由雙向長短期記憶模型(BiLSTM)和條件隨機(jī)場模塊(CRF)組成,將該模型稱為BiLSTM-CRF,為了進(jìn)一步提升模型實體識別的準(zhǔn)確率,提出使用Adam優(yōu)化器對模型進(jìn)行優(yōu)化。使用從裁判文書網(wǎng)上獲取的減刑案件、假釋案件及暫予監(jiān)外執(zhí)行案件的裁判文書作為數(shù)據(jù)集對該模型進(jìn)行驗證。在對比實驗中首先將該模型的實驗結(jié)果與其他實體識別模型進(jìn)行對比,然后使用不同優(yōu)化算法優(yōu)化模型以證明Adam優(yōu)化器的有效性。實驗表明,帶Adam優(yōu)化器的BiLSTM-CRF模型在數(shù)據(jù)集上能夠取得最優(yōu)的結(jié)果,準(zhǔn)確率為0.876,召回率為0.858,F1值為0.855。實驗結(jié)果證明帶Adam優(yōu)化器的BiLSTM-CRF模型在司法領(lǐng)域?qū)嶓w識別上的...
【文章頁數(shù)】:6 頁
【部分圖文】:
本文編號:3954419
【文章頁數(shù)】:6 頁
【部分圖文】:
圖1本文實現(xiàn)司法實體識別方法總覽
基于此,本文提出了一種基于BiLSTM-CRF[15-17]網(wǎng)絡(luò)模型的司法實體識別方法,并采用Adam優(yōu)化器對模型進(jìn)行優(yōu)化;贐iLSTM-CRF的網(wǎng)絡(luò)模型除了能夠保留基于深度學(xué)習(xí)方法的優(yōu)點,將字符作為基本的處理單位,對每個字符分配類別標(biāo)記外,還引入了一些約束條件,避免了基....
圖2LSTM單元工作流程
針對這個問題,長短期記憶模型(LongShort-TermMemory,LSTM)[19]被提出,LSTM模型實際上是RNN模型的一種改進(jìn)模型。LSTM模型及LSTM單元工作流程如圖2所示,該模型利用門機(jī)制改變傳送到細(xì)胞狀態(tài)的信息來保持信息傳遞的持久性,從而能夠?qū)W到長距離上下....
圖3BiLSTM-CRF模型
CRF一般用于計算整個序列的聯(lián)合概率。CRF的參數(shù)化形式定義如下:式中,tk,δl是特征函數(shù),λk,μl為相應(yīng)的權(quán)重,Zx是規(guī)范因子。上式指根據(jù)輸入序列x,得到輸出序列y的條件概率。tk是定義在邊上的特征函數(shù),稱為轉(zhuǎn)移特征,依靠當(dāng)前詞及前一個詞判斷是否符合該特征,由當(dāng)前位置及前一....
本文編號:3954419
本文鏈接:http://sikaile.net/falvlunwen/gongjianfalunwen/3954419.html