法律文書中的要素識(shí)別方法研究
發(fā)布時(shí)間:2021-08-07 17:50
近些年來(lái),隨著自然語(yǔ)言處理技術(shù)的不斷發(fā)展,以及面向裁判文書的司法大數(shù)據(jù)不斷公開,如何將人工智能技術(shù)應(yīng)用于司法領(lǐng)域,以提高司法人員在案件處理環(huán)節(jié)的效率逐漸成為法律智能的研究熱點(diǎn)。法律文書中包含豐富的案情要素信息,通過(guò)對(duì)法律文書要素的抽取,可以更快速、便捷地輔助法官獲取所需信息,提高法官辦案效率。本文針對(duì)法律文書要素識(shí)別方法開展研究,主要研究工作如下:(1)法律文書基本要素識(shí)別。法律文書基本要素是指法律文書共有的案件基本信息,例如,案號(hào)、證據(jù)名、證實(shí)內(nèi)容等,可在法律文書中直接抽取。本文依據(jù)證據(jù)名和證實(shí)內(nèi)容字符長(zhǎng)度較長(zhǎng),且兩種基本要素間關(guān)聯(lián)性強(qiáng)的特點(diǎn),提出了基于JCWA-DLSTM的法律文書基本要素識(shí)別方法。利用預(yù)訓(xùn)練的字級(jí)語(yǔ)言模型獲取包含字符上下文的詞表示,以減小分詞錯(cuò)誤帶來(lái)的影響。同時(shí),利用自注意力機(jī)制,捕獲詞級(jí)間的依賴關(guān)系,建立基本要素件的關(guān)聯(lián)性,實(shí)現(xiàn)法律文書基本要素的識(shí)別。本文所提出的方法與基線方法的實(shí)驗(yàn)結(jié)果表明,JCWA-DLSTM方法的F1值達(dá)到了91.70%,明顯優(yōu)于基線方法。所提出的方法有助于法律文書基本要素識(shí)別。(2)法律文書核心要素識(shí)別。核心要素是指法律文書中的重要事實(shí)描...
【文章來(lái)源】:山西大學(xué)山西省
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
放縮點(diǎn)積注意力機(jī)制(,,)()
法律文書中的要素識(shí)別方法研究14數(shù)。2.3.2比較實(shí)驗(yàn)設(shè)置為了驗(yàn)證本章方法的有效性,設(shè)置了以下八個(gè)基準(zhǔn)實(shí)驗(yàn):(1)B-LSTM-CRF由于雙向LSTM可以有效地利用前向和后向的信息,同時(shí)CRF考慮在句子級(jí)進(jìn)行解碼,Huang[17]等人提出一種B-LSTM-CRF的命名實(shí)體識(shí)別模型。該模型首先將句子中的每個(gè)詞向量化表示,然后輸入到雙向LSTM中,得到每個(gè)詞隱層表示,該表示包含當(dāng)前詞的上下文信息,最后將得到的隱層表示輸入到CRF層,在句子級(jí)聯(lián)合解碼得到標(biāo)簽序列。(2)CNN-LSTM-CRFB-LSTM-CRF方法依賴詞嵌入的質(zhì)量,同時(shí)存在未登錄詞問(wèn)題,Ma[11]等人在B-LSTM-CRF方法上進(jìn)行改進(jìn),在2016年提出一種基于CNN-LSTM-CRF的端到端命名實(shí)體識(shí)別模型。由于CNN可以有效地抽取單詞的形態(tài)信息(如單詞的前綴和后綴),該模型首先采用CNN得到字符級(jí)詞表示,具體結(jié)構(gòu)如圖2.4所示。然后將得到的詞表示和訓(xùn)練好的詞嵌入向量聯(lián)合輸入到雙向LSTM,之后的操作與B-LSTM-CRF方法一致。圖2.4CNN抽取字符級(jí)詞表示(3)LSTM-LSTM-CRF該方法與CNN-LSTM-CRF方法類似,僅僅將字符級(jí)的CNN替換成了LSTM,其他的保持不變。(4)Lattice-LSTM
法律文書中的要素識(shí)別方法研究32(1)Labor數(shù)據(jù)集的Macro-F1值整體低于Divorce數(shù)據(jù)集的Macro-F1值,主要原因是Labor數(shù)據(jù)集的稀有標(biāo)簽樣本數(shù)量明顯少于Divorce數(shù)據(jù)集的稀有標(biāo)簽樣本數(shù)量,學(xué)習(xí)到的特定標(biāo)簽的特征不如Divorce數(shù)據(jù)集豐富,從而導(dǎo)致稀有標(biāo)簽不能被有效識(shí)別。(2)Labor數(shù)據(jù)集的Hammingloss值整體低于Divorce數(shù)據(jù)集的Hammingloss值,主要原因是Hammingloss反映的是平均不正確預(yù)測(cè)率,而Labor數(shù)據(jù)集的稀有標(biāo)簽樣本數(shù)量明顯少于Divorce數(shù)據(jù)集的稀有標(biāo)簽樣本數(shù)量,少量稀有標(biāo)簽的預(yù)測(cè)錯(cuò)誤對(duì)Hammingloss影響不大。表3.5不同方法在Loan數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果模型Hammingloss(-)Macro-F1(+)Micro-F1(+)SGM0.0209040.4283.36SGM+GE0.0179941.6685.24MU4MLC0.0183241.0984.95Seq2set0.1723541.9885.23LSAN0.0163548.5985.19HIAN(our)0.0153356.7785.99不同方法在Loan數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3.5所示,與在前兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果相似,本章提出的HIAN方法在三個(gè)指標(biāo)上也優(yōu)于其他的基線方法,說(shuō)明本章提出的方法對(duì)法律文書要素識(shí)別是有效的。3.4.2詞注意力可視化為了說(shuō)明詞注意力交互的有效性,在三個(gè)數(shù)據(jù)集分別選取一個(gè)樣本,并將其詞注意力進(jìn)行了可視化,如圖3.2、圖3.3和圖3.4所示。圖3.2(a)Divorce數(shù)據(jù)集文本與標(biāo)簽詞注意力圖
【參考文獻(xiàn)】:
期刊論文
[1]基于CNN-BLSTM-CRF模型的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 李麗雙,郭元?jiǎng)P. 中文信息學(xué)報(bào). 2018(01)
[2]基于句法路徑的情感評(píng)價(jià)單元識(shí)別[J]. 趙妍妍,秦兵,車萬(wàn)翔,劉挺. 軟件學(xué)報(bào). 2011(05)
[3]信息抽取研究綜述[J]. 李保利,陳玉忠,俞士汶. 計(jì)算機(jī)工程與應(yīng)用. 2003(10)
碩士論文
[1]基于法律的知識(shí)圖譜構(gòu)建[D]. 鄒愛玲.電子科技大學(xué) 2019
[2]司法文書法律要素提取方法的研究與實(shí)現(xiàn)[D]. 王林木.東南大學(xué) 2018
[3]面向法律文書的中文命名實(shí)體識(shí)別方法研究[D]. 王禮敏.蘇州大學(xué) 2018
[4]面向中文法律文本的命名實(shí)體識(shí)別研究[D]. 謝云.南京師范大學(xué) 2018
[5]基于隱式馬爾科夫模型的法律命名實(shí)體識(shí)別模型的設(shè)計(jì)與應(yīng)用[D]. 周曉輝.華南理工大學(xué) 2017
本文編號(hào):3328254
【文章來(lái)源】:山西大學(xué)山西省
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
放縮點(diǎn)積注意力機(jī)制(,,)()
法律文書中的要素識(shí)別方法研究14數(shù)。2.3.2比較實(shí)驗(yàn)設(shè)置為了驗(yàn)證本章方法的有效性,設(shè)置了以下八個(gè)基準(zhǔn)實(shí)驗(yàn):(1)B-LSTM-CRF由于雙向LSTM可以有效地利用前向和后向的信息,同時(shí)CRF考慮在句子級(jí)進(jìn)行解碼,Huang[17]等人提出一種B-LSTM-CRF的命名實(shí)體識(shí)別模型。該模型首先將句子中的每個(gè)詞向量化表示,然后輸入到雙向LSTM中,得到每個(gè)詞隱層表示,該表示包含當(dāng)前詞的上下文信息,最后將得到的隱層表示輸入到CRF層,在句子級(jí)聯(lián)合解碼得到標(biāo)簽序列。(2)CNN-LSTM-CRFB-LSTM-CRF方法依賴詞嵌入的質(zhì)量,同時(shí)存在未登錄詞問(wèn)題,Ma[11]等人在B-LSTM-CRF方法上進(jìn)行改進(jìn),在2016年提出一種基于CNN-LSTM-CRF的端到端命名實(shí)體識(shí)別模型。由于CNN可以有效地抽取單詞的形態(tài)信息(如單詞的前綴和后綴),該模型首先采用CNN得到字符級(jí)詞表示,具體結(jié)構(gòu)如圖2.4所示。然后將得到的詞表示和訓(xùn)練好的詞嵌入向量聯(lián)合輸入到雙向LSTM,之后的操作與B-LSTM-CRF方法一致。圖2.4CNN抽取字符級(jí)詞表示(3)LSTM-LSTM-CRF該方法與CNN-LSTM-CRF方法類似,僅僅將字符級(jí)的CNN替換成了LSTM,其他的保持不變。(4)Lattice-LSTM
法律文書中的要素識(shí)別方法研究32(1)Labor數(shù)據(jù)集的Macro-F1值整體低于Divorce數(shù)據(jù)集的Macro-F1值,主要原因是Labor數(shù)據(jù)集的稀有標(biāo)簽樣本數(shù)量明顯少于Divorce數(shù)據(jù)集的稀有標(biāo)簽樣本數(shù)量,學(xué)習(xí)到的特定標(biāo)簽的特征不如Divorce數(shù)據(jù)集豐富,從而導(dǎo)致稀有標(biāo)簽不能被有效識(shí)別。(2)Labor數(shù)據(jù)集的Hammingloss值整體低于Divorce數(shù)據(jù)集的Hammingloss值,主要原因是Hammingloss反映的是平均不正確預(yù)測(cè)率,而Labor數(shù)據(jù)集的稀有標(biāo)簽樣本數(shù)量明顯少于Divorce數(shù)據(jù)集的稀有標(biāo)簽樣本數(shù)量,少量稀有標(biāo)簽的預(yù)測(cè)錯(cuò)誤對(duì)Hammingloss影響不大。表3.5不同方法在Loan數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果模型Hammingloss(-)Macro-F1(+)Micro-F1(+)SGM0.0209040.4283.36SGM+GE0.0179941.6685.24MU4MLC0.0183241.0984.95Seq2set0.1723541.9885.23LSAN0.0163548.5985.19HIAN(our)0.0153356.7785.99不同方法在Loan數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3.5所示,與在前兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果相似,本章提出的HIAN方法在三個(gè)指標(biāo)上也優(yōu)于其他的基線方法,說(shuō)明本章提出的方法對(duì)法律文書要素識(shí)別是有效的。3.4.2詞注意力可視化為了說(shuō)明詞注意力交互的有效性,在三個(gè)數(shù)據(jù)集分別選取一個(gè)樣本,并將其詞注意力進(jìn)行了可視化,如圖3.2、圖3.3和圖3.4所示。圖3.2(a)Divorce數(shù)據(jù)集文本與標(biāo)簽詞注意力圖
【參考文獻(xiàn)】:
期刊論文
[1]基于CNN-BLSTM-CRF模型的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 李麗雙,郭元?jiǎng)P. 中文信息學(xué)報(bào). 2018(01)
[2]基于句法路徑的情感評(píng)價(jià)單元識(shí)別[J]. 趙妍妍,秦兵,車萬(wàn)翔,劉挺. 軟件學(xué)報(bào). 2011(05)
[3]信息抽取研究綜述[J]. 李保利,陳玉忠,俞士汶. 計(jì)算機(jī)工程與應(yīng)用. 2003(10)
碩士論文
[1]基于法律的知識(shí)圖譜構(gòu)建[D]. 鄒愛玲.電子科技大學(xué) 2019
[2]司法文書法律要素提取方法的研究與實(shí)現(xiàn)[D]. 王林木.東南大學(xué) 2018
[3]面向法律文書的中文命名實(shí)體識(shí)別方法研究[D]. 王禮敏.蘇州大學(xué) 2018
[4]面向中文法律文本的命名實(shí)體識(shí)別研究[D]. 謝云.南京師范大學(xué) 2018
[5]基于隱式馬爾科夫模型的法律命名實(shí)體識(shí)別模型的設(shè)計(jì)與應(yīng)用[D]. 周曉輝.華南理工大學(xué) 2017
本文編號(hào):3328254
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3328254.html
最近更新
教材專著