面向司法領(lǐng)域的罪名自動預(yù)測方法研究
發(fā)布時間:2021-11-09 20:08
近年來,人工智能技術(shù)與司法領(lǐng)域的交叉融合,受到了學(xué)界和業(yè)界的廣泛關(guān)注。司法人工智能的引入,有利于提升司法部門的工作效率,降低司法服務(wù)的應(yīng)用門檻,促進司法公正公開透明。罪名自動預(yù)測是司法人工智能的核心任務(wù)之一,其旨在依據(jù)犯罪事實自動預(yù)測出犯罪主體觸犯的罪名。本文面向司法領(lǐng)域,對罪名自動預(yù)測方法進行了研究,主要工作及成果如下:(1)針對不同案件情形下詞語語義重要性存在差異的問題,提出了一種基于語義差異性的犯罪事實文本表示方法。該方法在編碼階段利用雙向門控循環(huán)單元和自注意力機制,實現(xiàn)了詞語的上下文信息融合以及語義重要性的自動計算賦值。實驗表明,該方法從詞語語義差異性的角度改進了犯罪事實的表示效果,并有效提升了罪名預(yù)測性能,在CAIL2018數(shù)據(jù)集上的Funion值達到了88.0%。(2)針對罪名預(yù)測中一個被告對應(yīng)多個罪名的預(yù)測問題,提出了一種面向數(shù)罪并罰情形的罪名預(yù)測方法。該方法利用問題轉(zhuǎn)化思想將數(shù)罪并罰預(yù)測轉(zhuǎn)化為多標(biāo)簽文本分類問題,并使用二元關(guān)聯(lián)策略將多標(biāo)簽罪名分解成多個獨立的單標(biāo)簽罪名,通過Sigmoid分類器實現(xiàn)每個罪名的0/1二元分類。實驗表明,該方法能有效地解...
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:51 頁
【學(xué)位級別】:碩士
【部分圖文】:
基于詞語語義差異性的多標(biāo)簽罪名預(yù)測模型GAC
各罪名類別存在嚴(yán)重的數(shù)據(jù)不均衡問題,因此容易導(dǎo)致模型訓(xùn)練偏置,而分類器是以總體分類性能作為學(xué)習(xí)目標(biāo),勢必會導(dǎo)致分類器過于關(guān)注多數(shù)樣本,使得少數(shù)樣本分類精度下降。本文也嘗試使用上下采樣算法改進模型,但該類方法對性能的提升極為有限,本文將在后續(xù)工作研究有效的改進思路。為了檢驗本章方法對相似、相關(guān)罪名的區(qū)分能力并進一步分析文本建模過程中注意力機制的作用機理,本文選取相似罪名“容留他人吸毒罪”與“販賣毒品罪”中的兩個案例,對其犯罪事實中各詞語對應(yīng)隱層向量的注意力權(quán)值進行可視化。結(jié)果如圖3.2所示,可以看出,盡管“容留他人吸毒罪”與“販賣毒品罪”均為毒品犯罪類罪名,但其犯罪事實整體語義側(cè)重仍有所差異。依據(jù)司法解釋,“容留他人吸毒罪”客觀方面表現(xiàn)為容留他人吸食、注射毒品,重點強調(diào)主觀容留性,忽略其是否存在有償交易。而“販賣毒品罪”更多強調(diào)毒品的交易行為,毒品種類、交易數(shù)量、毒資金額是其關(guān)鍵特征。因此,在“容留他人吸毒罪”案件的可視化圖中,“容留”、“吸食”等強調(diào)容留吸食行為詞語的顏色較深;“販賣毒品罪”中描述毒品的交易特征的詞語則顏色較深,如“購買”、“交易”、“出售”、“毒資”。這種注意力分布的差異是區(qū)分兩類相似罪名的關(guān)鍵。通用性詞語如“被告人”,“李某”,“路邊”等,其罪名區(qū)分能力較弱,因此對應(yīng)注意力值較低。同時發(fā)現(xiàn),“海洛因”“冰毒”等毒品名稱的權(quán)重也較高,原因是其所指語義為“毒品”,而該語義在毒品犯罪與非毒品犯罪(如盜竊、搶劫等罪名)的區(qū)分中較為關(guān)鍵。值得注意的是,“在毒品販賣罪”中出現(xiàn)了標(biāo)簽“money_1”,其是預(yù)處理過程中對金錢類數(shù)字規(guī)范化替換的結(jié)果,因為毒資金額在“毒品販賣罪”相似罪名(如走私、運輸毒品罪等)區(qū)分中較為關(guān)
第四章基于事實-法條注意力交互機制的罪名預(yù)測23第四章基于事實-法條注意力交互機制的罪名預(yù)測法律條文是定罪量刑的權(quán)威依據(jù),而且法律條文與犯罪事實具有高度的關(guān)聯(lián)性和相似性,針對性的引入法條知識有利于提升罪名預(yù)測的性能及可解釋性。本章提出了一種基于事實-法條注意力交互機制的罪名預(yù)測模型,該方法基于法條和事實隱層表示的關(guān)聯(lián)性實現(xiàn)事實部分句子權(quán)重的自動賦值,能有效降低噪聲句對于整體事實篇章編碼的負影響,從而使得犯罪事實整體語義表示更為精準(zhǔn)。4.1事實-法條編碼器本章所提模型總體結(jié)構(gòu)如圖4.1所示,主要包含以下步驟:(1)分別將事實和法條的詞向量到對應(yīng)的注意力序列編碼器(見圖4.2)中,以獲取相應(yīng)句子級別的事實表示和法條表示。(2)然后使用注意力交互機制計算事實中的每一句和每個法條的關(guān)聯(lián)度。(3)與此同時,法條隱層表示被輸入到一個“法條-罪名預(yù)測器”用以實現(xiàn)法條和事實的聯(lián)合表示。(4)最終,以關(guān)聯(lián)度作為權(quán)重計算得到篇章級別的事實表示,將被輸入到全連接層和Softmax分類器以預(yù)測得到罪名標(biāo)簽。本節(jié)重點介紹犯罪事實和法條的編碼過程。圖4.1模型總體結(jié)構(gòu)4.1.1事實編碼器首先進行詞級到句子級的犯罪事實編碼,使用基于注意力機制的序列編碼器實現(xiàn),如圖4.2所示,其主要由兩部分組成:雙向門控循環(huán)單元Bi-GRU和自注意力機制[18]。詞向量∈經(jīng)過Bi-GRU層編碼得到融入了上下文信息的詞語隱層表示∈2,其中是embedding維度,是hiddenstate維度。
本文編號:3485953
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:51 頁
【學(xué)位級別】:碩士
【部分圖文】:
基于詞語語義差異性的多標(biāo)簽罪名預(yù)測模型GAC
各罪名類別存在嚴(yán)重的數(shù)據(jù)不均衡問題,因此容易導(dǎo)致模型訓(xùn)練偏置,而分類器是以總體分類性能作為學(xué)習(xí)目標(biāo),勢必會導(dǎo)致分類器過于關(guān)注多數(shù)樣本,使得少數(shù)樣本分類精度下降。本文也嘗試使用上下采樣算法改進模型,但該類方法對性能的提升極為有限,本文將在后續(xù)工作研究有效的改進思路。為了檢驗本章方法對相似、相關(guān)罪名的區(qū)分能力并進一步分析文本建模過程中注意力機制的作用機理,本文選取相似罪名“容留他人吸毒罪”與“販賣毒品罪”中的兩個案例,對其犯罪事實中各詞語對應(yīng)隱層向量的注意力權(quán)值進行可視化。結(jié)果如圖3.2所示,可以看出,盡管“容留他人吸毒罪”與“販賣毒品罪”均為毒品犯罪類罪名,但其犯罪事實整體語義側(cè)重仍有所差異。依據(jù)司法解釋,“容留他人吸毒罪”客觀方面表現(xiàn)為容留他人吸食、注射毒品,重點強調(diào)主觀容留性,忽略其是否存在有償交易。而“販賣毒品罪”更多強調(diào)毒品的交易行為,毒品種類、交易數(shù)量、毒資金額是其關(guān)鍵特征。因此,在“容留他人吸毒罪”案件的可視化圖中,“容留”、“吸食”等強調(diào)容留吸食行為詞語的顏色較深;“販賣毒品罪”中描述毒品的交易特征的詞語則顏色較深,如“購買”、“交易”、“出售”、“毒資”。這種注意力分布的差異是區(qū)分兩類相似罪名的關(guān)鍵。通用性詞語如“被告人”,“李某”,“路邊”等,其罪名區(qū)分能力較弱,因此對應(yīng)注意力值較低。同時發(fā)現(xiàn),“海洛因”“冰毒”等毒品名稱的權(quán)重也較高,原因是其所指語義為“毒品”,而該語義在毒品犯罪與非毒品犯罪(如盜竊、搶劫等罪名)的區(qū)分中較為關(guān)鍵。值得注意的是,“在毒品販賣罪”中出現(xiàn)了標(biāo)簽“money_1”,其是預(yù)處理過程中對金錢類數(shù)字規(guī)范化替換的結(jié)果,因為毒資金額在“毒品販賣罪”相似罪名(如走私、運輸毒品罪等)區(qū)分中較為關(guān)
第四章基于事實-法條注意力交互機制的罪名預(yù)測23第四章基于事實-法條注意力交互機制的罪名預(yù)測法律條文是定罪量刑的權(quán)威依據(jù),而且法律條文與犯罪事實具有高度的關(guān)聯(lián)性和相似性,針對性的引入法條知識有利于提升罪名預(yù)測的性能及可解釋性。本章提出了一種基于事實-法條注意力交互機制的罪名預(yù)測模型,該方法基于法條和事實隱層表示的關(guān)聯(lián)性實現(xiàn)事實部分句子權(quán)重的自動賦值,能有效降低噪聲句對于整體事實篇章編碼的負影響,從而使得犯罪事實整體語義表示更為精準(zhǔn)。4.1事實-法條編碼器本章所提模型總體結(jié)構(gòu)如圖4.1所示,主要包含以下步驟:(1)分別將事實和法條的詞向量到對應(yīng)的注意力序列編碼器(見圖4.2)中,以獲取相應(yīng)句子級別的事實表示和法條表示。(2)然后使用注意力交互機制計算事實中的每一句和每個法條的關(guān)聯(lián)度。(3)與此同時,法條隱層表示被輸入到一個“法條-罪名預(yù)測器”用以實現(xiàn)法條和事實的聯(lián)合表示。(4)最終,以關(guān)聯(lián)度作為權(quán)重計算得到篇章級別的事實表示,將被輸入到全連接層和Softmax分類器以預(yù)測得到罪名標(biāo)簽。本節(jié)重點介紹犯罪事實和法條的編碼過程。圖4.1模型總體結(jié)構(gòu)4.1.1事實編碼器首先進行詞級到句子級的犯罪事實編碼,使用基于注意力機制的序列編碼器實現(xiàn),如圖4.2所示,其主要由兩部分組成:雙向門控循環(huán)單元Bi-GRU和自注意力機制[18]。詞向量∈經(jīng)過Bi-GRU層編碼得到融入了上下文信息的詞語隱層表示∈2,其中是embedding維度,是hiddenstate維度。
本文編號:3485953
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3485953.html
最近更新
教材專著