面向司法大數(shù)據(jù)的法條預(yù)測與相似案例匹配研究
發(fā)布時間:2021-08-02 17:17
近年來,智慧司法領(lǐng)域中針對法律裁判文書的分析和挖掘已成為計算法律學(xué)的熱點研究問題。法條預(yù)測與相似案例匹配是智慧司法中的兩個重要任務(wù),法條預(yù)測通過分析案件的事實描述部分自動預(yù)測涉案法條,相似案例匹配通過對比文書相似度從候選案件中選出最相似案件。法條預(yù)測與相似案例匹配能夠協(xié)助法官審理案件,同時也能幫助普通民眾理解案件。目前,智慧司法方面的研究主要集中在判決罪名預(yù)測,專門針對法條預(yù)測與相似案例匹配的研究較少。面向司法大數(shù)據(jù)的法條預(yù)測與相似案例匹配研究是利用深度神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)法條預(yù)測和相似案例匹配,提升智能司法服務(wù)水平。論文的主要工作為:(1)在法條預(yù)測任務(wù)中,首先構(gòu)建了卷積神經(jīng)網(wǎng)絡(luò)法條預(yù)測模型與注意力雙向LSTM法條預(yù)測模型,在實驗中對比了不同輸入層與Embedding層的卷積神經(jīng)網(wǎng)絡(luò)法條預(yù)測效果,然后通過對錯誤樣例分析后定義了法條預(yù)測的易混淆問題,針對該問題,提出了基于分層學(xué)習(xí)的易混淆法條預(yù)測模型,該模型由兩層學(xué)習(xí)框架組成,以卷積神經(jīng)網(wǎng)絡(luò)為特征提取器,單獨訓(xùn)練易混淆法條模型。(2)在相似案例匹配任務(wù)中,構(gòu)建了基于注意力卷積神經(jīng)網(wǎng)絡(luò)的相似案例匹配模型,模型包含兩個卷積池化層,并在卷積層中加...
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
卷積操作卷積神經(jīng)網(wǎng)絡(luò)中每個卷積核的權(quán)重參數(shù)是固定,在提取特征中僅關(guān)注一個特征,
第二章相關(guān)研究基礎(chǔ)11個特征集合,例如在圖像處理中,卷積核可以提取圖像的邊緣、輪廓、色彩等特征信息,將每個卷積核提取的信息連接起來組成整幅圖片的特征。卷積層的局部連接與參數(shù)共享機制可以減少訓(xùn)練模型的參數(shù)量,有效減少模型的訓(xùn)練時間。2014年YoonKim將卷積神經(jīng)網(wǎng)絡(luò)用于自然語言處理任務(wù)中,提出了基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型,模型結(jié)構(gòu)如圖2.2所示。基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型結(jié)構(gòu)簡單,主要包含輸入層、卷積層,池化層,全連接層、Softmax層、輸出層圖2.2基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型圖輸入層的文本采用詞向量表示,訓(xùn)練過程中可以根據(jù)需要設(shè)定為靜態(tài)與非靜態(tài)兩種模式,最終每個詞被編碼為固定維度向量,整個文本序列表示為詞向量矩陣,如下表示:1:12...nnxxxx(2.1)其中,是向量連接符。ix表示第i個詞的詞向量,則i:ijx表示1,,...,iiijxxx共j+1個詞的詞向量。卷積核用于提取文本中的局部特征信息,將濾波器w以h個詞大小的窗口在詞向量矩陣上進行卷積,生成特征局部特征ci:1()iiihcfbwx(2.2)其中,b表示卷積核偏置值,f表示激活函數(shù)。將卷積核用于句子{1:2:11:,,...,hhnhnxxx}中,產(chǎn)生整篇文本的特征向量集121[,,,]nhcccc(2.3)在特征集向量采用最大池化操作,向量c=max{c}表示向量中的最大值,即文本中最重要特征。將最大池化向量輸入到全連接層與softmax層中,在輸出層得到每個類別標簽的概率分布;诰矸e神經(jīng)網(wǎng)絡(luò)的文本分類模型通過隨機Dropout來防止過擬合,Dropout的計算公式如下yw(zr)b(2.4)
第二章相關(guān)研究基礎(chǔ)12其中,z表示由m個卷積核組成的特征集,表示按元素逐個相乘操作,r表示掩模向量。該模型采用交叉熵作為損失函數(shù),計算公式如下所示1log()CiiiLyy(2.5)其中,iy是真實標簽,iy是預(yù)測標簽概率,C是分類的數(shù)據(jù)量。2.2.2循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)也是深度學(xué)習(xí)中的代表性算法之一,其代表網(wǎng)絡(luò)有雙向循環(huán)神經(jīng)網(wǎng)絡(luò)[31]與長短期記憶神經(jīng)網(wǎng)絡(luò)[32]。循環(huán)神經(jīng)網(wǎng)絡(luò)的研究主要用于處理序列數(shù)據(jù),例如語音、文本等數(shù)據(jù)。簡單循環(huán)神經(jīng)網(wǎng)絡(luò)模型如圖2.3所示。圖2.3簡單循環(huán)神經(jīng)網(wǎng)絡(luò)模型在簡單循環(huán)神經(jīng)網(wǎng)絡(luò)中,多個神經(jīng)元連接在串一起構(gòu)成整個網(wǎng)絡(luò),每個時刻神經(jīng)元的隱藏狀態(tài)除了受輸入數(shù)據(jù)x的影響,還受上一時刻隱藏層s的影響,依次將隱藏狀態(tài)輸入下一層神經(jīng)元,循環(huán)計算得到每個時刻的輸出,多個神經(jīng)元采用相同的激活函數(shù)和參數(shù)W,U。在每個神經(jīng)元輸出的計算過程如下公式所示。其中f和g表示激活函數(shù),U、W、V表示訓(xùn)練參數(shù),將輸入xt乘以參數(shù)U再加上一時刻隱層st-1乘以參數(shù)W的值得到該時刻的隱層輸出st,st經(jīng)過激活函數(shù)g后輸出ot,將st經(jīng)過參數(shù)W輸入到下一次循環(huán)中,循環(huán)組成神經(jīng)網(wǎng)絡(luò)的正向傳播。(tt-1)tttsfUx+Wso=g(Vs)(2.6)在構(gòu)建多層循環(huán)神經(jīng)網(wǎng)絡(luò)時,通過將底層網(wǎng)絡(luò)的輸出作為高層網(wǎng)絡(luò)的輸入后便可以得到多層的循環(huán)神經(jīng)網(wǎng)絡(luò),而且高層之間也可以進行參數(shù)值的傳遞;谘h(huán)神經(jīng)網(wǎng)絡(luò)的文本分類模型所采用交叉熵作為損失函數(shù)。
【參考文獻】:
碩士論文
[1]法律文本相似性問題的研究[D]. 劉彤.東南大學(xué) 2018
[2]基于文檔相似度的法律文書推薦系統(tǒng)[D]. 吳朋洋.華北電力大學(xué)(北京) 2018
本文編號:3317963
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
卷積操作卷積神經(jīng)網(wǎng)絡(luò)中每個卷積核的權(quán)重參數(shù)是固定,在提取特征中僅關(guān)注一個特征,
第二章相關(guān)研究基礎(chǔ)11個特征集合,例如在圖像處理中,卷積核可以提取圖像的邊緣、輪廓、色彩等特征信息,將每個卷積核提取的信息連接起來組成整幅圖片的特征。卷積層的局部連接與參數(shù)共享機制可以減少訓(xùn)練模型的參數(shù)量,有效減少模型的訓(xùn)練時間。2014年YoonKim將卷積神經(jīng)網(wǎng)絡(luò)用于自然語言處理任務(wù)中,提出了基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型,模型結(jié)構(gòu)如圖2.2所示。基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型結(jié)構(gòu)簡單,主要包含輸入層、卷積層,池化層,全連接層、Softmax層、輸出層圖2.2基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型圖輸入層的文本采用詞向量表示,訓(xùn)練過程中可以根據(jù)需要設(shè)定為靜態(tài)與非靜態(tài)兩種模式,最終每個詞被編碼為固定維度向量,整個文本序列表示為詞向量矩陣,如下表示:1:12...nnxxxx(2.1)其中,是向量連接符。ix表示第i個詞的詞向量,則i:ijx表示1,,...,iiijxxx共j+1個詞的詞向量。卷積核用于提取文本中的局部特征信息,將濾波器w以h個詞大小的窗口在詞向量矩陣上進行卷積,生成特征局部特征ci:1()iiihcfbwx(2.2)其中,b表示卷積核偏置值,f表示激活函數(shù)。將卷積核用于句子{1:2:11:,,...,hhnhnxxx}中,產(chǎn)生整篇文本的特征向量集121[,,,]nhcccc(2.3)在特征集向量采用最大池化操作,向量c=max{c}表示向量中的最大值,即文本中最重要特征。將最大池化向量輸入到全連接層與softmax層中,在輸出層得到每個類別標簽的概率分布;诰矸e神經(jīng)網(wǎng)絡(luò)的文本分類模型通過隨機Dropout來防止過擬合,Dropout的計算公式如下yw(zr)b(2.4)
第二章相關(guān)研究基礎(chǔ)12其中,z表示由m個卷積核組成的特征集,表示按元素逐個相乘操作,r表示掩模向量。該模型采用交叉熵作為損失函數(shù),計算公式如下所示1log()CiiiLyy(2.5)其中,iy是真實標簽,iy是預(yù)測標簽概率,C是分類的數(shù)據(jù)量。2.2.2循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)也是深度學(xué)習(xí)中的代表性算法之一,其代表網(wǎng)絡(luò)有雙向循環(huán)神經(jīng)網(wǎng)絡(luò)[31]與長短期記憶神經(jīng)網(wǎng)絡(luò)[32]。循環(huán)神經(jīng)網(wǎng)絡(luò)的研究主要用于處理序列數(shù)據(jù),例如語音、文本等數(shù)據(jù)。簡單循環(huán)神經(jīng)網(wǎng)絡(luò)模型如圖2.3所示。圖2.3簡單循環(huán)神經(jīng)網(wǎng)絡(luò)模型在簡單循環(huán)神經(jīng)網(wǎng)絡(luò)中,多個神經(jīng)元連接在串一起構(gòu)成整個網(wǎng)絡(luò),每個時刻神經(jīng)元的隱藏狀態(tài)除了受輸入數(shù)據(jù)x的影響,還受上一時刻隱藏層s的影響,依次將隱藏狀態(tài)輸入下一層神經(jīng)元,循環(huán)計算得到每個時刻的輸出,多個神經(jīng)元采用相同的激活函數(shù)和參數(shù)W,U。在每個神經(jīng)元輸出的計算過程如下公式所示。其中f和g表示激活函數(shù),U、W、V表示訓(xùn)練參數(shù),將輸入xt乘以參數(shù)U再加上一時刻隱層st-1乘以參數(shù)W的值得到該時刻的隱層輸出st,st經(jīng)過激活函數(shù)g后輸出ot,將st經(jīng)過參數(shù)W輸入到下一次循環(huán)中,循環(huán)組成神經(jīng)網(wǎng)絡(luò)的正向傳播。(tt-1)tttsfUx+Wso=g(Vs)(2.6)在構(gòu)建多層循環(huán)神經(jīng)網(wǎng)絡(luò)時,通過將底層網(wǎng)絡(luò)的輸出作為高層網(wǎng)絡(luò)的輸入后便可以得到多層的循環(huán)神經(jīng)網(wǎng)絡(luò),而且高層之間也可以進行參數(shù)值的傳遞;谘h(huán)神經(jīng)網(wǎng)絡(luò)的文本分類模型所采用交叉熵作為損失函數(shù)。
【參考文獻】:
碩士論文
[1]法律文本相似性問題的研究[D]. 劉彤.東南大學(xué) 2018
[2]基于文檔相似度的法律文書推薦系統(tǒng)[D]. 吳朋洋.華北電力大學(xué)(北京) 2018
本文編號:3317963
本文鏈接:http://sikaile.net/falvlunwen/gongjianfalunwen/3317963.html
最近更新
教材專著