NLP及其在法院智能審案系統(tǒng)中的應(yīng)用研究
發(fā)布時間:2022-01-24 11:18
隨著我國建設(shè)法制強(qiáng)國步伐的加快,法院面臨的案件類別、涉案人員、判決結(jié)果等數(shù)據(jù)信息也日益增長。在法院對案件進(jìn)行審理的過程中,為了避免相似案情不同判決結(jié)果等重大失誤的發(fā)生,案件審理人員在對案件做出判決時,需要花費(fèi)很多時間在閱讀案件筆錄和相關(guān)歷史案件的分析上。這不僅造成了人力、物力的浪費(fèi),而且在這個過程中難免會出現(xiàn)一些誤判、漏判的情況,就會給國家和人民造成一定的損失;谌嗣穹ㄔ河龅降倪@種問題,本文利用自然語言處理和深度學(xué)習(xí)的技術(shù),根據(jù)法院對刑事案件案情的文字描述,智能地生成相應(yīng)的判決結(jié)果,并將判決結(jié)果轉(zhuǎn)化為法院的標(biāo)準(zhǔn)裁判文書。法院案件審理人員以此裁判文書作為參考,從而能夠快速準(zhǔn)確地對案件做出判決,給出公平公正的判決結(jié)果。裁判文書作為法院審判結(jié)果的最終依據(jù),包含了案情描述和判決結(jié)果等內(nèi)容。因此,本文首先利用爬蟲技術(shù),從國內(nèi)某法院裁判文書網(wǎng)站獲取己公布的近20余萬條裁判文書。然后利用正則表達(dá)式等技術(shù),對這些文檔內(nèi)的關(guān)鍵信息進(jìn)行提取,建立JSON格式的語料庫。再利用自然語言處理的相關(guān)知識,對語料進(jìn)行分詞、文本向量化等操作,將其輸入到以深度學(xué)習(xí)為基礎(chǔ)建立的神經(jīng)網(wǎng)絡(luò),經(jīng)過多輪次訓(xùn)練獲得法院判決結(jié)果的...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:93 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-1裁判文書網(wǎng)頁源碼??
??解析,提。龋裕停淘创a中的數(shù)據(jù)。其中的Request庫和BeautifiilSoup庫都可以通??過python自帶的pip工具進(jìn)行安裝。??當(dāng)進(jìn)入某法院網(wǎng)的司法公開欄目的裁判文書頁面,我們首先可以通過鼠標(biāo)選??擇要獲取裁判文書的案件類型,這里選擇刑事案件,其次就可以根據(jù)法院的級別??從高級法院到中級法院再到基層法院,這樣該頁面呈現(xiàn)的就是該法院公布的所有??一審刑事裁判文書了,每一頁共10個不同案件的裁判文書,每個裁判文書名稱都??可以點(diǎn)擊進(jìn)入裁判文書的詳情頁面,具體查詢選項(xiàng)如圖3-2所示。??文書公開查洵??法院:fSi高篪?塞號:鑛AM?縫號??室由;擊入塞囪?罷件類別:?吻刑事?民事心行政?#執(zhí)行??文書堯gh?#判決書?O裁走書?調(diào)解書?Gr決走書?〇支付令??圖3-2根據(jù)法院等級和案件類型查詢裁判文書??我們首先利用遞歸循環(huán)從裁判文書網(wǎng)的列表頁面,獲取每個裁判文書詳情頁??面的鏈接地址,然后利用Request庫獲取裁判文書詳情頁面的HTML源碼。??Request庫是一個優(yōu)雅而簡單的HTTP庫,它通過偽裝成瀏覽器的頭部信息向目標(biāo)??網(wǎng)站服務(wù)器發(fā)送請求,獲取服務(wù)器返回的頁面內(nèi)容,主要是HTML源碼。??然后使用BeautifUlSoup庫對HTML源碼進(jìn)行解析。BeautifiilSoup庫是一個靈??活又方便的網(wǎng)頁解析Python庫,處理效率很高,支持多種解析器,本文使用??htmlparser解析器。通過解析我們就可以獲取網(wǎng)頁的一個文檔對象,根據(jù)文檔對??象就可以讀取標(biāo)簽內(nèi)容了。??最后我們將解析出來的標(biāo)簽內(nèi)容寫入到一個文本文檔文件中,這個文檔的名??稱以裁判文書的名稱命名,包括了案件中
013〕佛三糊初字蓄311號孛念彬受賭塞一?刑事判決書,tort?2019/8/1?10:47?文本文檔??圍(2013)鍵三法刑初字皆312號激齡受賄塞一宙刑義U戾書.fort?2019/8/1?10:47?文本文檔??圖(2013〕鍵三法初字望33嗎韋植山、羅日方、羅朝義三人^室一宙刑事判凌書.txt?2019/8/1?10:47?文本文檔??圍(2.013)梯三衡K1初字窖345號刻健敲許勤索案一審刑事判■^書.txt?2019/8/1?10:47?文本文???<?>??圖3-3通過網(wǎng)絡(luò)獲取的txt格式的裁判文書??3.1.3裁判文書語料庫的建立??通過對這20萬份的裁判文書進(jìn)行研宄分析,我們基本掌握了法院判決文書的??格式和內(nèi)容編排,接下來我們要對其中的每一份裁判文書進(jìn)行處理,提取其中的??關(guān)鍵信息,完成法院裁判文書語料庫的建立。在這過程主要完成關(guān)鍵信息的定義??和關(guān)鍵fe息提取的方法。??3.1.3.1關(guān)鍵信息的定義??關(guān)鍵信息的選擇直接影響著我們模型的建立方式,是做分類還是做聚類都是??個問題。本文要實(shí)現(xiàn)從案件詳情到判決結(jié)果的預(yù)測,那么這兩類信息都是要從法??院的裁判文書中提取的。在法院的一審刑事判決書中,有一段文字會詳細(xì)描述法??院認(rèn)定的案件事實(shí)和情節(jié),其次會有段文字,寫明根據(jù)查證屬實(shí)的事實(shí)、情節(jié)和??法律規(guī)定,論證被告人是否犯罪,犯什么罪[36],以及最終的刑期等內(nèi)容,也就是??案件的判決結(jié)果。??因此,我們主要從裁判文書中提取兩類信息。一類是法院認(rèn)定的案件詳情描??述,包括了案件的情節(jié)過程和犯罪事實(shí)。另一類是法院作出的判決結(jié)果,判決結(jié)??果又分為判處被告人的罪名、判處被告人的刑期以及依據(jù)的法
【參考文獻(xiàn)】:
期刊論文
[1]基于GRU-Attention的中文文本分類[J]. 孫明敏. 現(xiàn)代信息科技. 2019(03)
[2]自然語言處理的發(fā)展歷史與現(xiàn)狀[J]. 宋一凡. 中國高新科技. 2019(03)
[3]基于Web的聯(lián)機(jī)手寫漢字識別仿真系統(tǒng)設(shè)計[J]. 曲麗娜. 吉林工程技術(shù)師范學(xué)院學(xué)報. 2018(10)
[4]基于集成學(xué)習(xí)的微博用戶轉(zhuǎn)發(fā)行為預(yù)測[J]. 張效尉,王偉,秦東霞. 河南師范大學(xué)學(xué)報(自然科學(xué)版). 2018(02)
[5]漢語的語素概念提取與語義構(gòu)詞分析[J]. 劉揚(yáng),林子,康司辰. 中文信息學(xué)報. 2018(02)
[6]基于微服務(wù)架構(gòu)的日志監(jiān)控系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J]. 張振,劉俊艷. 軟件. 2017(11)
[7]面向普通未登錄詞理解的二字詞語義構(gòu)詞研究[J]. 吉志薇,馮敏萱. 中文信息學(xué)報. 2015(05)
[8]信息抽取研究綜述[J]. 郭喜躍,何婷婷. 計算機(jī)科學(xué). 2015(02)
[9]互聯(lián)網(wǎng)不良信息治理的研究與探討[J]. 劉東鑫,周斯寧,沈軍. 廣東通信技術(shù). 2010(12)
[10]自然語言處理的歷史與現(xiàn)狀[J]. 馮志偉. 中國外語. 2008(01)
博士論文
[1]現(xiàn)代漢語詞語稱名生成過程研究[D]. 劉曉波.吉林大學(xué) 2019
碩士論文
[1]基于深度學(xué)習(xí)和詞典定義的義原預(yù)測研究[D]. 張磊.戰(zhàn)略支援部隊(duì)信息工程大學(xué) 2019
[2]基于機(jī)器學(xué)習(xí)的內(nèi)容處理與監(jiān)控系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D]. 李博文.北京交通大學(xué) 2019
[3]基于BPE和Transformer的漢語語音識別技術(shù)研究[D]. 欒效陽.哈爾濱工業(yè)大學(xué) 2019
[4]面向外骨骼機(jī)器人的智能康復(fù)信息系統(tǒng)的研究與實(shí)現(xiàn)[D]. 賈曉揚(yáng).電子科技大學(xué) 2019
[5]基于寬深度模型的廣告點(diǎn)擊率預(yù)估方法[D]. 林啟迪.華南理工大學(xué) 2019
[6]基于深度學(xué)習(xí)的產(chǎn)品意見挖掘研究[D]. 王彥芳.遼寧師范大學(xué) 2019
[7]中文自動文摘關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 張洪榮.哈爾濱工業(yè)大學(xué) 2018
[8]基于集成學(xué)習(xí)的蛋白質(zhì)序列分類問題的研究[D]. 趙欣.電子科技大學(xué) 2018
[9]基于主題相關(guān)圖的中文實(shí)體鏈接技術(shù)研究[D]. 陳依.國防科技大學(xué) 2017
[10]中文分詞方法在農(nóng)業(yè)搜索中的應(yīng)用研究[D]. 周利軍.四川農(nóng)業(yè)大學(xué) 2015
本文編號:3606477
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:93 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-1裁判文書網(wǎng)頁源碼??
??解析,提。龋裕停淘创a中的數(shù)據(jù)。其中的Request庫和BeautifiilSoup庫都可以通??過python自帶的pip工具進(jìn)行安裝。??當(dāng)進(jìn)入某法院網(wǎng)的司法公開欄目的裁判文書頁面,我們首先可以通過鼠標(biāo)選??擇要獲取裁判文書的案件類型,這里選擇刑事案件,其次就可以根據(jù)法院的級別??從高級法院到中級法院再到基層法院,這樣該頁面呈現(xiàn)的就是該法院公布的所有??一審刑事裁判文書了,每一頁共10個不同案件的裁判文書,每個裁判文書名稱都??可以點(diǎn)擊進(jìn)入裁判文書的詳情頁面,具體查詢選項(xiàng)如圖3-2所示。??文書公開查洵??法院:fSi高篪?塞號:鑛AM?縫號??室由;擊入塞囪?罷件類別:?吻刑事?民事心行政?#執(zhí)行??文書堯gh?#判決書?O裁走書?調(diào)解書?Gr決走書?〇支付令??圖3-2根據(jù)法院等級和案件類型查詢裁判文書??我們首先利用遞歸循環(huán)從裁判文書網(wǎng)的列表頁面,獲取每個裁判文書詳情頁??面的鏈接地址,然后利用Request庫獲取裁判文書詳情頁面的HTML源碼。??Request庫是一個優(yōu)雅而簡單的HTTP庫,它通過偽裝成瀏覽器的頭部信息向目標(biāo)??網(wǎng)站服務(wù)器發(fā)送請求,獲取服務(wù)器返回的頁面內(nèi)容,主要是HTML源碼。??然后使用BeautifUlSoup庫對HTML源碼進(jìn)行解析。BeautifiilSoup庫是一個靈??活又方便的網(wǎng)頁解析Python庫,處理效率很高,支持多種解析器,本文使用??htmlparser解析器。通過解析我們就可以獲取網(wǎng)頁的一個文檔對象,根據(jù)文檔對??象就可以讀取標(biāo)簽內(nèi)容了。??最后我們將解析出來的標(biāo)簽內(nèi)容寫入到一個文本文檔文件中,這個文檔的名??稱以裁判文書的名稱命名,包括了案件中
013〕佛三糊初字蓄311號孛念彬受賭塞一?刑事判決書,tort?2019/8/1?10:47?文本文檔??圍(2013)鍵三法刑初字皆312號激齡受賄塞一宙刑義U戾書.fort?2019/8/1?10:47?文本文檔??圖(2013〕鍵三法初字望33嗎韋植山、羅日方、羅朝義三人^室一宙刑事判凌書.txt?2019/8/1?10:47?文本文檔??圍(2.013)梯三衡K1初字窖345號刻健敲許勤索案一審刑事判■^書.txt?2019/8/1?10:47?文本文???<?>??圖3-3通過網(wǎng)絡(luò)獲取的txt格式的裁判文書??3.1.3裁判文書語料庫的建立??通過對這20萬份的裁判文書進(jìn)行研宄分析,我們基本掌握了法院判決文書的??格式和內(nèi)容編排,接下來我們要對其中的每一份裁判文書進(jìn)行處理,提取其中的??關(guān)鍵信息,完成法院裁判文書語料庫的建立。在這過程主要完成關(guān)鍵信息的定義??和關(guān)鍵fe息提取的方法。??3.1.3.1關(guān)鍵信息的定義??關(guān)鍵信息的選擇直接影響著我們模型的建立方式,是做分類還是做聚類都是??個問題。本文要實(shí)現(xiàn)從案件詳情到判決結(jié)果的預(yù)測,那么這兩類信息都是要從法??院的裁判文書中提取的。在法院的一審刑事判決書中,有一段文字會詳細(xì)描述法??院認(rèn)定的案件事實(shí)和情節(jié),其次會有段文字,寫明根據(jù)查證屬實(shí)的事實(shí)、情節(jié)和??法律規(guī)定,論證被告人是否犯罪,犯什么罪[36],以及最終的刑期等內(nèi)容,也就是??案件的判決結(jié)果。??因此,我們主要從裁判文書中提取兩類信息。一類是法院認(rèn)定的案件詳情描??述,包括了案件的情節(jié)過程和犯罪事實(shí)。另一類是法院作出的判決結(jié)果,判決結(jié)??果又分為判處被告人的罪名、判處被告人的刑期以及依據(jù)的法
【參考文獻(xiàn)】:
期刊論文
[1]基于GRU-Attention的中文文本分類[J]. 孫明敏. 現(xiàn)代信息科技. 2019(03)
[2]自然語言處理的發(fā)展歷史與現(xiàn)狀[J]. 宋一凡. 中國高新科技. 2019(03)
[3]基于Web的聯(lián)機(jī)手寫漢字識別仿真系統(tǒng)設(shè)計[J]. 曲麗娜. 吉林工程技術(shù)師范學(xué)院學(xué)報. 2018(10)
[4]基于集成學(xué)習(xí)的微博用戶轉(zhuǎn)發(fā)行為預(yù)測[J]. 張效尉,王偉,秦東霞. 河南師范大學(xué)學(xué)報(自然科學(xué)版). 2018(02)
[5]漢語的語素概念提取與語義構(gòu)詞分析[J]. 劉揚(yáng),林子,康司辰. 中文信息學(xué)報. 2018(02)
[6]基于微服務(wù)架構(gòu)的日志監(jiān)控系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J]. 張振,劉俊艷. 軟件. 2017(11)
[7]面向普通未登錄詞理解的二字詞語義構(gòu)詞研究[J]. 吉志薇,馮敏萱. 中文信息學(xué)報. 2015(05)
[8]信息抽取研究綜述[J]. 郭喜躍,何婷婷. 計算機(jī)科學(xué). 2015(02)
[9]互聯(lián)網(wǎng)不良信息治理的研究與探討[J]. 劉東鑫,周斯寧,沈軍. 廣東通信技術(shù). 2010(12)
[10]自然語言處理的歷史與現(xiàn)狀[J]. 馮志偉. 中國外語. 2008(01)
博士論文
[1]現(xiàn)代漢語詞語稱名生成過程研究[D]. 劉曉波.吉林大學(xué) 2019
碩士論文
[1]基于深度學(xué)習(xí)和詞典定義的義原預(yù)測研究[D]. 張磊.戰(zhàn)略支援部隊(duì)信息工程大學(xué) 2019
[2]基于機(jī)器學(xué)習(xí)的內(nèi)容處理與監(jiān)控系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D]. 李博文.北京交通大學(xué) 2019
[3]基于BPE和Transformer的漢語語音識別技術(shù)研究[D]. 欒效陽.哈爾濱工業(yè)大學(xué) 2019
[4]面向外骨骼機(jī)器人的智能康復(fù)信息系統(tǒng)的研究與實(shí)現(xiàn)[D]. 賈曉揚(yáng).電子科技大學(xué) 2019
[5]基于寬深度模型的廣告點(diǎn)擊率預(yù)估方法[D]. 林啟迪.華南理工大學(xué) 2019
[6]基于深度學(xué)習(xí)的產(chǎn)品意見挖掘研究[D]. 王彥芳.遼寧師范大學(xué) 2019
[7]中文自動文摘關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 張洪榮.哈爾濱工業(yè)大學(xué) 2018
[8]基于集成學(xué)習(xí)的蛋白質(zhì)序列分類問題的研究[D]. 趙欣.電子科技大學(xué) 2018
[9]基于主題相關(guān)圖的中文實(shí)體鏈接技術(shù)研究[D]. 陳依.國防科技大學(xué) 2017
[10]中文分詞方法在農(nóng)業(yè)搜索中的應(yīng)用研究[D]. 周利軍.四川農(nóng)業(yè)大學(xué) 2015
本文編號:3606477
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3606477.html
最近更新
教材專著