天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 法律論文 > 司法論文 >

面向司法領(lǐng)域的多標(biāo)簽分類的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-08-23 18:23
【摘要】:隨著信息技術(shù)的發(fā)展,各行各業(yè)都積累的客觀的數(shù)據(jù),為了應(yīng)對(duì)信息爆炸帶來(lái)的挑戰(zhàn),迫切需要一些信息技術(shù)手段,對(duì)這些數(shù)據(jù)進(jìn)行分析幫助人們解決現(xiàn)實(shí)生活中的一些實(shí)際問(wèn)題,解放人類的生產(chǎn)力。在司法領(lǐng)域,法官通常閱讀案情描述,根據(jù)相關(guān)法條決定最終罪名判定,這個(gè)任務(wù)是十分耗時(shí)并且需要額外的專業(yè)知識(shí)的。通過(guò)技術(shù)手段,解決以案情描述為輸入,相關(guān)法條為輸出解決判決預(yù)測(cè)問(wèn)題,可以有效節(jié)約人力成本,使司法判決更加準(zhǔn)確有效。本課題將司法判決預(yù)測(cè)問(wèn)題轉(zhuǎn)換為多標(biāo)簽分類問(wèn)題,多標(biāo)簽分類主要存在兩方面的問(wèn)題,一方面,不同標(biāo)簽出現(xiàn)的數(shù)量有很大的差異,稱為標(biāo)簽不均衡問(wèn)題,占多數(shù)的標(biāo)簽在學(xué)習(xí)過(guò)程中往往會(huì)與少數(shù)標(biāo)簽共同參與誤差計(jì)算,這會(huì)導(dǎo)致少數(shù)標(biāo)簽分類在預(yù)測(cè)過(guò)程中偏向于向數(shù)量占比多的標(biāo)簽進(jìn)行預(yù)測(cè),造成預(yù)測(cè)結(jié)果的不準(zhǔn)確,因此是本課題需要解決的一個(gè)重要問(wèn)題。另一方面,現(xiàn)有的多標(biāo)簽分類模型往往標(biāo)簽關(guān)聯(lián)信息進(jìn)行學(xué)習(xí),稱為標(biāo)簽關(guān)聯(lián)性問(wèn)題,它們往往從標(biāo)簽本身共現(xiàn)關(guān)系進(jìn)行建模,忽略了標(biāo)簽本身的語(yǔ)義信息;谏鲜鰡(wèn)題,本課題提出兩種模型用于判決預(yù)測(cè)。首先,本課題提出了一種統(tǒng)一的動(dòng)態(tài)成對(duì)注意力機(jī)制模型(簡(jiǎn)稱DPAM)。DPAM采用多任務(wù)學(xué)習(xí)框架,聯(lián)合學(xué)習(xí)多標(biāo)簽分類器和閾值預(yù)測(cè)器,因此DPAM可以利用兩個(gè)任務(wù)之間的信息傳遞提升模型的泛化性能。此外,基于法條定義構(gòu)建成對(duì)注意力機(jī)制,引入多標(biāo)簽分類模型用于緩解標(biāo)簽不均衡問(wèn)題。在兩個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn),證明了模型的有效性。其次,本課題提出了一種遞歸注意力機(jī)制(簡(jiǎn)稱RAN)。RAN利用LSTM對(duì)案情描述和法條定義文本同樣建模特征,通過(guò)遞歸結(jié)構(gòu)建模法官交替閱讀案情描述和法條之間的過(guò)程,將判決預(yù)測(cè)問(wèn)題轉(zhuǎn)換為案情描述與法條定義之間的匹配問(wèn)題。在三個(gè)真實(shí)數(shù)據(jù)集的實(shí)驗(yàn),證明RAN可以有效提升判決預(yù)測(cè)性能。最后,本課題設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)原型系統(tǒng)。該原型系統(tǒng)立足法官的基本需求,基于本課題提出的上述兩個(gè)模型,設(shè)計(jì)實(shí)現(xiàn)了裁判文書(shū)要素提取,裁判文書(shū)語(yǔ)義匹配,類案檢索,判決預(yù)測(cè)四個(gè)功能,在實(shí)際場(chǎng)景下對(duì)模型的應(yīng)用進(jìn)行了實(shí)驗(yàn),有效證明了本課題模型的實(shí)際應(yīng)用價(jià)值。
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:D926;TP391.1
【圖文】:

模型結(jié)構(gòu),文本分類


邐…邐wx逡逑圖2-2:邋FastText模型結(jié)構(gòu)圖逡逑該模型由輸入層,隱藏層和輸出層組成,輸入層為詞向量,隱藏層通過(guò)將文本中逡逑詞向量進(jìn)行平均得到句子向量的表達(dá),最后通過(guò)暑促層線性分類器進(jìn)行文本分類。該逡逑方法訓(xùn)練速度快,在很多文本分類任務(wù)中取得了出色的表現(xiàn)。逡逑隨著CNN/RNN的研究不斷增多,越來(lái)越多的模型使用這些方法對(duì)文本進(jìn)行建逡逑模。Kim等人提出基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法I1'其模型結(jié)構(gòu)如圖2-3所示:逡逑,uNm-爿逡逑wait邋!邋i邐*邐逡逑for邋"|!邐邐邐—邐.、???_?..-iC1!逡逑the邋I邋 ̄p邐?.—匚邐??...逡逑video邐|邋I邐二=一邐\、邐\3;邐?逡逑m,Kl邋邐邐邋'.’'.....‘.'.j—-邋—邐'邐V\逡逑n't邋Y邋r邐邐一二一邐)邐邐邐-逡逑rent邐」邐—?邋??—邐.逡逑il邋!邋1邐邋b邋-邋y邋’逡逑i邐i邋I邐}邐I邐邐I邋I邐|逡逑n邋x邋k邋r?present?Hon邋of邐Gonvotutionai邋iayor邋wslh邐Max-0yer-。椋恚筮姡疲酰欤欤澹澹铮睿颍蓿澹悖簦澹溴澹欤幔妫悖蝈义希螅澹?ance邋wHh邋sialic;邋and邐mu'tiftis邋filter邋wictfis邋and邐poohng邐wish邋dropoul邋and逡逑non-static邋channels邐feature邋maps邐sofimax逡逑圖2-3:邋TextCNN模型結(jié)構(gòu)圖逡逑該模型由卷積層

序列,注意力機(jī)制,模型結(jié)構(gòu)


由于本身結(jié)構(gòu)的限制,無(wú)法得到文本序列的長(zhǎng)期依賴,因此,為了解決這個(gè)問(wèn)題,機(jī)逡逑器翻譯模型引入了注意力機(jī)制,通過(guò)在不M解碼階段不同詞重要性的不同,對(duì)文本逡逑向量進(jìn)行加權(quán),將語(yǔ)義信息集中在需要的部分。最基本的注意力機(jī)制模型如圖2-5所逡逑不:逡逑st-l邐st邐*■逡逑i邋邐邋1邋i邐.邋\邐…I邐I邋邐逡逑;逡逑邐邐^邐邐i邐^邐_;邐邐i邋(逡逑^l.r邐九邋2,r邋I邐"3.r邐htr逡逑^l.l邋*J邐!—邋^2,1邋?_J邐^3./邐4邋!—邋l^t.l逡逑IL-JTTLJ邋LJ1邋n_j|逡逑:邋.邐..逡逑Xj邐X2邐x3邐xt逡逑圖2-5:注意力機(jī)制模型結(jié)構(gòu)圖逡逑其中,X代表輸入文本,代表輸出|丨標(biāo),定義如下條件概率:逡逑p{y,\yi,..邐(2-11)逡逑其中,&代表第/時(shí)刻的RNN隱層單元,其計(jì)算公式如下:逡逑s,邋=邋f(s,^uyt^,Ci)邐(2-12)逡逑c,.依賴于來(lái)源于輸入句子的隱藏序列(心...,/%

統(tǒng)計(jì)圖,標(biāo)簽,出現(xiàn)頻次,出現(xiàn)次數(shù)


另一個(gè)挑戰(zhàn)是標(biāo)簽不均衡問(wèn)題。如果一個(gè)多標(biāo)簽分類數(shù)據(jù)集上一部分?jǐn)?shù)據(jù)的標(biāo)逡逑簽數(shù)量遠(yuǎn)遠(yuǎn)小于另一部分?jǐn)?shù)據(jù),那么這個(gè)多標(biāo)簽分類數(shù)據(jù)集被認(rèn)為是不均衡的。針對(duì)逡逑同一份案例數(shù)據(jù)進(jìn)行分析,其結(jié)果如圖3-2所示,其中,x軸代表法條集合大小,y軸逡逑代表樣本比例占比。逡逑10000邋■邋|逡逑8000邋-逡逑6000邋-逡逑4000邋-逡逑2000邋-逡逑L邋llllllHlm,.…逡逑0邐10邐20邐30邐40邐50邐60邐70逡逑圖3-2:樣本標(biāo)簽出現(xiàn)次數(shù)統(tǒng)計(jì)圖,其中,x代表按出現(xiàn)頻次排序的標(biāo)簽,y代表標(biāo)簽逡逑出現(xiàn)的次數(shù)。逡逑從圖中可以看出,每種法條出現(xiàn)的數(shù)量符合長(zhǎng)尾分布,這意味著很多法條很少在逡逑審判中被引用。大多數(shù)傳統(tǒng)的多標(biāo)簽分類算法在訓(xùn)練過(guò)程屮通過(guò)最小化整體分類誤逡逑差來(lái)進(jìn)行優(yōu)化,這種方式假設(shè)所有標(biāo)簽擁有同等的重要性。這種假設(shè)使得分類算法在逡逑訓(xùn)練過(guò)程中偏向于向數(shù)量占比多的標(biāo)簽進(jìn)行學(xué)>J。雖然法條定義可以體現(xiàn)不同法條逡逑之間的一些相關(guān)信息用于緩解標(biāo)簽不均衡問(wèn)題(例如表3-1所示,刑法第-百九十七逡逑條和刑法第一百九十一條是非常相似的。),但是目前在判決預(yù)測(cè)研究屮沒(méi)有工作考逡逑慮這方面的問(wèn)題。逡逑現(xiàn)有的很多多標(biāo)簽分類工作都引入了標(biāo)簽之間的關(guān)聯(lián)彳','(息,然而,這些工作都將逡逑多標(biāo)簽分類和閾值預(yù)測(cè)器分開(kāi)學(xué)習(xí)

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 朱昌俊;;“二等座院士”身上的職業(yè)精神[J];作文與考試;2017年26期

2 包佳佳;田偉;;大規(guī)模圖上標(biāo)簽集約束路徑的集合查詢[J];計(jì)算機(jī)科學(xué);2013年04期

3 吳金成;曹嬌;趙文棟;張磊;;標(biāo)簽集中式發(fā)布訂閱機(jī)制性能分析[J];指揮控制與仿真;2010年06期

4 吳小蘭;章成志;;結(jié)合用戶關(guān)系網(wǎng)和標(biāo)簽共現(xiàn)網(wǎng)的微博用戶標(biāo)簽推薦研究[J];情報(bào)學(xué)報(bào);2015年05期

5 李艷;賈君枝;;輕型標(biāo)簽本體與受控詞表的結(jié)合研究[J];數(shù)字圖書(shū)館論壇;2014年08期

6 李松麗;曹平;姜盼;;國(guó)際標(biāo)準(zhǔn)化組織的標(biāo)準(zhǔn)標(biāo)簽集研究分析[J];航空標(biāo)準(zhǔn)化與質(zhì)量;2018年02期

7 宋寧遠(yuǎn);劉晶;;數(shù)據(jù)標(biāo)簽集及其適用性探析[J];數(shù)字圖書(shū)館論壇;2018年06期

8 丁子_g;;建設(shè)工程招標(biāo)投標(biāo)大數(shù)據(jù)標(biāo)簽體系的研究與應(yīng)用[J];招標(biāo)采購(gòu)管理;2018年08期

9 包靖玲;霍永豐;顧佳;韓靜;李君;袁慶;李敬文;沈錫賓;;美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館期刊文檔標(biāo)簽集概述[J];中國(guó)科技期刊研究;2013年04期

10 李鋒;楊有龍;;基于標(biāo)簽特征和相關(guān)性的多標(biāo)簽分類算法[J];計(jì)算機(jī)工程與應(yīng)用;2019年04期

相關(guān)重要報(bào)紙文章 前2條

1 王小默;應(yīng)用精準(zhǔn)用戶畫(huà)像有多難?[N];人民郵電;2018年

2 任遠(yuǎn);世界無(wú)法依靠逃離來(lái)徹悟[N];文學(xué)報(bào);2015年

相關(guān)博士學(xué)位論文 前4條

1 劉世超;基于網(wǎng)絡(luò)嵌入學(xué)習(xí)和標(biāo)簽傳播的社區(qū)發(fā)現(xiàn)算法研究[D];武漢大學(xué);2017年

2 黃媛;面向服務(wù)的社會(huì)化標(biāo)注方法研究[D];武漢大學(xué);2013年

3 彭岳;基于主題模型的多標(biāo)簽學(xué)習(xí)問(wèn)題研究[D];南京大學(xué);2018年

4 杜卿;面向個(gè)性化服務(wù)的User Profile研究及應(yīng)用[D];華南理工大學(xué);2014年

相關(guān)碩士學(xué)位論文 前10條

1 楊澤;面向司法領(lǐng)域的多標(biāo)簽分類的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2019年

2 廖麗芳;基于標(biāo)簽相關(guān)性和三層BP神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽分類算法研究[D];廈門(mén)大學(xué);2017年

3 杜煉;多標(biāo)簽中文文本分類中的關(guān)鍵技術(shù)研究[D];杭州電子科技大學(xué);2018年

4 劉義明;多視角多標(biāo)簽最優(yōu)鏈?zhǔn)綄W(xué)習(xí)算法[D];山東大學(xué);2018年

5 張文杰;大規(guī)模多標(biāo)簽學(xué)習(xí)算法研究[D];華東師范大學(xué);2018年

6 張春焰;層次多標(biāo)簽分類算法研究與應(yīng)用[D];南京郵電大學(xué);2018年

7 楊柳;基于標(biāo)簽的外賣平臺(tái)用戶畫(huà)像研究[D];華中師范大學(xué);2016年

8 陸健;大型倉(cāng)儲(chǔ)中基于無(wú)源RFID的人員與商品智能感知技術(shù)研究[D];東南大學(xué);2018年

9 楊曉丹;基于耦合相似性的多標(biāo)簽k近鄰分類方法研究[D];云南大學(xué);2017年

10 呂榮榮;基于深度學(xué)習(xí)的多標(biāo)簽文本分類的研究與實(shí)現(xiàn)[D];東南大學(xué);2018年



本文編號(hào):2801866

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/falvlunwen/gongjianfalunwen/2801866.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d865b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com