面向司法領(lǐng)域的多標(biāo)簽分類的研究與實(shí)現(xiàn)
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:D926;TP391.1
【圖文】:
邐…邐wx逡逑圖2-2:邋FastText模型結(jié)構(gòu)圖逡逑該模型由輸入層,隱藏層和輸出層組成,輸入層為詞向量,隱藏層通過(guò)將文本中逡逑詞向量進(jìn)行平均得到句子向量的表達(dá),最后通過(guò)暑促層線性分類器進(jìn)行文本分類。該逡逑方法訓(xùn)練速度快,在很多文本分類任務(wù)中取得了出色的表現(xiàn)。逡逑隨著CNN/RNN的研究不斷增多,越來(lái)越多的模型使用這些方法對(duì)文本進(jìn)行建逡逑模。Kim等人提出基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法I1'其模型結(jié)構(gòu)如圖2-3所示:逡逑,uNm-爿逡逑wait邋!邋i邐*邐逡逑for邋"|!邐邐邐—邐.、???_?..-iC1!逡逑the邋I邋 ̄p邐?.—匚邐??...逡逑video邐|邋I邐二=一邐\、邐\3;邐?逡逑m,Kl邋邐邐邋'.’'.....‘.'.j—-邋—邐'邐V\逡逑n't邋Y邋r邐邐一二一邐)邐邐邐-逡逑rent邐」邐—?邋??—邐.逡逑il邋!邋1邐邋b邋-邋y邋’逡逑i邐i邋I邐}邐I邐邐I邋I邐|逡逑n邋x邋k邋r?present?Hon邋of邐Gonvotutionai邋iayor邋wslh邐Max-0yer-。椋恚筮姡疲酰欤欤澹澹铮睿颍蓿澹悖簦澹溴澹欤幔妫悖蝈义希螅澹?ance邋wHh邋sialic;邋and邐mu'tiftis邋filter邋wictfis邋and邐poohng邐wish邋dropoul邋and逡逑non-static邋channels邐feature邋maps邐sofimax逡逑圖2-3:邋TextCNN模型結(jié)構(gòu)圖逡逑該模型由卷積層
由于本身結(jié)構(gòu)的限制,無(wú)法得到文本序列的長(zhǎng)期依賴,因此,為了解決這個(gè)問(wèn)題,機(jī)逡逑器翻譯模型引入了注意力機(jī)制,通過(guò)在不M解碼階段不同詞重要性的不同,對(duì)文本逡逑向量進(jìn)行加權(quán),將語(yǔ)義信息集中在需要的部分。最基本的注意力機(jī)制模型如圖2-5所逡逑不:逡逑st-l邐st邐*■逡逑i邋邐邋1邋i邐.邋\邐…I邐I邋邐逡逑;逡逑邐邐^邐邐i邐^邐_;邐邐i邋(逡逑^l.r邐九邋2,r邋I邐"3.r邐htr逡逑^l.l邋*J邐!—邋^2,1邋?_J邐^3./邐4邋!—邋l^t.l逡逑IL-JTTLJ邋LJ1邋n_j|逡逑:邋.邐..逡逑Xj邐X2邐x3邐xt逡逑圖2-5:注意力機(jī)制模型結(jié)構(gòu)圖逡逑其中,X代表輸入文本,代表輸出|丨標(biāo),定義如下條件概率:逡逑p{y,\yi,..邐(2-11)逡逑其中,&代表第/時(shí)刻的RNN隱層單元,其計(jì)算公式如下:逡逑s,邋=邋f(s,^uyt^,Ci)邐(2-12)逡逑c,.依賴于來(lái)源于輸入句子的隱藏序列(心...,/%
另一個(gè)挑戰(zhàn)是標(biāo)簽不均衡問(wèn)題。如果一個(gè)多標(biāo)簽分類數(shù)據(jù)集上一部分?jǐn)?shù)據(jù)的標(biāo)逡逑簽數(shù)量遠(yuǎn)遠(yuǎn)小于另一部分?jǐn)?shù)據(jù),那么這個(gè)多標(biāo)簽分類數(shù)據(jù)集被認(rèn)為是不均衡的。針對(duì)逡逑同一份案例數(shù)據(jù)進(jìn)行分析,其結(jié)果如圖3-2所示,其中,x軸代表法條集合大小,y軸逡逑代表樣本比例占比。逡逑10000邋■邋|逡逑8000邋-逡逑6000邋-逡逑4000邋-逡逑2000邋-逡逑L邋llllllHlm,.…逡逑0邐10邐20邐30邐40邐50邐60邐70逡逑圖3-2:樣本標(biāo)簽出現(xiàn)次數(shù)統(tǒng)計(jì)圖,其中,x代表按出現(xiàn)頻次排序的標(biāo)簽,y代表標(biāo)簽逡逑出現(xiàn)的次數(shù)。逡逑從圖中可以看出,每種法條出現(xiàn)的數(shù)量符合長(zhǎng)尾分布,這意味著很多法條很少在逡逑審判中被引用。大多數(shù)傳統(tǒng)的多標(biāo)簽分類算法在訓(xùn)練過(guò)程屮通過(guò)最小化整體分類誤逡逑差來(lái)進(jìn)行優(yōu)化,這種方式假設(shè)所有標(biāo)簽擁有同等的重要性。這種假設(shè)使得分類算法在逡逑訓(xùn)練過(guò)程中偏向于向數(shù)量占比多的標(biāo)簽進(jìn)行學(xué)>J。雖然法條定義可以體現(xiàn)不同法條逡逑之間的一些相關(guān)信息用于緩解標(biāo)簽不均衡問(wèn)題(例如表3-1所示,刑法第-百九十七逡逑條和刑法第一百九十一條是非常相似的。),但是目前在判決預(yù)測(cè)研究屮沒(méi)有工作考逡逑慮這方面的問(wèn)題。逡逑現(xiàn)有的很多多標(biāo)簽分類工作都引入了標(biāo)簽之間的關(guān)聯(lián)彳','(息,然而,這些工作都將逡逑多標(biāo)簽分類和閾值預(yù)測(cè)器分開(kāi)學(xué)習(xí)
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 朱昌俊;;“二等座院士”身上的職業(yè)精神[J];作文與考試;2017年26期
2 包佳佳;田偉;;大規(guī)模圖上標(biāo)簽集約束路徑的集合查詢[J];計(jì)算機(jī)科學(xué);2013年04期
3 吳金成;曹嬌;趙文棟;張磊;;標(biāo)簽集中式發(fā)布訂閱機(jī)制性能分析[J];指揮控制與仿真;2010年06期
4 吳小蘭;章成志;;結(jié)合用戶關(guān)系網(wǎng)和標(biāo)簽共現(xiàn)網(wǎng)的微博用戶標(biāo)簽推薦研究[J];情報(bào)學(xué)報(bào);2015年05期
5 李艷;賈君枝;;輕型標(biāo)簽本體與受控詞表的結(jié)合研究[J];數(shù)字圖書(shū)館論壇;2014年08期
6 李松麗;曹平;姜盼;;國(guó)際標(biāo)準(zhǔn)化組織的標(biāo)準(zhǔn)標(biāo)簽集研究分析[J];航空標(biāo)準(zhǔn)化與質(zhì)量;2018年02期
7 宋寧遠(yuǎn);劉晶;;數(shù)據(jù)標(biāo)簽集及其適用性探析[J];數(shù)字圖書(shū)館論壇;2018年06期
8 丁子_g;;建設(shè)工程招標(biāo)投標(biāo)大數(shù)據(jù)標(biāo)簽體系的研究與應(yīng)用[J];招標(biāo)采購(gòu)管理;2018年08期
9 包靖玲;霍永豐;顧佳;韓靜;李君;袁慶;李敬文;沈錫賓;;美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館期刊文檔標(biāo)簽集概述[J];中國(guó)科技期刊研究;2013年04期
10 李鋒;楊有龍;;基于標(biāo)簽特征和相關(guān)性的多標(biāo)簽分類算法[J];計(jì)算機(jī)工程與應(yīng)用;2019年04期
相關(guān)重要報(bào)紙文章 前2條
1 王小默;應(yīng)用精準(zhǔn)用戶畫(huà)像有多難?[N];人民郵電;2018年
2 任遠(yuǎn);世界無(wú)法依靠逃離來(lái)徹悟[N];文學(xué)報(bào);2015年
相關(guān)博士學(xué)位論文 前4條
1 劉世超;基于網(wǎng)絡(luò)嵌入學(xué)習(xí)和標(biāo)簽傳播的社區(qū)發(fā)現(xiàn)算法研究[D];武漢大學(xué);2017年
2 黃媛;面向服務(wù)的社會(huì)化標(biāo)注方法研究[D];武漢大學(xué);2013年
3 彭岳;基于主題模型的多標(biāo)簽學(xué)習(xí)問(wèn)題研究[D];南京大學(xué);2018年
4 杜卿;面向個(gè)性化服務(wù)的User Profile研究及應(yīng)用[D];華南理工大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 楊澤;面向司法領(lǐng)域的多標(biāo)簽分類的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2019年
2 廖麗芳;基于標(biāo)簽相關(guān)性和三層BP神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽分類算法研究[D];廈門(mén)大學(xué);2017年
3 杜煉;多標(biāo)簽中文文本分類中的關(guān)鍵技術(shù)研究[D];杭州電子科技大學(xué);2018年
4 劉義明;多視角多標(biāo)簽最優(yōu)鏈?zhǔn)綄W(xué)習(xí)算法[D];山東大學(xué);2018年
5 張文杰;大規(guī)模多標(biāo)簽學(xué)習(xí)算法研究[D];華東師范大學(xué);2018年
6 張春焰;層次多標(biāo)簽分類算法研究與應(yīng)用[D];南京郵電大學(xué);2018年
7 楊柳;基于標(biāo)簽的外賣平臺(tái)用戶畫(huà)像研究[D];華中師范大學(xué);2016年
8 陸健;大型倉(cāng)儲(chǔ)中基于無(wú)源RFID的人員與商品智能感知技術(shù)研究[D];東南大學(xué);2018年
9 楊曉丹;基于耦合相似性的多標(biāo)簽k近鄰分類方法研究[D];云南大學(xué);2017年
10 呂榮榮;基于深度學(xué)習(xí)的多標(biāo)簽文本分類的研究與實(shí)現(xiàn)[D];東南大學(xué);2018年
本文編號(hào):2801866
本文鏈接:http://sikaile.net/falvlunwen/gongjianfalunwen/2801866.html