基于語音問答的相似案件檢索方法與系統(tǒng)
發(fā)布時(shí)間:2021-01-28 14:19
裁判文書是司法實(shí)踐中最重要的載體。但從裁判文書中我們經(jīng)?梢钥吹綄ν话讣牟煌袥Q,這嚴(yán)重影響到司法的公信力和公正性。因此,實(shí)現(xiàn)“類案類判”至關(guān)重要。雖然已經(jīng)開發(fā)出一些類似的系統(tǒng),但它們并不能很好地滿足實(shí)際法律實(shí)踐的需要,主要原因有三點(diǎn):1)算法原因?qū)е峦扑偷念愃瓢讣粔蚓_和全面。2)推送的類似案件來源不明確,所屬法院的層次不夠清晰。3)地方各自為政,導(dǎo)致不同地區(qū)“類案”的判決有著顯著的差異性。此外,他們的方法大多基于關(guān)鍵詞匹配,無法根據(jù)自然語言描述的犯罪事實(shí)找到相似的案件,因而導(dǎo)致參考的相似案件不全,進(jìn)而導(dǎo)致類案不類判的發(fā)生。因此,本文基于自然語言處理技術(shù)和文本相似度,采用多輪語音問答的方式,開發(fā)了一個(gè)基于盜竊罪的刑事案件類案檢索系統(tǒng)。更具體地說,我們的系統(tǒng)采用了科大訊飛的在線語音識(shí)別和語音合成技術(shù),準(zhǔn)確識(shí)別用戶的語音輸入和高效轉(zhuǎn)化系統(tǒng)的文本輸出,以達(dá)到用戶與系統(tǒng)能以高效便利的語音方式進(jìn)行交互。然后利用自然語言處理技術(shù)對用戶的輸入文本進(jìn)行相應(yīng)的理解,并進(jìn)行多輪的問答過程。同時(shí),我們還提出了一種基于文本結(jié)構(gòu)化和語義相似度的計(jì)算方法來檢索最相似的案例。對一千個(gè)真實(shí)的法律判決文書進(jìn)行實(shí)...
【文章來源】:廣西師范大學(xué)廣西壯族自治區(qū)
【文章頁數(shù)】:55 頁
【學(xué)位級別】:碩士
【部分圖文】:
結(jié)巴分詞功能圖
廣西師范大學(xué)碩士研究生學(xué)位論文7就有不同的中文分割方式。第四,法律文本中出現(xiàn)的如人名、地名以及法律界的專業(yè)術(shù)語,它們很難精準(zhǔn)的預(yù)測,也難以全面的識(shí)別,也就很不利于分詞的顆粒度[45],而分詞的顆粒度大小對構(gòu)成詞語的文字?jǐn)?shù)量不同,劃分出的詞語語義也就會(huì)有相應(yīng)的改變,會(huì)在一定程度上影響著分詞的效果。圖2.2是法律文本分詞的流程圖。圖2.2法律文本分詞流程圖通過圖2.2我們可知,本文在對法律判決文書的分詞處理主要流程如下:首先,我們對判決文書進(jìn)行分句,以句子為輸入,做文本清洗等預(yù)處理。同時(shí),我們也添加了自定義的詞庫,以便能更好的對一些法律的專業(yè)術(shù)語進(jìn)行分詞,以此建立分詞模型。然后,我們再通過結(jié)巴分詞技術(shù)對文本進(jìn)行分詞處理,優(yōu)先分離出自定義詞庫中的詞,再分離出中文、英文和數(shù)字,對于中文使用加載動(dòng)態(tài)規(guī)劃的方法取得分詞和相應(yīng)的詞性標(biāo)注,而英文、數(shù)字和時(shí)間則做單獨(dú)的處理并給予相應(yīng)的標(biāo)注。最后,將三種結(jié)果進(jìn)行輸出,得到最終的分詞效果。2.2判決書的犯罪時(shí)間線抽取正則表達(dá)式最基本的三種功能是匹配、替換和提取[46]。本文主要用到匹配和替換兩種功能。匹配功能用于把自定設(shè)置的匹配表達(dá)式與判決書的文本文件進(jìn)行比較,然后根據(jù)比較結(jié)果,執(zhí)行相應(yīng)的程序。比如對時(shí)間的檢測時(shí)的格式一般為“××年××月××日”,正則的匹配功能就可以對數(shù)據(jù)格式的合法性進(jìn)行檢測。而替換功能用于在文檔中使用匹配模式來標(biāo)識(shí)特定文字,然后將其刪除或進(jìn)行替換,如刪除一些對提取信息有干擾的文本、
廣西師范大學(xué)碩士研究生學(xué)位論文13第3章案件對話的理解與生成本章討論我們的系統(tǒng)如何理解和分析人們在漢語口語中提出的問題,客服漢語口語問題多樣化表達(dá)帶來的挑戰(zhàn),確定問題的語義槽、語義組織方法和應(yīng)答方法。3.1理解用戶的回答和問題3.1.1基于用戶的語音識(shí)別在對話界面,我們的系統(tǒng)允許用戶根據(jù)需要輸入文本。其輸入有兩種方式,一種是直接輸入文本,一種是輸入語音。在我們的對話框系統(tǒng)中,用戶輸入語音后,網(wǎng)頁終端的輸入框?qū)⒅悄茱@示已識(shí)別的語音文本信息,如果識(shí)別結(jié)果有小錯(cuò)誤,用戶可以編輯該文本信息并重新發(fā)送,可以大大減輕用戶鍵入文本的負(fù)擔(dān)。系統(tǒng)處理用戶輸入的文本的過程如圖3.1所示。另一方面,語音合成技術(shù)被應(yīng)用到我們的系統(tǒng)中,以語音應(yīng)答用戶并顯示相應(yīng)的中文文本,這可以使用戶擁有良好的體驗(yàn),并方便用戶稍后查看和追溯對話。圖3.1科大訊飛語音識(shí)別流程圖中文語音處理技術(shù)的應(yīng)用在中國已經(jīng)成熟[52]。并且該技術(shù)在法律問答系統(tǒng)中的應(yīng)用非常普遍,例如智能法律機(jī)器人小法[53]。因此,我們的系統(tǒng)還使用了IFLYTEK的語音合成和語音識(shí)別功能?拼笥嶏w的語音合成和語音識(shí)別支持Android、IOS、Web、Java、Windows、Linux等多個(gè)版本,由于我們做的是JavaWeb的網(wǎng)頁版問答系統(tǒng),所以我們調(diào)用的JavaSDK
【參考文獻(xiàn)】:
期刊論文
[1]基于Attention+Bi-LSTM的公交出行意圖和語義槽填充聯(lián)合識(shí)別[J]. 陳婷婷,林民,李艷玲. 青海師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(04)
[2]語音識(shí)別技術(shù)的發(fā)展及應(yīng)用[J]. 于曉明. 計(jì)算機(jī)時(shí)代. 2019(11)
[3]基于Python的中文結(jié)巴分詞技術(shù)實(shí)現(xiàn)[J]. 曾小芹. 信息與電腦(理論版). 2019(18)
[4]文本相似度計(jì)算研究進(jìn)展綜述[J]. 王寒茹,張仰森. 北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(01)
[5]基于知識(shí)塊摘要和詞轉(zhuǎn)移距離的高效司法文檔分類[J]. 馬建剛,張鵬,馬應(yīng)龍. 計(jì)算機(jī)應(yīng)用. 2019(05)
[6]人工智能與法律結(jié)合的現(xiàn)狀及發(fā)展趨勢[J]. 黃俏娟,羅旭東. 計(jì)算機(jī)科學(xué). 2018(12)
[7]基于改進(jìn)孿生網(wǎng)絡(luò)結(jié)構(gòu)的相似法律案例檢索研究[J]. 李蘭君,周俊生,顧顏慧,曲維光. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(01)
[8]類案推送嵌入“智慧法院”辦案場景的原理和路徑[J]. 陳琨. 中國應(yīng)用法學(xué). 2018(04)
[9]人工智能時(shí)代的法律主體理論構(gòu)造——以智能機(jī)器人為切入點(diǎn)[J]. 王勇. 理論導(dǎo)刊. 2018(02)
[10]問答中的問句意圖識(shí)別和約束條件分析[J]. 孫鑫,王厚峰. 中文信息學(xué)報(bào). 2017(06)
碩士論文
[1]基于字符串匹配的中英文混合分詞技術(shù)研究[D]. 王茜.四川師范大學(xué) 2011
本文編號:3005143
【文章來源】:廣西師范大學(xué)廣西壯族自治區(qū)
【文章頁數(shù)】:55 頁
【學(xué)位級別】:碩士
【部分圖文】:
結(jié)巴分詞功能圖
廣西師范大學(xué)碩士研究生學(xué)位論文7就有不同的中文分割方式。第四,法律文本中出現(xiàn)的如人名、地名以及法律界的專業(yè)術(shù)語,它們很難精準(zhǔn)的預(yù)測,也難以全面的識(shí)別,也就很不利于分詞的顆粒度[45],而分詞的顆粒度大小對構(gòu)成詞語的文字?jǐn)?shù)量不同,劃分出的詞語語義也就會(huì)有相應(yīng)的改變,會(huì)在一定程度上影響著分詞的效果。圖2.2是法律文本分詞的流程圖。圖2.2法律文本分詞流程圖通過圖2.2我們可知,本文在對法律判決文書的分詞處理主要流程如下:首先,我們對判決文書進(jìn)行分句,以句子為輸入,做文本清洗等預(yù)處理。同時(shí),我們也添加了自定義的詞庫,以便能更好的對一些法律的專業(yè)術(shù)語進(jìn)行分詞,以此建立分詞模型。然后,我們再通過結(jié)巴分詞技術(shù)對文本進(jìn)行分詞處理,優(yōu)先分離出自定義詞庫中的詞,再分離出中文、英文和數(shù)字,對于中文使用加載動(dòng)態(tài)規(guī)劃的方法取得分詞和相應(yīng)的詞性標(biāo)注,而英文、數(shù)字和時(shí)間則做單獨(dú)的處理并給予相應(yīng)的標(biāo)注。最后,將三種結(jié)果進(jìn)行輸出,得到最終的分詞效果。2.2判決書的犯罪時(shí)間線抽取正則表達(dá)式最基本的三種功能是匹配、替換和提取[46]。本文主要用到匹配和替換兩種功能。匹配功能用于把自定設(shè)置的匹配表達(dá)式與判決書的文本文件進(jìn)行比較,然后根據(jù)比較結(jié)果,執(zhí)行相應(yīng)的程序。比如對時(shí)間的檢測時(shí)的格式一般為“××年××月××日”,正則的匹配功能就可以對數(shù)據(jù)格式的合法性進(jìn)行檢測。而替換功能用于在文檔中使用匹配模式來標(biāo)識(shí)特定文字,然后將其刪除或進(jìn)行替換,如刪除一些對提取信息有干擾的文本、
廣西師范大學(xué)碩士研究生學(xué)位論文13第3章案件對話的理解與生成本章討論我們的系統(tǒng)如何理解和分析人們在漢語口語中提出的問題,客服漢語口語問題多樣化表達(dá)帶來的挑戰(zhàn),確定問題的語義槽、語義組織方法和應(yīng)答方法。3.1理解用戶的回答和問題3.1.1基于用戶的語音識(shí)別在對話界面,我們的系統(tǒng)允許用戶根據(jù)需要輸入文本。其輸入有兩種方式,一種是直接輸入文本,一種是輸入語音。在我們的對話框系統(tǒng)中,用戶輸入語音后,網(wǎng)頁終端的輸入框?qū)⒅悄茱@示已識(shí)別的語音文本信息,如果識(shí)別結(jié)果有小錯(cuò)誤,用戶可以編輯該文本信息并重新發(fā)送,可以大大減輕用戶鍵入文本的負(fù)擔(dān)。系統(tǒng)處理用戶輸入的文本的過程如圖3.1所示。另一方面,語音合成技術(shù)被應(yīng)用到我們的系統(tǒng)中,以語音應(yīng)答用戶并顯示相應(yīng)的中文文本,這可以使用戶擁有良好的體驗(yàn),并方便用戶稍后查看和追溯對話。圖3.1科大訊飛語音識(shí)別流程圖中文語音處理技術(shù)的應(yīng)用在中國已經(jīng)成熟[52]。并且該技術(shù)在法律問答系統(tǒng)中的應(yīng)用非常普遍,例如智能法律機(jī)器人小法[53]。因此,我們的系統(tǒng)還使用了IFLYTEK的語音合成和語音識(shí)別功能?拼笥嶏w的語音合成和語音識(shí)別支持Android、IOS、Web、Java、Windows、Linux等多個(gè)版本,由于我們做的是JavaWeb的網(wǎng)頁版問答系統(tǒng),所以我們調(diào)用的JavaSDK
【參考文獻(xiàn)】:
期刊論文
[1]基于Attention+Bi-LSTM的公交出行意圖和語義槽填充聯(lián)合識(shí)別[J]. 陳婷婷,林民,李艷玲. 青海師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(04)
[2]語音識(shí)別技術(shù)的發(fā)展及應(yīng)用[J]. 于曉明. 計(jì)算機(jī)時(shí)代. 2019(11)
[3]基于Python的中文結(jié)巴分詞技術(shù)實(shí)現(xiàn)[J]. 曾小芹. 信息與電腦(理論版). 2019(18)
[4]文本相似度計(jì)算研究進(jìn)展綜述[J]. 王寒茹,張仰森. 北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(01)
[5]基于知識(shí)塊摘要和詞轉(zhuǎn)移距離的高效司法文檔分類[J]. 馬建剛,張鵬,馬應(yīng)龍. 計(jì)算機(jī)應(yīng)用. 2019(05)
[6]人工智能與法律結(jié)合的現(xiàn)狀及發(fā)展趨勢[J]. 黃俏娟,羅旭東. 計(jì)算機(jī)科學(xué). 2018(12)
[7]基于改進(jìn)孿生網(wǎng)絡(luò)結(jié)構(gòu)的相似法律案例檢索研究[J]. 李蘭君,周俊生,顧顏慧,曲維光. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(01)
[8]類案推送嵌入“智慧法院”辦案場景的原理和路徑[J]. 陳琨. 中國應(yīng)用法學(xué). 2018(04)
[9]人工智能時(shí)代的法律主體理論構(gòu)造——以智能機(jī)器人為切入點(diǎn)[J]. 王勇. 理論導(dǎo)刊. 2018(02)
[10]問答中的問句意圖識(shí)別和約束條件分析[J]. 孫鑫,王厚峰. 中文信息學(xué)報(bào). 2017(06)
碩士論文
[1]基于字符串匹配的中英文混合分詞技術(shù)研究[D]. 王茜.四川師范大學(xué) 2011
本文編號:3005143
本文鏈接:http://sikaile.net/falvlunwen/susongfa/3005143.html
最近更新
教材專著