基于法律大數(shù)據(jù)的智能系統(tǒng)
發(fā)布時(shí)間:2021-02-18 08:10
隨著互聯(lián)網(wǎng)規(guī)模的不斷壯大,信息量正以前所未有的速度巨量增長著。在這個(gè)環(huán)境下,大數(shù)據(jù)應(yīng)運(yùn)而生。其法律數(shù)據(jù)呈現(xiàn)出數(shù)量大、速率快、多樣化的特點(diǎn)。如何運(yùn)用先進(jìn)的方式對(duì)海量數(shù)據(jù)進(jìn)行采集、處理以及分析顯得尤為關(guān)鍵。提出了一套基于法律大數(shù)據(jù)的智能系統(tǒng)。該系統(tǒng)利用Scrapy網(wǎng)絡(luò)爬蟲采集判決文書和法律條目并使用正則和TF-IDF提取要素信息和文本關(guān)鍵字,實(shí)現(xiàn)多維度的文書分類檢索功能,并結(jié)合Word2Vec與TF-IDF分析文章相似度,實(shí)現(xiàn)相關(guān)文書的內(nèi)容推薦。
【文章來源】:工業(yè)控制計(jì)算機(jī). 2020,33(05)
【文章頁數(shù)】:3 頁
【部分圖文】:
系統(tǒng)總體設(shè)計(jì)圖
Word2Vec是Mikolov于2013年提出的語言模型,是目前自然語言處理領(lǐng)域的熱點(diǎn)。它利用了詞的上下文信息,使得語義信息更加豐富,現(xiàn)常用于文本相似度和文本聚類等領(lǐng)域。Word2Vec共有兩種訓(xùn)練模型,分別是CBOW連續(xù)詞袋模型和Skip-gram模型,兩者互為鏡像。CBOW是利用目標(biāo)單詞的前后詞語來計(jì)算當(dāng)前詞出現(xiàn)的概率,Skip-gram則與之相反,是通過中心詞來預(yù)測周圍的詞。由于Skip-gram能更好地處理低頻詞,準(zhǔn)確率更高,所以本文采用Skip-gram作為訓(xùn)練模型。Word2Vec通過得到每個(gè)詞的詞向量,從而將詞語間的關(guān)系簡化為向量空間中向量的運(yùn)算[2]。Mikolov在文獻(xiàn)中指出詞向量的學(xué)習(xí)不僅能學(xué)習(xí)到其語法特征,還能利用向量相加減的方式進(jìn)行語義上面的計(jì)算[3]。根據(jù)這一原理,本文通過Word2Vec詞向量運(yùn)算得到文書之間相似度,實(shí)現(xiàn)相關(guān)文書的內(nèi)容推薦。
而對(duì)某一篇文書標(biāo)題進(jìn)行點(diǎn)擊后,頁面會(huì)跳轉(zhuǎn)到文書詳情頁,查看文書具體內(nèi)容。另外點(diǎn)擊詳情頁面右上角的概要按鈕可觸發(fā)ToolBar導(dǎo)航欄,展示該文書關(guān)鍵信息,幫助法務(wù)工作人員更好地了解案件。如圖3、圖4所示。圖4 文書詳情頁面
【參考文獻(xiàn)】:
期刊論文
[1]基于Python語言的中文分詞技術(shù)的研究[J]. 祝永志,荊靜. 通信技術(shù). 2019(07)
[2]基于Word2Vec的中文短文本分類問題研究[J]. 汪靜,羅浪,王德強(qiáng). 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(05)
[3]關(guān)于法律人工智能在中國運(yùn)用前景的若干思考[J]. 左衛(wèi)民. 清華法學(xué). 2018(02)
[4]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計(jì)算機(jī)科學(xué). 2016(06)
碩士論文
[1]基于加權(quán)Word2vec的微博文本相似度計(jì)算方法研究[D]. 馬思丹.西安電子科技大學(xué) 2019
本文編號(hào):3039292
【文章來源】:工業(yè)控制計(jì)算機(jī). 2020,33(05)
【文章頁數(shù)】:3 頁
【部分圖文】:
系統(tǒng)總體設(shè)計(jì)圖
Word2Vec是Mikolov于2013年提出的語言模型,是目前自然語言處理領(lǐng)域的熱點(diǎn)。它利用了詞的上下文信息,使得語義信息更加豐富,現(xiàn)常用于文本相似度和文本聚類等領(lǐng)域。Word2Vec共有兩種訓(xùn)練模型,分別是CBOW連續(xù)詞袋模型和Skip-gram模型,兩者互為鏡像。CBOW是利用目標(biāo)單詞的前后詞語來計(jì)算當(dāng)前詞出現(xiàn)的概率,Skip-gram則與之相反,是通過中心詞來預(yù)測周圍的詞。由于Skip-gram能更好地處理低頻詞,準(zhǔn)確率更高,所以本文采用Skip-gram作為訓(xùn)練模型。Word2Vec通過得到每個(gè)詞的詞向量,從而將詞語間的關(guān)系簡化為向量空間中向量的運(yùn)算[2]。Mikolov在文獻(xiàn)中指出詞向量的學(xué)習(xí)不僅能學(xué)習(xí)到其語法特征,還能利用向量相加減的方式進(jìn)行語義上面的計(jì)算[3]。根據(jù)這一原理,本文通過Word2Vec詞向量運(yùn)算得到文書之間相似度,實(shí)現(xiàn)相關(guān)文書的內(nèi)容推薦。
而對(duì)某一篇文書標(biāo)題進(jìn)行點(diǎn)擊后,頁面會(huì)跳轉(zhuǎn)到文書詳情頁,查看文書具體內(nèi)容。另外點(diǎn)擊詳情頁面右上角的概要按鈕可觸發(fā)ToolBar導(dǎo)航欄,展示該文書關(guān)鍵信息,幫助法務(wù)工作人員更好地了解案件。如圖3、圖4所示。圖4 文書詳情頁面
【參考文獻(xiàn)】:
期刊論文
[1]基于Python語言的中文分詞技術(shù)的研究[J]. 祝永志,荊靜. 通信技術(shù). 2019(07)
[2]基于Word2Vec的中文短文本分類問題研究[J]. 汪靜,羅浪,王德強(qiáng). 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(05)
[3]關(guān)于法律人工智能在中國運(yùn)用前景的若干思考[J]. 左衛(wèi)民. 清華法學(xué). 2018(02)
[4]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計(jì)算機(jī)科學(xué). 2016(06)
碩士論文
[1]基于加權(quán)Word2vec的微博文本相似度計(jì)算方法研究[D]. 馬思丹.西安電子科技大學(xué) 2019
本文編號(hào):3039292
本文鏈接:http://sikaile.net/falvlunwen/falilunwen/3039292.html
教材專著