基于深度學習的文本處理系統(tǒng)設計與實現(xiàn)
發(fā)布時間:2020-03-20 22:46
【摘要】:隨著人工智能技術的發(fā)展,法律、醫(yī)療和安全等行業(yè)都受到深遠的影響。在這些行業(yè)中,大部分的數(shù)據(jù)都能夠以文本形式存在,文本處理的目的是更好地管理這些文本并且從文本中獲取用戶需要的信息,具體是對目標文本進行分類、信息抽取等處理。深度學習已經(jīng)在語音識別、計算機視覺和機器翻譯等領域取得良好的應用效果,同樣深度學習也能應用在文本分類等文本處理任務中。文本分類是文本處理中的核心部分,主要任務是學習給定文本的內容和標簽,將這種映射關系生成分類器,利用分類器對未知類別的文本進行分類。本文主要研究工作如下:1、利用神經(jīng)網(wǎng)絡模型學習文本中的特征映射,實現(xiàn)文本特征的自動提取。分模塊介紹了基于深度學習的文本分類算法原理,深度學習模型主要采用的是卷積神經(jīng)網(wǎng)絡和分層注意力網(wǎng)絡。2、在兩種深度學習模型的研究前提下,融合多個深度學習模型以提升文本分類的準確率,并且利用公開的中文文本分類數(shù)據(jù)集進行對比實驗。根據(jù)實驗結論進行分析,卷積神經(jīng)網(wǎng)絡模型分類準確率最低,采用分層注意力網(wǎng)絡能在此基礎上提升3%,而融合兩個模型之后,分類準確率比卷積神經(jīng)網(wǎng)絡提升6%。3、針對法律行業(yè)的文本處理研究,設計并且實現(xiàn)了一個基于深度學習的法律文本處理系統(tǒng)。該系統(tǒng)的實現(xiàn)主要是基于深度學習框架TensorFlow,數(shù)據(jù)集來源于網(wǎng)絡上采集的合同模板,采用卷積神經(jīng)網(wǎng)絡和分層注意力網(wǎng)絡的融合模型構建分類器,在處理合同文件的同時也能對用戶輸入需求進行信息抽取,并且匹配到用戶需要的合同模板。本文在深度學習和自然語言處理技術的研究基礎上,主要進行法律行業(yè)的文本處理研究。法律行業(yè)的文書,比如裁決文書、合同文本、法律法規(guī)等,一般數(shù)量龐大、內容復雜,人工處理的方法效率低下,本文基于深度學習算法對法律合同文書進行文本分類、用戶需求匹配等文本處理工作,能夠提高辦公效率和用戶體驗。
【圖文】:
圖 3-1 用于文本分類的文本數(shù)據(jù)示例在圖 3-1 中,前一列是文本的內容,而后一列是該段文本對應的標簽,本文合同文件中的文本內容為例,三行示例都是從公開的合同模板文本中摘取應的是租賃合同、勞務合同和專利實施合同。建立基于深度學習的文本分首先對文本進行數(shù)據(jù)預處理,在完成去除文本中的標點、數(shù)字、特殊字符作之后。中文文本的預處理主要包含的步驟如下:① 分詞:不同于英文等語言,在中文的文本處理任務中需要對文本進行分具體的原因是因為基于字粒度的特征選擇會損失比較多的“n-gram”信息一般算法是直接忽略文本中的詞序信息,,因此特征粒度采用基于詞粒度比好。英文中每個單詞之間會有間隔,而中文是連續(xù)性的,所以有必要進行詞處理。本文采用結巴分詞[55]對文本進行分詞處理。
圖 3-2 某份合同文件中的詞頻統(tǒng)計圖表示的原理,其主要作用是將文本轉化為數(shù)無視文本語序等信息,利用相互獨立的詞匯方面忽略了文本的上下文關系,另一方面具用分布式表示方法,原理已在前一章提及。ord2vec 方法[21],實際應用中還有 GloVe 等預訓練的 Word2vec 模型作為詞向量。利用 W本轉化為數(shù)字向量。仍然以合同文件中的文圖 3-3 所示,矩陣的每行表示一個詞語,而向量的維度通常記為 embedding_size,是訓
【學位授予單位】:華中科技大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP391.1;TP18
本文編號:2592312
【圖文】:
圖 3-1 用于文本分類的文本數(shù)據(jù)示例在圖 3-1 中,前一列是文本的內容,而后一列是該段文本對應的標簽,本文合同文件中的文本內容為例,三行示例都是從公開的合同模板文本中摘取應的是租賃合同、勞務合同和專利實施合同。建立基于深度學習的文本分首先對文本進行數(shù)據(jù)預處理,在完成去除文本中的標點、數(shù)字、特殊字符作之后。中文文本的預處理主要包含的步驟如下:① 分詞:不同于英文等語言,在中文的文本處理任務中需要對文本進行分具體的原因是因為基于字粒度的特征選擇會損失比較多的“n-gram”信息一般算法是直接忽略文本中的詞序信息,,因此特征粒度采用基于詞粒度比好。英文中每個單詞之間會有間隔,而中文是連續(xù)性的,所以有必要進行詞處理。本文采用結巴分詞[55]對文本進行分詞處理。
圖 3-2 某份合同文件中的詞頻統(tǒng)計圖表示的原理,其主要作用是將文本轉化為數(shù)無視文本語序等信息,利用相互獨立的詞匯方面忽略了文本的上下文關系,另一方面具用分布式表示方法,原理已在前一章提及。ord2vec 方法[21],實際應用中還有 GloVe 等預訓練的 Word2vec 模型作為詞向量。利用 W本轉化為數(shù)字向量。仍然以合同文件中的文圖 3-3 所示,矩陣的每行表示一個詞語,而向量的維度通常記為 embedding_size,是訓
【學位授予單位】:華中科技大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP391.1;TP18
【參考文獻】
相關期刊論文 前1條
1 余凱;賈磊;陳雨強;徐偉;;深度學習的昨天、今天和明天[J];計算機研究與發(fā)展;2013年09期
本文編號:2592312
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2592312.html
最近更新
教材專著