天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學習的文本校對方法研究

發(fā)布時間:2021-12-25 04:11
  隨著互聯(lián)網的飛速發(fā)展,網絡上的文本數(shù)據(jù)量激增,同時也導致了文本質量下降,傳統(tǒng)的人工校對早已無法完成如此巨量的工作,文本自動校對技術應運而生。該技術不僅能加快出版節(jié)奏,而且可以利用該技術在企業(yè)單位減少大量需要保存的電子文檔中的錯誤,同時在在教育教學方面也能輔助教師評閱試卷,發(fā)現(xiàn)其中的拼寫錯誤。傳統(tǒng)基于統(tǒng)計和規(guī)則的文本校對方法存在諸多問題。一方面規(guī)則的制定需要豐富的經驗,人力成本高,且這種基于流水線的模式,會由于分詞產生的噪音,很容易導致錯誤累積。另一方面,現(xiàn)有方法僅使用了字或詞的特征信息,對于字、詞、拼音三種特征信息未進行有效的利用。針對以上問題,本文提出一種基于深度學習的序列標注模型BLSTM-CRF,無需進行人工干預,節(jié)省了人力成本,并采用字粒度的特征免去了分詞引入的噪音。此外,針對多特征未有效利用問題,對BLSTM-CRF模型進行了改進,采用了網格LSTM和門控機制有效地對字、詞、拼音三者進行了多特征融合。本文研究的主要內容主要分為兩個方面:(1)本文提出了一種用于中文拼寫檢查的神經網絡架構BLSTM-CRF,即雙向長短時記憶網絡結合條件隨機場模型。它是真正的端到端模型,不依賴于特... 

【文章來源】:北方工業(yè)大學北京市

【文章頁數(shù)】:60 頁

【學位級別】:碩士

【部分圖文】:

基于深度學習的文本校對方法研究


詞嵌入表示示例

網絡結構圖,網絡結構,神經網絡


第二章相關技術概述15語。但由于詞匯表大小V通常是比較大的,每次都更新W矩陣計算量很大,同時不同的詞出現(xiàn)的頻率也不一樣,所以論文中采用了多層Softmax和負采樣兩種優(yōu)化方法來解決這一問題。2.3.3長短時記憶網絡長短時記憶網絡(LongShort-TermMemory,LSTM)[20]是一種特殊的循環(huán)神經網絡(RecurrentNeuralNetwork,RNN)。循環(huán)神經網絡(RNN)其特點是能夠編碼歷史信息進來,作為當前時刻決策的參考,在某種程度上具有了記憶信息的功能。RNN本質上就是循環(huán)調用一個計算模塊,每個時刻的輸入既包括新信息的輸入,也包括上一個時刻計算得到的結果,與此同時,每個時刻的輸出一部分作為當前輸入預測的結果,一部分拷貝流向下一步的計算。xhXt-1ht-1ht-1htxththt+1xt+1圖2-5RNN網絡如圖2-5所示,對于時刻t來說,循環(huán)神經網絡的輸入不僅包括當前的輸入向量tx,還包括上一次計算留下來的隱藏層向量t1h。但是循環(huán)神經網絡存在一個缺陷,就是梯度消失/爆炸問題[20],導致模型無法學習到長距離的依賴關系。長短時記憶網絡(LSTM)通過使用記憶單元(Memorycell)就很好的解決了上述問題。一個典型的LSTM網絡如圖2-6所示。圖2-6LSTM網絡結構

基于深度學習的文本校對方法研究


拼寫錯誤示例

【參考文獻】:
期刊論文
[1]中文文本語義錯誤偵測方法研究[J]. 張仰森,鄭佳.  計算機學報. 2017(04)
[2]面向政治新聞領域的中文文本校對方法研究[J]. 張仰森,唐安杰,張澤偉.  中文信息學報. 2014(06)
[3]基于知識庫的多層級中文文本查錯推理模型[J]. 吳林,張仰森.  計算機工程. 2012(20)
[4]基于《知網》義原搭配的中文文本語義級自動查錯研究[J]. 郭充,張仰森.  計算機工程與設計. 2010(17)
[5]基于規(guī)則與統(tǒng)計相結合的中文文本自動查錯模型與算法[J]. 張仰森,曹元大,俞士汶.  中文信息學報. 2006(04)
[6]中文文本自動校對技術的研究[J]. 駱衛(wèi)華,羅振聲,宮小瑾.  計算機研究與發(fā)展. 2004(01)
[7]中文文本校對技術的研究與實現(xiàn)[J]. 陳笑蓉,秦進,汪維家,陸汝占.  計算機科學. 2003(11)
[8]一種基于窗口技術的中文文本自動校對方法[J]. 汪維家,陳笑蓉,秦進,陸汝占.  貴州大學學報(自然科學版). 2003(02)
[9]中文文本自動校對的語義級查錯研究[J]. 駱衛(wèi)華,羅振聲,龔小謹.  計算機工程與應用. 2003(12)
[10]基于二元接續(xù)關系檢查的字詞級自動查錯方法[J]. 張仰森,丁冰青.  中文信息學報. 2001(03)

博士論文
[1]自然語言處理中序列標注模型的研究[D]. 計峰.復旦大學 2012

碩士論文
[1]中文文本校對關鍵技術研究與應用[D]. 吳淙.電子科技大學 2019
[2]字詞級中文文本自動校對的方法研究[D]. 卓利艷.鄭州大學 2018
[3]中文真詞錯誤自動校對方法研究[D]. 顧德之.江蘇科技大學 2017
[4]基于OCR的中文文本校對研究[D]. 郇政永.北方工業(yè)大學 2011



本文編號:3551763

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3551763.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶940d0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com