天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中文文本自動(dòng)校對(duì)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-12-07 04:24

  本文關(guān)鍵詞:中文文本自動(dòng)校對(duì)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)


  更多相關(guān)文章: 文本審校 命名實(shí)體識(shí)別 命名實(shí)體鏈接 字典樹(shù) Spring MVC


【摘要】:互聯(lián)網(wǎng)數(shù)據(jù)快速增長(zhǎng)給人們生活帶來(lái)了豐富的信息,但同時(shí)也造成了互聯(lián)網(wǎng)信息質(zhì)量的下降。新聞出版及廣播電視等行業(yè)對(duì)文本質(zhì)量有較高的要求,而這些行業(yè)的審校工作目前仍以人工審校為主。以中文文本為例,在中文詞語(yǔ)、漢語(yǔ)拼音、數(shù)字號(hào)碼、標(biāo)點(diǎn)符號(hào)等方面均存在或多或少的問(wèn)題。隨著因特網(wǎng)上中文文本的快速增長(zhǎng),相關(guān)錯(cuò)誤在不斷累積,這極大降低了文本的利用價(jià)值,同時(shí)加重了人工審校的負(fù)擔(dān)。此外,中文載體的多樣性也使得人工審校愈發(fā)力不從心。然而現(xiàn)有的很多文本審校軟件都很難處理不同形式、不同格式、不同載體的審校問(wèn)題,因此,針對(duì)中文文本研發(fā)自動(dòng)審校的方法與系統(tǒng)具有重要的實(shí)際意義;谝陨媳尘,本文針對(duì)中文文本常見(jiàn)的錯(cuò)誤構(gòu)建了一個(gè)自動(dòng)校對(duì)系統(tǒng),并從以下幾個(gè)方面展開(kāi)了工作:1.對(duì)中文文本自動(dòng)校對(duì)系統(tǒng)進(jìn)行系統(tǒng)需求分析,詳細(xì)分析系統(tǒng)的用戶需求,業(yè)務(wù)需求以及功能需求。并采用MVC框架對(duì)審校系統(tǒng)進(jìn)行設(shè)計(jì),具體分析并設(shè)計(jì)了每一層所包含的功能,同時(shí)分析和設(shè)計(jì)了審校服務(wù)的具體功能,具體包括詞語(yǔ)審校、標(biāo)點(diǎn)符號(hào)審校、數(shù)字審校和拼音審校。2.深入研究了詞語(yǔ)審校、標(biāo)點(diǎn)符號(hào)審校、數(shù)字審校以及拼音審校的實(shí)現(xiàn)方法,采用條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)結(jié)合分詞的技術(shù)識(shí)別文本中的實(shí)體,并采用實(shí)體鏈接的技術(shù)來(lái)實(shí)現(xiàn)詞語(yǔ)審校中的實(shí)體名稱(chēng)審校,而詞語(yǔ)審校中的常用詞語(yǔ)審校和敏感詞審校則采用構(gòu)建字典樹(shù)的方式來(lái)實(shí)現(xiàn);針對(duì)標(biāo)點(diǎn)符號(hào)和數(shù)字審校主要采用的是構(gòu)建規(guī)則庫(kù)來(lái)實(shí)現(xiàn);對(duì)于拼音審校,本文先利用拼音獲取工具包獲取帶有標(biāo)注拼音詞語(yǔ)的正確拼音,然后再與原文中的標(biāo)注拼音進(jìn)行比較,若二者不同則對(duì)原文中的標(biāo)注拼音進(jìn)行校對(duì)。3.實(shí)現(xiàn)B/S模式的中文文本自動(dòng)校對(duì)系統(tǒng)。本文采用的Spring MVC框架來(lái)實(shí)現(xiàn)該系統(tǒng)的Web框架,包括Spring MVC框架的配置,前臺(tái)JSP的編寫(xiě)以及控制器程序的編寫(xiě)等。本文所構(gòu)建的中文文本自動(dòng)校對(duì)系統(tǒng)可以校對(duì)出詞語(yǔ)、標(biāo)點(diǎn)符號(hào)、數(shù)字和拼音等中文文本中常見(jiàn)的錯(cuò)誤。而且本文所構(gòu)建的系統(tǒng)支持在線和離線兩種校對(duì)模式,用戶既可以將短文本輸入到網(wǎng)頁(yè)編輯框內(nèi)校對(duì),也可以上傳Word文件到服務(wù)器進(jìn)行校對(duì)。
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP391.1

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 尹存燕;黃書(shū)劍;戴新宇;陳家駿;;中英命名實(shí)體識(shí)別及對(duì)齊中的中文分詞優(yōu)化[J];電子學(xué)報(bào);2015年08期

2 張盛;李芳;;基于迭代兩步CRF模型的評(píng)價(jià)對(duì)象與極性抽取研究[J];中文信息學(xué)報(bào);2015年01期

3 王斯宇;邵波;;基于CSSCI的文本自動(dòng)校對(duì)系統(tǒng)的構(gòu)建與實(shí)現(xiàn)[J];高校圖書(shū)館工作;2014年06期

4 張仰森;唐安杰;張澤偉;;面向政治新聞?lì)I(lǐng)域的中文文本校對(duì)方法研究[J];中文信息學(xué)報(bào);2014年06期

5 栗偉;趙大哲;李博;彭新茗;劉積仁;;CRF與規(guī)則相結(jié)合的醫(yī)學(xué)病歷實(shí)體識(shí)別[J];計(jì)算機(jī)應(yīng)用研究;2015年04期

6 來(lái)斯惟;徐立恒;陳玉博;劉康;趙軍;;基于表示學(xué)習(xí)的中文分詞算法探索[J];中文信息學(xué)報(bào);2013年05期

7 吳棟,滕育平;中文信息檢索引擎中的分詞與檢索技術(shù)[J];計(jì)算機(jī)應(yīng)用;2004年07期

8 駱衛(wèi)華,羅振聲,宮小瑾;中文文本自動(dòng)校對(duì)技術(shù)的研究[J];計(jì)算機(jī)研究與發(fā)展;2004年01期

9 陳笑蓉;秦進(jìn);汪維家;陸汝占;;中文文本校對(duì)技術(shù)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)科學(xué);2003年11期

10 駱衛(wèi)華,羅振聲,龔小謹(jǐn);中文文本自動(dòng)校對(duì)的語(yǔ)義級(jí)查錯(cuò)研究[J];計(jì)算機(jī)工程與應(yīng)用;2003年12期

,

本文編號(hào):1261149

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1261149.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bafee***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com