基于局部上下文特征的組合的中文真詞錯(cuò)誤自動(dòng)校對(duì)研究
本文關(guān)鍵詞:基于局部上下文特征的組合的中文真詞錯(cuò)誤自動(dòng)校對(duì)研究
更多相關(guān)文章: 真詞錯(cuò)誤 混淆集 上下文特征 NGram模型
【摘要】:中文的真詞錯(cuò)誤類似于英文的真詞錯(cuò)誤,指一個(gè)中文詞錯(cuò)成另一個(gè)詞典中的詞。提出一種基于混淆集的真詞錯(cuò)誤發(fā)現(xiàn)方法,通過(guò)對(duì)目標(biāo)詞的局部特征的提取,形成局部左鄰接二元、右鄰接二元及3個(gè)三元特征,然后通過(guò)和目標(biāo)詞對(duì)應(yīng)的混淆集中的混淆詞來(lái)估計(jì)二元概率和三元概率。最后提出一種多特征融合的模型,然后利用規(guī)則來(lái)判斷中文文本中的真詞錯(cuò)誤。將查錯(cuò)結(jié)果分為標(biāo)記錯(cuò)誤和更改錯(cuò)誤兩種類型,采用18組混淆集,構(gòu)造2萬(wàn)行的測(cè)試語(yǔ)料進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)表明,該方法能有效地發(fā)現(xiàn)中文文本中的真詞錯(cuò)誤,并且能給出真詞錯(cuò)誤的修改建議。該方法是一種集自動(dòng)查錯(cuò)和自動(dòng)糾錯(cuò)于一體的中文文本自動(dòng)校對(duì)方法。
【作者單位】: 江蘇科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院;中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息重點(diǎn)實(shí)驗(yàn)室;
【關(guān)鍵詞】: 真詞錯(cuò)誤 混淆集 上下文特征 NGram模型
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(91224006,61173063,61035004,61203284,30973713) 國(guó)家社科基金重點(diǎn)項(xiàng)目(10AYY003)資助
【分類號(hào)】:TP391.1
【正文快照】: 到稿日期:2015-08-27返修日期:2015-12-07本文受國(guó)家自然科學(xué)基金項(xiàng)目(91224006,61173063,61035004,61203284,30973713),國(guó)家社科基金重點(diǎn)項(xiàng)目(10AYY003)資助。1引言英文拼寫(xiě)錯(cuò)誤主要分為兩種,一種是“非詞錯(cuò)誤”,另外一種是“真詞錯(cuò)誤”[1]。英文的非詞錯(cuò)誤是指一個(gè)英文單詞
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 蘭杰;在西文狀態(tài)下閱讀中文文本文件[J];電腦知識(shí);1997年02期
2 駱衛(wèi)華,羅振聲,宮小瑾;中文文本自動(dòng)校對(duì)技術(shù)的研究[J];計(jì)算機(jī)研究與發(fā)展;2004年01期
3 顧益軍,樊孝忠,于江德,李良富;受限領(lǐng)域中文文本主題標(biāo)引系統(tǒng)研究[J];計(jì)算機(jī)應(yīng)用;2004年01期
4 李長(zhǎng)榮,闞戈;中文文本2-分類模型在上證指數(shù)趨勢(shì)分析中的應(yīng)用研究[J];齊齊哈爾大學(xué)學(xué)報(bào);2005年02期
5 許細(xì)清;林世平;;面向中文文本的觀點(diǎn)檢索技術(shù)研究[J];福州大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年05期
6 薛麗敏;李殿偉;肖斌;;中文文本情感傾向性五元模型研究[J];通信技術(shù);2011年07期
7 劉開(kāi)瑛,薛翠芳,鄭家恒,周曉強(qiáng);中文文本中抽取特征信息的區(qū)域與技術(shù)[J];中文信息學(xué)報(bào);1998年02期
8 劉晶茹,王開(kāi)鑄;中文文本自動(dòng)校對(duì)技術(shù)研究及系統(tǒng)組成[J];電腦學(xué)習(xí);1999年06期
9 劉來(lái)e,
本文編號(hào):594482
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/594482.html