基于局部上下文特征的組合的中文真詞錯誤自動校對研究

發(fā)布時間：2017-07-30 13:34

本文關(guān)鍵詞：基于局部上下文特征的組合的中文真詞錯誤自動校對研究

更多相關(guān)文章： 真詞錯誤 混淆集 上下文特征 NGram模型

【摘要】：中文的真詞錯誤類似于英文的真詞錯誤,指一個中文詞錯成另一個詞典中的詞。提出一種基于混淆集的真詞錯誤發(fā)現(xiàn)方法,通過對目標(biāo)詞的局部特征的提取,形成局部左鄰接二元、右鄰接二元及3個三元特征,然后通過和目標(biāo)詞對應(yīng)的混淆集中的混淆詞來估計二元概率和三元概率。最后提出一種多特征融合的模型,然后利用規(guī)則來判斷中文文本中的真詞錯誤。將查錯結(jié)果分為標(biāo)記錯誤和更改錯誤兩種類型,采用18組混淆集,構(gòu)造2萬行的測試語料進(jìn)行實驗。實驗表明,該方法能有效地發(fā)現(xiàn)中文文本中的真詞錯誤,并且能給出真詞錯誤的修改建議。該方法是一種集自動查錯和自動糾錯于一體的中文文本自動校對方法。
【作者單位】：江蘇科技大學(xué)計算機(jī)科學(xué)與工程學(xué)院;中國科學(xué)院計算技術(shù)研究所智能信息重點實驗室;
【關(guān)鍵詞】： 真詞錯誤 混淆集 上下文特征 NGram模型
【基金】：國家自然科學(xué)基金項目(91224006,61173063,61035004,61203284,30973713) 國家社科基金重點項目(10AYY003)資助
【分類號】：TP391.1
【正文快照】： 到稿日期:2015-08-27返修日期:2015-12-07本文受國家自然科學(xué)基金項目(91224006,61173063,61035004,61203284,30973713),國家社科基金重點項目(10AYY003)資助。1引言英文拼寫錯誤主要分為兩種,一種是“非詞錯誤”,另外一種是“真詞錯誤”[1]。英文的非詞錯誤是指一個英文單詞

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 蘭杰;在西文狀態(tài)下閱讀中文文本文件[J];電腦知識;1997年02期

2 駱衛(wèi)華,羅振聲,宮小瑾;中文文本自動校對技術(shù)的研究[J];計算機(jī)研究與發(fā)展;2004年01期

3 顧益軍,樊孝忠,于江德,李良富;受限領(lǐng)域中文文本主題標(biāo)引系統(tǒng)研究[J];計算機(jī)應(yīng)用;2004年01期

4 李長榮,闞戈;中文文本2-分類模型在上證指數(shù)趨勢分析中的應(yīng)用研究[J];齊齊哈爾大學(xué)學(xué)報;2005年02期

5 許細(xì)清;林世平;;面向中文文本的觀點檢索技術(shù)研究[J];福州大學(xué)學(xué)報(自然科學(xué)版);2010年05期

6 薛麗敏;李殿偉;肖斌;;中文文本情感傾向性五元模型研究[J];通信技術(shù);2011年07期

7 劉開瑛,薛翠芳,鄭家恒,周曉強(qiáng);中文文本中抽取特征信息的區(qū)域與技術(shù)[J];中文信息學(xué)報;1998年02期

8 劉晶茹,王開鑄;中文文本自動校對技術(shù)研究及系統(tǒng)組成[J];電腦學(xué)習(xí);1999年06期

9 劉來e，

本文編號：594482

資料下載