一種基于判別式重排序的拼寫校正方法
本文選題:拼寫校正 切入點(diǎn):判別模型 出處:《軟件學(xué)報(bào)》2008年03期 論文類型:期刊論文
【摘要】:提出一種基于判別模型的拼寫校正方法.它針對(duì)已有拼寫校正系統(tǒng)Aspell的輸出進(jìn)行重排序,使用判別模型Ranking SVM來改進(jìn)其性能.將現(xiàn)今較為成熟的拼寫校正技術(shù)(包括編輯距離、基于字母的n元語法、發(fā)音相似度和噪音信道模型)以特征的形式整合到該模型中來,顯著地提高了基準(zhǔn)系統(tǒng)Aspell的初始排序質(zhì)量,同時(shí)性能也超過了一些商用系統(tǒng)(如Microsoft Word 2003)的拼寫校正模塊.此外,還提出了一種在搜索引擎查詢?nèi)罩炬溨凶詣?dòng)抽取拼寫校正訓(xùn)練對(duì)的方法.基于這種方法訓(xùn)練的模型獲得了基于人工標(biāo)注數(shù)據(jù)所得結(jié)果相近的性能,它們分別將基準(zhǔn)系統(tǒng)的錯(cuò)誤率降低了32.2%和32.6%.
[Abstract]:A new spelling correction method based on discriminant model is proposed, which reorders the output of the existing spelling correction system (Aspell), and uses the discriminant model Ranking SVM to improve its performance. The alphabetical n-ary syntax, pronunciation similarity and noise channel model are integrated into the model in the form of features, which significantly improves the initial sorting quality of the benchmark system Aspell. It also outperforms the spelling correction modules of some commercial systems, such as Microsoft Word 2003. A method of automatically extracting spell correction training pairs in search engine query log chain is also proposed. The model based on this method can obtain similar results based on manual tagged data. They reduced the error rate of the benchmark system by 32.2% and 32. 6 respectively.
【作者單位】: 天津大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 天津大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 香港科技大學(xué)計(jì)算機(jī)系 微軟亞洲研究院
【基金】:Supported by the National Natural Science Foundation of China under Grant No.60603027 (國家自然科學(xué)基金) the Science-Technology Development Project of Tianjin of China under Grant No.04310941R (天津市科技發(fā)展計(jì)劃) the Applied Basic Research Project of Tianjin of China under Grant No.05YFJMJC11700 (天津市應(yīng)用基礎(chǔ)研究計(jì)劃)
【分類號(hào)】:TP301.6
【共引文獻(xiàn)】
相關(guān)期刊論文 前2條
1 張仰森;俞士汶;;文本自動(dòng)校對(duì)技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2006年06期
2 張仰森;曹元大;俞士汶;;基于規(guī)則與統(tǒng)計(jì)相結(jié)合的中文文本自動(dòng)查錯(cuò)模型與算法[J];中文信息學(xué)報(bào);2006年04期
相關(guān)會(huì)議論文 前1條
1 Zhang Yangsen~(1,2) Yu Shiwen~1 Huang Gaijuan~2 1.Institute of Computational Linguistics,Peking University,Beijing,100871 2.Beijing Information Technology Institute,Beijing,100101;The Error-correcting Suggestion Candidates Producing Algorithm and Its Realization[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 9)[C];2005年
相關(guān)碩士學(xué)位論文 前1條
1 潘阿榮;基于Windows Mobile的智能手機(jī)漢字輸入法研究[D];哈爾濱工業(yè)大學(xué);2006年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張淼;韓光;鐘映春;韋麗興;;基于脈沖耦合神經(jīng)網(wǎng)絡(luò)的光驅(qū)物鏡導(dǎo)線品質(zhì)檢驗(yàn)方法的研究[J];儀器儀表學(xué)報(bào);2011年07期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相關(guān)會(huì)議論文 前2條
1 李思;張浩;徐蔚然;郭軍;;基于合并模型的中文文本情感分析[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
2 白旭;曾勝男;杜豫川;孫立軍;;上海市高架交通監(jiān)控系統(tǒng)[A];第一屆中國智能交通年會(huì)論文集[C];2005年
相關(guān)博士學(xué)位論文 前4條
1 何國經(jīng);紅外成像系統(tǒng)性能評(píng)估方法研究[D];西安電子科技大學(xué);2008年
2 李娜;面向人機(jī)交互的單目視頻三維人體姿態(tài)估計(jì)研究[D];浙江大學(xué);2008年
3 萬懷宇;社會(huì)網(wǎng)絡(luò)中基于鏈接的分類問題研究[D];北京交通大學(xué);2012年
4 何川;分布式信息檢索中的若干重要問題研究[D];北京郵電大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 張揚(yáng);拼寫校正技術(shù)在信息檢索和文本處理領(lǐng)域的應(yīng)用[D];天津大學(xué);2007年
2 蔣琳;稀疏雙邊判別模型及其在圖像分類中的應(yīng)用[D];南京航空航天大學(xué);2010年
3 向宇;基于語義上下文建模的圖像語義自動(dòng)標(biāo)注研究[D];復(fù)旦大學(xué);2010年
4 鄭俠;福建省地質(zhì)災(zāi)害調(diào)查數(shù)據(jù)庫的數(shù)據(jù)挖掘與滑坡早期預(yù)警模型實(shí)現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2010年
5 李愛華;軟件風(fēng)險(xiǎn)管理模型及實(shí)證研究[D];湖南工業(yè)大學(xué);2009年
6 李浩;基于數(shù)字圖像處理技術(shù)的烤煙煙葉自動(dòng)分組模型研究[D];華中農(nóng)業(yè)大學(xué);2007年
7 李志;牛胴體眼肌切面分級(jí)信息檢測(cè)自動(dòng)化研究[D];吉林大學(xué);2008年
8 曾恒;基于視頻檢測(cè)的城市道路交通擁擠狀態(tài)判別方法研究[D];重慶大學(xué);2010年
9 馬俊雷;基于CT圖像的周圍型非小細(xì)胞肺癌分型診斷模型研究[D];哈爾濱理工大學(xué);2010年
10 周波;面向問答系統(tǒng)的實(shí)體識(shí)別與分類研究[D];沈陽航空工業(yè)學(xué)院;2009年
,本文編號(hào):1624784
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1624784.html