基于Web的無指導譯文消歧詞模型與N-gram模型及對比研究
本文關鍵詞: 計算語言學 無指導譯文消歧 詞模型 N-gram模型 Page Count 雙語詞匯Web相關度 搜索引擎 對比研究 模型方法 上下文 出處:《電子與信息學報》2009年12期 論文類型:期刊論文
【摘要】:該文提出了基于Web的無指導譯文消歧的詞模型及N-gram模型方法,并在盡可能相同的條件下進行了比較。兩種方法均利用搜索引擎統(tǒng)計不同搜索片段在Web上的Page Count作為主要消歧信息。詞模型定義了漢語詞匯與英語詞匯之間的雙語詞匯Web相關度,根據漢語上下文詞匯與英語譯文之間的相關度進行消歧;N-gram模型首先假設不同語義下的多義詞N-gram序列行為模式不同,從而可對多義詞不同語義類下詞匯在實例中的N-gram序列進行統(tǒng)計與分析以進行消歧。兩個模型的性能均超過了在國際語義評測SemEval2007的task#5上可比較的最好無指導系統(tǒng)。對這兩個模型進行試驗對比可發(fā)現N-gram模型性能優(yōu)于詞模型,也表明組合兩類模型的結果有進一步提升消歧性能的潛力。
[Abstract]:In this paper, a word model and N-gram model of undirected translation disambiguation based on Web are proposed. Under the same conditions as possible, the two methods use the search engine to calculate the Page Count of different search segments on Web as the main disambiguation information. The word model defines the double between Chinese and English words. Web relevance, The disambiguation N-gram model based on the correlation between the Chinese context vocabulary and the English translation assumes that the N-gram sequences of polysemous words have different behavior patterns under different semantics. The N-gram sequences of polysemous words in different semantic categories can be statistically analyzed and analyzed for disambiguation. The performance of the two models is better than the best undirected system which can be compared on the task#5 of international semantic evaluation SemEval2007. The performance of N-gram model is better than that of word model. It is also shown that the results of the combined two kinds of models have the potential to further improve the disambiguation performance.
【作者單位】: 北京大學計算語言學研究所;哈爾濱工業(yè)大學計算機科學與技術學院;
【基金】:國家重點基礎研究發(fā)展計劃(2004CB318102)資助課題
【分類號】:TP391.1
【相似文獻】
相關期刊論文 前10條
1 H.E.Bruderer ,徐志敏;機器和機器輔助翻譯的目前情況[J];機器人;1980年03期
2 錢鋒;計算語言學[J];自然雜志;1980年04期
3 姜一平;美國電腦翻譯發(fā)展情況[J];機器人;1985年02期
4 ;簡訊[J];中文信息學報;1987年03期
5 ;編者的話[J];中文信息學報;1988年03期
6 ;首屆全國計算語言學學術會議在京召開[J];中文信息學報;1988年04期
7 汪勁;耿立大;;機器翻譯及其基本概念和常用方法[J];情報科學;1988年02期
8 張效赤;;淺議“中圖法”中語言學的列類[J];四川圖書館學報;1988年04期
9 吳平;;美國喬治城大學第39屆語言學圓桌會議[J];當代語言學;1988年02期
10 ;1989年自然語言處理學術研討會紀要[J];中文信息學報;1989年03期
相關會議論文 前10條
1 靳光瑾;;適用于對外漢語教學與計算機理解的存現句結構及語義特征分析[A];第六屆國際漢語教學討論會論文選[C];1999年
2 龔彥如;李竹;馮志偉;;英——漢計算語言學術語數據庫[A];語言文字應用研究論文集(Ⅰ)[C];1995年
3 ;前言[A];自然語言理解與機器翻譯——全國第六屆計算語言學聯(lián)合學術會議論文集[C];2001年
4 孫茂松;;漢語自動分詞研究的若干最新進展——清華大學相關工作簡介[A];輝煌二十年——中國中文信息學會二十周年學術會議論文集[C];2001年
5 俞士汶;;計算語言學的應用研究與基礎研究[A];輝煌二十年——中國中文信息學會二十周年學術會議論文集[C];2001年
6 亢世勇;劉海潤;;基于數據庫的現代漢語詞類優(yōu)勢語法功能統(tǒng)計研究[A];輝煌二十年——中國中文信息學會二十周年學術會議論文集[C];2001年
7 易綿竹;薛恩奎;李紹哲;南振興;;一種與UNL接口的機器翻譯系統(tǒng)ETAP-3概要[A];機器翻譯研究進展——2002年全國機器翻譯研討會論文集[C];2002年
8 ;SWCL-2002組織機構[A];第一屆學生計算語言學研討會論文集[C];2002年
9 劉群;;編輯說明[A];第一屆學生計算語言學研討會論文集[C];2002年
10 趙巖;王曉龍;關毅;;計算語言學領域程序編制的工程問題探討[A];第一屆學生計算語言學研討會論文集[C];2002年
相關重要報紙文章 前10條
1 本報記者 宋乃裕;英語專家的數學情結[N];廣東科技報;2002年
2 新文;語句級手機漢字輸入法問世[N];中國計算機報;2004年
3 劉培香 好誠;新一代手機漢字輸入法問世[N];科學時報;2004年
4 全國政協(xié)委員 石銳;建立健全國家民族語言數據庫[N];人民政協(xié)報;2006年
5 俞士汶;語言信息處理的基石[N];計算機世界;2007年
6 譚嘯;機器翻譯應用平民化[N];計算機世界;2007年
7 金利;東北大學自然語言處理實驗室形成特色[N];科技日報;2007年
8 宗河;培養(yǎng)具有創(chuàng)新意識的語言學人才[N];中國教育報;2007年
9 執(zhí)筆 江荻;人文社會科學前沿掃描[N];中國社會科學院院報;2008年
10 王德春;世界上最大的一套語言學百科全書中國落地[N];文匯報;2008年
相關博士學位論文 前5條
1 方向紅;基于內涵邏輯的現代漢語連接詞及關聯(lián)句式語義研究[D];上海師范大學;2004年
2 劉根輝;計算語用學基礎理論及其應用研究[D];華中科技大學;2005年
3 賀俊杰;基于組合模式的語法檢查[D];廣東外語外貿大學;2006年
4 趙章界;短語結構制導的范疇表達式演算[D];中國科學院研究生院(計算技術研究所);2006年
5 趙春利;形名組合的靜態(tài)與動態(tài)研究[D];暨南大學;2006年
相關碩士學位論文 前10條
1 岳炳詞;面向語言學研究的大規(guī)模漢語生語料庫檢索工具CCRLT[D];北京工業(yè)大學;2001年
2 田阡子;現代漢語被字句的詞匯語法理論研究[D];黑龍江大學;2001年
3 楊泉;現代漢語“把字句”“把”前成分的詞匯語法理論分析[D];黑龍江大學;2002年
4 馬曉梅;經濟實力與外語教學市場的語種競爭[D];西北工業(yè)大學;2001年
5 王國琴;基于語義檢索的概念空間研究[D];南京理工大學;2004年
6 吳光遠;依存語言模型在信息檢索中的應用研究[D];天津大學;2004年
7 林鵬;漢語疑問句理解系統(tǒng)研究與實現——虛擬信息顧問系統(tǒng)之問題理解子系統(tǒng)[D];重慶大學;2004年
8 杜世平;隱馬爾可夫模型的原理及其應用[D];四川大學;2004年
9 沈小波;西方翻譯家和中國翻譯家之比拼:用計算語言學的方法比較《紅樓夢》的兩個譯本[D];上海外國語大學;2004年
10 方鷙飛;中文文本體裁的自動分類機制[D];大連理工大學;2005年
,本文編號:1542119
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1542119.html