一種多語(yǔ)言、多編碼的識(shí)別方法
本文關(guān)鍵詞:一種多語(yǔ)言、多編碼的識(shí)別方法,,由筆耕文化傳播整理發(fā)布。
《南京大學(xué)》 2012年
一種多語(yǔ)言、多編碼的識(shí)別方法
李思舒
【摘要】:全球化的背景下,教育、經(jīng)濟(jì)、文化等活動(dòng)的開(kāi)展跨越了國(guó)界。一方面,互聯(lián)網(wǎng)的蓬勃發(fā)展推動(dòng)著全球化的進(jìn)程,另一方面,語(yǔ)言或許正在成為全球化最后的障礙。自動(dòng)化語(yǔ)言識(shí)別技術(shù)就在這種背景下不溫不火地向前發(fā)展。 筆者對(duì)國(guó)內(nèi)外文本自動(dòng)分類(lèi)、機(jī)器翻譯、多語(yǔ)言信息檢索等相關(guān)領(lǐng)域的研究進(jìn)行了詳細(xì)的調(diào)查研究。業(yè)界普遍贊同將語(yǔ)言識(shí)別問(wèn)題看作是“基于某些特征進(jìn)行文本分類(lèi)”這一問(wèn)題的一個(gè)特例。文本分類(lèi)相關(guān)研究自上世紀(jì)60年代貝葉斯概率分類(lèi)器問(wèn)世起至今,大致經(jīng)歷了文本自動(dòng)分類(lèi)、人工輔助分類(lèi)和機(jī)器學(xué)習(xí)三個(gè)階段。一些統(tǒng)計(jì)分類(lèi)算法,諸如KNN算法、決策樹(shù)、Rocchio算法、樸素貝葉斯算法、支持向量機(jī)、最大熵模型、遺傳算法、神經(jīng)網(wǎng)絡(luò)等等,均在目前文本自動(dòng)分類(lèi)的研究中表現(xiàn)出色。而作為機(jī)器學(xué)習(xí)重點(diǎn)研究領(lǐng)域之一的機(jī)器翻譯挑起了目前絕大多數(shù)多語(yǔ)言信息檢索系統(tǒng)核心模塊的重?fù)?dān)。機(jī)器翻譯借助辭典、語(yǔ)料庫(kù)、本體以及在此基礎(chǔ)之上構(gòu)建的谷歌在線翻譯、互聯(lián)網(wǎng)通行機(jī)器翻譯系統(tǒng)(Internet Passport MT System)和在線世界語(yǔ)機(jī)器翻譯系統(tǒng)(Online WorldLingo MT System)等免費(fèi)可得的工具,來(lái)實(shí)現(xiàn)查詢(xún)?cè)~和多種語(yǔ)言形式的待檢文檔之間的溝通。多語(yǔ)言自動(dòng)識(shí)別作為機(jī)器翻譯的前導(dǎo),是目前被普遍忽略卻又對(duì)多語(yǔ)言信息檢索結(jié)果有重要影響的研究領(lǐng)域。 對(duì)于語(yǔ)言自動(dòng)識(shí)別這一領(lǐng)域,其面臨的問(wèn)題與其說(shuō)屬于文本分類(lèi)研究領(lǐng)域,不如說(shuō)屬于自然語(yǔ)言處理的研究范疇。本文實(shí)現(xiàn)的多語(yǔ)言自動(dòng)識(shí)別程序,便是基于自然語(yǔ)言處理中著名的N-Gram理論之上。N-Gram是一種概率統(tǒng)計(jì)語(yǔ)言模型,又被稱(chēng)為一階馬爾可夫鏈。這一理論主要應(yīng)用于詞性標(biāo)注、音字轉(zhuǎn)換以及語(yǔ)音語(yǔ)言識(shí)別。尤其在語(yǔ)音識(shí)別領(lǐng)域,它被認(rèn)為是目前實(shí)現(xiàn)快速精確語(yǔ)音識(shí)別系統(tǒng)最成功的方法。本文使用它進(jìn)行以文本形式存在的語(yǔ)言自動(dòng)識(shí)別研究。研究對(duì)象為漢語(yǔ)、英語(yǔ)、法語(yǔ)、德語(yǔ)、俄語(yǔ)和日語(yǔ)韓語(yǔ)等互聯(lián)網(wǎng)使用最廣泛的七種語(yǔ)言。多語(yǔ)言識(shí)別實(shí)驗(yàn)分為訓(xùn)練多語(yǔ)種語(yǔ)料庫(kù)和語(yǔ)種識(shí)別兩個(gè)階段,訓(xùn)練和測(cè)試文本均來(lái)自于開(kāi)放式目錄工程(Open Directory Project)。識(shí)別實(shí)驗(yàn)結(jié)果證明,該程序?qū)τ⒄Z(yǔ)和德語(yǔ)長(zhǎng)短文本的平均識(shí)別正確率最高,均為100%,俄語(yǔ)其次,為94.44%,接下來(lái)依次是中文簡(jiǎn)體94.44%,中文繁體83.33%,法語(yǔ)83.33%,韓語(yǔ)16.67%,若排除漢語(yǔ)語(yǔ)詞特征影響,韓語(yǔ)可被準(zhǔn)確識(shí)別。 實(shí)驗(yàn)進(jìn)一步選取日文中常見(jiàn)的兩種編碼EUC-JP和SHIFT-JIS,依照上述訓(xùn)練和識(shí)別兩個(gè)步驟,對(duì)N-Gram理論應(yīng)用于編碼識(shí)別時(shí)的有效性進(jìn)行了探索性的驗(yàn)證,并取得了令人驚喜的結(jié)果。對(duì)EUC-JP和SHIFT-JIS編碼的正確識(shí)別比例分別為85%和95%,識(shí)別誤差率均低于0.0020。使用N-Gram理論進(jìn)行編碼識(shí)別是本文的一個(gè)亮點(diǎn)。 隨后,筆者引入全文檢索框架Lucene3.5,結(jié)合其核心代碼,介紹了多語(yǔ)言識(shí)別相關(guān)的索引模塊和搜索模塊的工作原理,分析Analyzer內(nèi)建類(lèi)。并依據(jù)索引、搜索模塊的相關(guān)接口對(duì)上述語(yǔ)言識(shí)別程序進(jìn)行了細(xì)節(jié)處理,將中文簡(jiǎn)體和中文繁體的識(shí)別結(jié)果統(tǒng)一返回為"Chinese"類(lèi)型,日語(yǔ)、韓語(yǔ)識(shí)別結(jié)果統(tǒng)一返回為“CJK”類(lèi)型。由此將多語(yǔ)言自動(dòng)識(shí)別程序擴(kuò)展為L(zhǎng)ucene3.5的多語(yǔ)言自動(dòng)識(shí)別模塊,分別在建立索引和用戶(hù)檢索兩個(gè)階段穿插多語(yǔ)言識(shí)別功能,以期協(xié)助Lucene實(shí)現(xiàn)跨語(yǔ)言檢索系統(tǒng)的開(kāi)發(fā),以及平滑用戶(hù)的跨語(yǔ)言檢索體驗(yàn)。這項(xiàng)工作目前尚未發(fā)現(xiàn)有研究者涉足。由于篇幅和時(shí)間的限制,僅在文中給出模塊及其接口設(shè)計(jì),實(shí)現(xiàn)基于Lucene的多語(yǔ)言檢索系統(tǒng)將是下一階段的研究任務(wù)。
【關(guān)鍵詞】:
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類(lèi)號(hào)】:H08
【目錄】:
下載全文 更多同類(lèi)文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買(mǎi)知網(wǎng)充值卡、在線充值、在線咨詢(xún))
CAJViewer閱讀器支持CAJ、PDF文件格式
【引證文獻(xiàn)】
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 魏曉萍;肝炎病毒蛋白領(lǐng)域本體的構(gòu)建及應(yīng)用研究[D];上海交通大學(xué);2013年
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前7條
1 周俊生;戴新宇;尹存燕;陳家駿;;自然語(yǔ)言信息抽取中的機(jī)器學(xué)習(xí)方法研究[J];計(jì)算機(jī)科學(xué);2005年03期
2 楊輝;張玥杰;張濤;;基于詞典的英漢雙向跨語(yǔ)言信息檢索方法[J];計(jì)算機(jī)工程;2009年16期
3 胡爭(zhēng)光;池天河;畢建濤;;基于Lucene和GML/SVG的地圖搜索引擎模型研究與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2008年04期
4 鄭敏;跨語(yǔ)言信息檢索的理論與實(shí)踐[J];情報(bào)理論與實(shí)踐;2003年03期
5 石洪波,王志海,黃厚寬;貝葉斯文本分類(lèi)方法研究[J];山西財(cái)經(jīng)大學(xué)學(xué)報(bào)(高等教育版);2002年S1期
6 馬鳳娟;吳鵬飛;;基于Lucene的中英文語(yǔ)言分析器的設(shè)計(jì)與實(shí)現(xiàn)[J];圖書(shū)情報(bào)工作;2009年15期
7 馮志偉;;關(guān)于信息時(shí)代的多語(yǔ)言問(wèn)題的一些思考[J];現(xiàn)代語(yǔ)文;2006年07期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 李培峰;基于語(yǔ)義的多文種信息處理平臺(tái)SMIPP的研究[D];蘇州大學(xué);2006年
2 劉東飛;智能雙語(yǔ)搜索方法及搜索引擎的研究[D];武漢理工大學(xué);2009年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 張東偉;中英文跨語(yǔ)言信息檢索模型研究[D];黑龍江大學(xué);2006年
2 張瑞;基于Lucene的中英文文檔全文搜索引擎[D];電子科技大學(xué);2008年
3 李帥;全文檢索在“2008奧運(yùn)多語(yǔ)言系統(tǒng)”中的應(yīng)用研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2009年
4 蘇綏綏;基于統(tǒng)計(jì)語(yǔ)言模型的跨語(yǔ)言信息檢索[D];大連理工大學(xué);2009年
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 郭宇鋒;黃敏;;跨語(yǔ)言信息檢索理論與應(yīng)用研究[J];圖書(shū)與情報(bào);2006年02期
2 張春菊;張雪英;朱少楠;徐希濤;;基于網(wǎng)絡(luò)爬蟲(chóng)的地名數(shù)據(jù)庫(kù)維護(hù)方法[J];地球信息科學(xué)學(xué)報(bào);2011年04期
3 王群,敬卿;論自然語(yǔ)言的優(yōu)勢(shì)與人工語(yǔ)言的消亡[J];大學(xué)圖書(shū)館學(xué)報(bào);2004年02期
4 凌穎;;跨語(yǔ)言跨專(zhuān)業(yè)網(wǎng)絡(luò)尋求解決方案[J];電子世界;2011年14期
5 王煜;;機(jī)器學(xué)習(xí)技術(shù)在文本分析中的應(yīng)用[J];華南金融電腦;2007年05期
6 張宇光;網(wǎng)絡(luò)檢索技術(shù)[J];佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年02期
7 裴艷霞;劉椿年;;面向手機(jī)3D動(dòng)畫(huà)自動(dòng)生成的中文命名實(shí)體識(shí)別[J];計(jì)算機(jī)工程與應(yīng)用;2012年13期
8 趙欣;鄧明星;;基于Web的跨語(yǔ)言信息檢索研究綜述[J];計(jì)算機(jī)與現(xiàn)代化;2009年02期
9 朱培焱;夏棟梁;;漢英跨語(yǔ)言信息檢索研究[J];計(jì)算機(jī)與現(xiàn)代化;2011年08期
10 葛彥強(qiáng);汪向征;栗青生;宋世楨;;基于Lucene的甲骨文全文檢索系統(tǒng)構(gòu)建[J];科技通報(bào);2012年04期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 姚文琳;漢語(yǔ)依存句法分析方法的研究與實(shí)現(xiàn)[D];中國(guó)海洋大學(xué);2009年
2 舒江波;面向中文信息處理的復(fù)句關(guān)系詞自動(dòng)標(biāo)識(shí)研究[D];華中師范大學(xué);2011年
3 劉健;面向信息檢索的文本信息組織關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2009年
4 茹昭;企業(yè)信息檢索中的對(duì)象檢索方法研究[D];北京郵電大學(xué);2008年
5 熊英;中文自然語(yǔ)言理解中基于條件隨機(jī)場(chǎng)理論的詞法分析研究[D];上海交通大學(xué);2009年
6 楊瀟;基于生成性概率模型的句法分析和多文檔自動(dòng)文摘研究[D];山東大學(xué);2009年
7 林建方;詞搭配抽取及在信息檢索中的應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2010年
8 周惠巍;模糊限制信息檢測(cè)中融合方法的研究[D];大連理工大學(xué);2012年
9 趙生輝;中國(guó)少數(shù)民族語(yǔ)言電子文件集成管理的體系架構(gòu)研究[D];武漢大學(xué);2012年
10 彭菲菲;網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的關(guān)鍵技術(shù)研究[D];中國(guó)礦業(yè)大學(xué)(北京);2012年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 寧健;面向生物醫(yī)學(xué)領(lǐng)域的跨語(yǔ)言信息檢索[D];大連理工大學(xué);2010年
2 安波;基于蛋白質(zhì)關(guān)系網(wǎng)絡(luò)的蛋白質(zhì)絡(luò)合物抽取研究[D];大連理工大學(xué);2010年
3 王玉丹;基于SVM的漢語(yǔ)依存句法分析研究[D];中國(guó)海洋大學(xué);2010年
4 鐘鴻鵬;基于時(shí)態(tài)信息的網(wǎng)頁(yè)排序系統(tǒng)的研究與實(shí)現(xiàn)[D];華南理工大學(xué);2010年
5 黃亮;知識(shí)產(chǎn)權(quán)預(yù)警機(jī)制在服務(wù)外包平臺(tái)中的應(yīng)用研究[D];南昌大學(xué);2010年
6 張宜浩;基于最大熵模型的中文實(shí)體關(guān)系自動(dòng)抽取研究[D];昆明理工大學(xué);2010年
7 白瑾;基于群體特性的搜索方法研究[D];武漢理工大學(xué);2011年
8 許婷;面向中文信息處理的復(fù)句特征分析器的研究與實(shí)現(xiàn)[D];華中師范大學(xué);2011年
9 塔娜;面向跨語(yǔ)言信息檢索的蒙漢語(yǔ)義詞典構(gòu)建[D];內(nèi)蒙古師范大學(xué);2011年
10 李勝藍(lán);基于ANFIS的心律失常輔助診斷模型研究[D];復(fù)旦大學(xué);2009年
【同被引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 房巍;李萬(wàn)龍;;基于本體的圖書(shū)智能檢索系統(tǒng)的建模與應(yīng)用研究[J];長(zhǎng)春理工大學(xué)學(xué)報(bào);2006年02期
2 孟凡榮;田恬;張磊;;一種改進(jìn)了的查詢(xún)擴(kuò)展算法[J];電腦知識(shí)與技術(shù);2009年12期
3 陸汝鈐,石純一,張松懋,毛希平,徐晉暉,楊萍,范路;面向Agent的常識(shí)知識(shí)庫(kù)[J];中國(guó)科學(xué)E輯:技術(shù)科學(xué);2000年05期
4 尹煥亮;孫四明;張峰;;基于本體的Web智能檢索研究[J];計(jì)算機(jī)工程;2009年23期
5 賈雪峰;王建新;齊建東;朱禮軍;;基于領(lǐng)域本體的智能檢索模型[J];計(jì)算機(jī)工程;2010年23期
6 王旭陽(yáng);蕭波;;基于本體和局部上下文分析的查詢(xún)擴(kuò)展方法[J];計(jì)算機(jī)工程;2012年07期
7 李麗亞;宋揚(yáng);薛中玉;李春梅;;基于Ontology的科學(xué)數(shù)據(jù)共享檢索體系解析[J];情報(bào)理論與實(shí)踐;2009年05期
8 許盛中;蔡樂(lè)才;;基于本體的圖書(shū)智能檢索系統(tǒng)的模型研究[J];四川理工學(xué)院學(xué)報(bào)(自然科學(xué)版);2009年05期
9 徐靜;孫坦;黃飛燕;;近兩年國(guó)外本體應(yīng)用研究進(jìn)展[J];圖書(shū)館建設(shè);2008年08期
10 徐國(guó)虎;許芳;;本體構(gòu)建工具的分析與比較[J];圖書(shū)情報(bào)工作;2006年01期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 李景;本體理論及在農(nóng)業(yè)文獻(xiàn)檢索系統(tǒng)中的應(yīng)用研究——以花卉學(xué)本體建模為例[D];中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2004年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 寧健;面向生物醫(yī)學(xué)領(lǐng)域的跨語(yǔ)言信息檢索[D];大連理工大學(xué);2010年
2 李海豐;基于Lucene的企業(yè)文檔搜索引擎研究與應(yīng)用[D];中南林業(yè)科技大學(xué);2009年
3 呂爽;基于敘詞表的醫(yī)學(xué)領(lǐng)域本體的構(gòu)建研究[D];吉林大學(xué);2011年
4 周劍烽;基于語(yǔ)義本體的信息檢索方法的研究[D];杭州電子科技大學(xué);2010年
5 李夢(mèng)莎;基于敘詞表的領(lǐng)域本體構(gòu)建方法研究[D];北京工商大學(xué);2010年
6 胡川洌;基于本體的教學(xué)資源語(yǔ)義檢索研究[D];重慶大學(xué);2011年
7 薛薈;林業(yè)應(yīng)用系統(tǒng)本體知識(shí)模型的構(gòu)建和應(yīng)用[D];中南林業(yè)科技大學(xué);2011年
8 李兆龍;基于領(lǐng)域本體的旅游信息檢索系統(tǒng)研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年
9 黃偉;本體構(gòu)建與語(yǔ)義集成研究[D];東南大學(xué);2005年
10 廖軍;基于領(lǐng)域本體的信息檢索研究[D];中南大學(xué);2007年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李源,何清,史忠植;基于概念語(yǔ)義空間的聯(lián)想檢索[J];北京科技大學(xué)學(xué)報(bào);2001年06期
2 李紅梅;丁振國(guó);周水生;周利華;;元搜索引擎結(jié)果合成算法[J];北京郵電大學(xué)學(xué)報(bào);2008年05期
3 陳玉忠,俞士汶;藏文信息處理技術(shù)的研究現(xiàn)狀與展望[J];中國(guó)藏學(xué);2003年04期
4 余旭;鄧躍進(jìn);胡圣武;張琦;;基于GML3.1的空間數(shù)據(jù)共享研究[J];地球信息科學(xué);2006年03期
5 陳建秋,鄧飛其,劉發(fā)貴;智能化搜索引擎分析與探討[J];廣州大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年03期
6 劉曉英;漢語(yǔ)自動(dòng)分詞研究的發(fā)展趨勢(shì)[J];高校圖書(shū)館工作;2005年04期
7 劉援朝;電腦的多文種支持技術(shù)與我國(guó)少數(shù)民族傳統(tǒng)文字問(wèn)題[J];貴州民族研究;2002年04期
8 張強(qiáng)弓,喻國(guó)寶,廖湖聲,隋樹(shù)林;一種元搜索引擎的查詢(xún)結(jié)果處理模型[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期
9 林鴻飛,戰(zhàn)學(xué)剛,姚天順;基于概念的文本結(jié)構(gòu)分析方法[J];計(jì)算機(jī)研究與發(fā)展;2000年03期
10 王繼成,蕭嶸,孫正興,張福炎;Web信息檢索研究進(jìn)展[J];計(jì)算機(jī)研究與發(fā)展;2001年02期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 何婷婷;語(yǔ)料庫(kù)研究[D];華中師范大學(xué);2003年
2 張俊林;基于語(yǔ)言模型的信息檢索系統(tǒng)研究[D];中國(guó)科學(xué)院研究生院(軟件研究所);2004年
3 周英華;位置相關(guān)Web搜索的檢索技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年
4 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D];吉林大學(xué);2007年
【相似文獻(xiàn)】
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 孫曉玲;林鴻飛;;統(tǒng)一語(yǔ)義視圖下的垂直領(lǐng)域跨語(yǔ)言檢索模型[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 焦世斗;大規(guī)模網(wǎng)頁(yè)中雙語(yǔ)命名實(shí)體挖掘的研究與實(shí)現(xiàn)[D];大連理工大學(xué);2009年
2 牛亞萌;跨語(yǔ)言信息檢索技術(shù)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2011年
3 艾厚軍;雙語(yǔ)語(yǔ)料獲取系統(tǒng)關(guān)鍵技術(shù)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2012年
相關(guān)機(jī)構(gòu)
>電子科技大學(xué)
>西安電子科技大學(xué)
>大連理工大學(xué)
相關(guān)作者
>牛亞萌 >焦世斗
>艾厚軍
《中國(guó)學(xué)術(shù)期刊(光盤(pán)版)》電子雜志社有限公司
同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司
地址:北京清華大學(xué) 84-48信箱 知識(shí)超市公司
京ICP證040441號(hào)
互聯(lián)網(wǎng)出版許可證 新出網(wǎng)證(京)字008號(hào)
出版物經(jīng)營(yíng)許可證 新出發(fā)京批字第直0595號(hào)
訂購(gòu)熱線:400-819-9993 010-62982499
服務(wù)熱線:010-62985026 010-62791813
在線咨詢(xún):
傳真:010-62780361
京公網(wǎng)安備11010802020475號(hào)
本文關(guān)鍵詞:一種多語(yǔ)言、多編碼的識(shí)別方法,由筆耕文化傳播整理發(fā)布。
本文編號(hào):107140
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/107140.html