基于Web的藏漢雙語可比語料庫構(gòu)建技術(shù)研究
本文關(guān)鍵詞:基于Web的藏漢雙語可比語料庫構(gòu)建技術(shù)研究
更多相關(guān)文章: 可比語料庫 關(guān)鍵詞提取 命名實(shí)體 歧義消解 雙語文檔相似度計(jì)算
【摘要】:隨著統(tǒng)計(jì)方法在自然語言處理中的廣泛應(yīng)用和快速發(fā)展,語料庫作為基礎(chǔ)資源,地位越來越重要。特別是雙語語料庫,在機(jī)器翻譯、跨語言信息檢索等領(lǐng)域起著重要作用。然而,平行語料庫資源有限且不易獲取,特別是在少數(shù)民族語言等弱勢語言上這種情況更為嚴(yán)重,因此,可比語料庫近些年逐漸引起研究人員的重視?杀日Z料庫可以直接用于挖掘翻譯等價(jià)對,如命名實(shí)體互譯對、新詞術(shù)語互譯對等,也可以為構(gòu)建平行語料庫打下基礎(chǔ)。早期可比語料挖掘主要基于文本內(nèi)容特征,準(zhǔn)確率和效率都不高,現(xiàn)在研究通常基于跨語言信息檢索,也有學(xué)者利用維基百科資源進(jìn)行可比語料挖掘。考慮到少數(shù)民族語言可使用資源有限,機(jī)器翻譯系統(tǒng)不成熟等情況,本文借鑒了跨語言信息檢索的思想,利用雙語詞典和互聯(lián)網(wǎng)上開放的搜索引擎,構(gòu)建藏漢雙語可比語料庫。本文首先從西藏新聞網(wǎng)等主要藏語新聞網(wǎng)站,采集藏語新聞?wù)Z料作為源文檔集,然后開展了以下幾方面工作:一,關(guān)鍵詞提取,在傳統(tǒng)的TF-IDF算法基礎(chǔ)上,融合了首現(xiàn)位置、詞長、詞性等特征信息,提高了關(guān)鍵詞提取質(zhì)量。二,關(guān)鍵詞翻譯及消歧。由藏語源文檔關(guān)鍵詞得到漢語文檔關(guān)鍵詞,還需經(jīng)過藏漢雙語詞典翻譯,由于藏漢詞典中的一個(gè)藏語詞,通常對應(yīng)若干漢語義項(xiàng),本文采用了基于全局共現(xiàn)的方法進(jìn)行歧義消解,減少了查詢詞義項(xiàng)組合,提高了可比語料庫構(gòu)建效率。三,引入部分命名實(shí)體,和前面提取的關(guān)鍵詞共同作為查詢詞。從文檔的標(biāo)題和首段中提取人名、地名、時(shí)間詞、數(shù)量詞等部分命名實(shí)體,這些命名實(shí)體通常含有新聞報(bào)道事件的時(shí)間、地點(diǎn)、人物等信息。命名實(shí)體的引入,提高了搜索返回結(jié)果中可比語料的比例。四,利用雙語文檔相似度計(jì)算方法對候選可比語料進(jìn)行過濾。在得到漢語文檔查詢詞后,通過網(wǎng)絡(luò)搜索引擎進(jìn)行搜索,將排位在前的部分搜索結(jié)果作為候選可比語料。選擇dice系數(shù)作為判定系數(shù),通過實(shí)驗(yàn)確定閾值大小。本文共收集藏語源語料1120余篇,獲得漢語可比語料4576篇,78%的藏語源語料獲得了對應(yīng)的可比語料。實(shí)驗(yàn)表明,采用本文方法構(gòu)建的可比語料庫,領(lǐng)域全,時(shí)效性好,可擴(kuò)展性強(qiáng),適合構(gòu)建大規(guī)模的可比語料庫。本文方法還可應(yīng)用到其它少數(shù)民族語言的民漢雙語可比語料庫構(gòu)建中。
【關(guān)鍵詞】:可比語料庫 關(guān)鍵詞提取 命名實(shí)體 歧義消解 雙語文檔相似度計(jì)算
【學(xué)位授予單位】:中央民族大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要3-5
- Abstract5-14
- 第一章 緒論14-25
- 1.1 可比語料庫研究的緣起14-17
- 1.1.1 語料庫14-15
- 1.1.2 語語料庫15-17
- 1.2 可比語料庫的應(yīng)用范疇17-19
- 1.2.1 翻譯等價(jià)對挖掘18
- 1.2.2 平行語料挖掘18-19
- 1.2.3 其他跨語言信息處理19
- 1.3 可比語料庫的相關(guān)研究現(xiàn)狀19-22
- 1.3.1 基于內(nèi)容特征的構(gòu)建方法20
- 1.3.2 基于跨語言信息檢索的構(gòu)建方法20-21
- 1.3.3 基于特定網(wǎng)頁資源的構(gòu)建方法21-22
- 1.4 研究內(nèi)容22-24
- 1.5 論文基本結(jié)構(gòu)24-25
- 第二章 可比語料庫構(gòu)建相關(guān)預(yù)處理工作25-29
- 2.1 Web挖掘與網(wǎng)頁正文抽取25-27
- 2.2 藏文分詞27-28
- 2.3 本章小結(jié)28-29
- 第三章 候選可比語料的獲取29-45
- 3.1 關(guān)鍵詞提取29-36
- 3.1.1 相關(guān)研究方法30
- 3.1.2 TF-IDF算法提取關(guān)鍵詞30-32
- 3.1.3 引入多特征信息32-34
- 3.1.4 實(shí)驗(yàn)步驟與結(jié)果分析34-36
- 3.2 關(guān)鍵詞翻譯及歧義消解36-39
- 3.2.1 歧義消解常用方法36-37
- 3.2.2 共現(xiàn)消歧37-39
- 3.2.3 實(shí)驗(yàn)結(jié)果與分析39
- 3.3 未登錄詞處理39-43
- 3.3.1 未登錄詞40
- 3.3.2 命名實(shí)體引入40-41
- 3.3.3 命名實(shí)體翻譯41-42
- 3.3.4 引入命名實(shí)體效果對比42-43
- 3.4 本章小結(jié)43-45
- 第四章 候選可比語料的過濾45-51
- 4.1 語文檔相似度計(jì)算45-48
- 4.1.1 相關(guān)研究45-46
- 4.1.2 互譯詞對46-47
- 4.1.3 相似系數(shù)47-48
- 4.2 實(shí)驗(yàn)結(jié)果與分析48-50
- 4.2.1 評價(jià)標(biāo)準(zhǔn)48
- 4.2.2 實(shí)驗(yàn)步驟48-49
- 4.2.3 實(shí)驗(yàn)結(jié)果49-50
- 4.3 本章小結(jié)50-51
- 第五章 總結(jié)51-53
- 參考文獻(xiàn)53-57
- 致謝57-58
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄58
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李奇;鄧揚(yáng);;課程輔助教學(xué)系統(tǒng)設(shè)計(jì)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2014年01期
2 石翠;;基于條件隨機(jī)場的動(dòng)詞細(xì)分類研究[J];智能計(jì)算機(jī)與應(yīng)用;2014年01期
3 于斯音·于蘇普;艾斯卡爾·艾木都拉;;基于情感詞典的維吾爾語文本句子情感分類[J];電腦知識與技術(shù);2014年10期
4 段良濤;郭曙超;;中文文本校對技術(shù)研究[J];電腦知識與技術(shù);2014年19期
5 拉毛措;安見才讓;;基于ASP.NET的藏文分詞系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2014年23期
6 馬曉軍;;全媒體交互中心及其大數(shù)據(jù)分析的研究[J];電信科學(xué);2014年S2期
7 孫波;陳玖冰;劉永娜;;大數(shù)據(jù)背景下的學(xué)生情感詞典構(gòu)建方法[J];北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2015年04期
8 尹德春;劉建勇;;全啟發(fā)式語言分析模型[J];燕山大學(xué)學(xué)報(bào);2015年04期
9 加羊吉;李亞超;宗成慶;于洪志;;最大熵和條件隨機(jī)場模型相融合的藏文人名識別[J];中文信息學(xué)報(bào);2014年01期
10 高定國;扎西加;趙棟材;;計(jì)算機(jī)識別藏語虛詞的方法研究[J];中文信息學(xué)報(bào);2014年01期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前9條
1 蕭箏;客戶需求信息處理理論和方法研究[D];武漢理工大學(xué);2013年
2 貢正仙;文檔級統(tǒng)計(jì)機(jī)器翻譯的研究[D];蘇州大學(xué);2014年
3 馬力;基于聚類分析的網(wǎng)絡(luò)用戶興趣挖掘方法研究[D];西安電子科技大學(xué);2012年
4 華卻才讓;基于樹到串藏語機(jī)器翻譯若干關(guān)鍵技術(shù)研究[D];陜西師范大學(xué);2014年
5 鹿文鵬;基于依存和領(lǐng)域知識的詞義消歧方法研究[D];北京理工大學(xué);2014年
6 王駿;基于文本挖掘的國際關(guān)系網(wǎng)絡(luò)研究[D];北京郵電大學(xué);2013年
7 孫月萍;基于全信息的社區(qū)問答系統(tǒng)研究[D];北京郵電大學(xué);2014年
8 游彪;極化SAR目標(biāo)散射特性分析與應(yīng)用[D];清華大學(xué);2014年
9 烏日力嘎;西里爾蒙古文—漢文機(jī)器翻譯系統(tǒng)的實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2015年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 洪宗祥;基于自然語言的知識查詢算法研究[D];湖北大學(xué);2013年
2 杜振雷;面向微博短文本的情感分析研究[D];北京信息科技大學(xué);2013年
3 李佳媛;漢語句子相似度計(jì)算技術(shù)及其應(yīng)用[D];北京信息科技大學(xué);2013年
4 劉洋;基于字邊界特征的中文抽詞模型研究[D];湖南大學(xué);2013年
5 王慧;微博話題追蹤方法研究與設(shè)計(jì)[D];北京交通大學(xué);2014年
6 茹曠;日漢雙語命名實(shí)體對獲取方法及其應(yīng)用研究[D];北京交通大學(xué);2014年
7 彭新茗;基于多層學(xué)習(xí)的病歷實(shí)體識別算法設(shè)計(jì)與實(shí)現(xiàn)[D];東北大學(xué);2013年
8 李戰(zhàn)磊;面向博客的檢索排序算法研究[D];東北大學(xué);2011年
9 宋文瑞;古代漢語史書語料庫建設(shè)的初步研究[D];東北大學(xué);2011年
10 時(shí)英晉;面向網(wǎng)頁內(nèi)容的K-means聚類算法的研究[D];東北大學(xué);2011年
,本文編號:824729
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/824729.html