天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Web的藏漢雙語可比語料庫構(gòu)建技術(shù)研究

發(fā)布時(shí)間:2017-09-10 04:27

  本文關(guān)鍵詞:基于Web的藏漢雙語可比語料庫構(gòu)建技術(shù)研究


  更多相關(guān)文章: 可比語料庫 關(guān)鍵詞提取 命名實(shí)體 歧義消解 雙語文檔相似度計(jì)算


【摘要】:隨著統(tǒng)計(jì)方法在自然語言處理中的廣泛應(yīng)用和快速發(fā)展,語料庫作為基礎(chǔ)資源,地位越來越重要。特別是雙語語料庫,在機(jī)器翻譯、跨語言信息檢索等領(lǐng)域起著重要作用。然而,平行語料庫資源有限且不易獲取,特別是在少數(shù)民族語言等弱勢語言上這種情況更為嚴(yán)重,因此,可比語料庫近些年逐漸引起研究人員的重視?杀日Z料庫可以直接用于挖掘翻譯等價(jià)對,如命名實(shí)體互譯對、新詞術(shù)語互譯對等,也可以為構(gòu)建平行語料庫打下基礎(chǔ)。早期可比語料挖掘主要基于文本內(nèi)容特征,準(zhǔn)確率和效率都不高,現(xiàn)在研究通常基于跨語言信息檢索,也有學(xué)者利用維基百科資源進(jìn)行可比語料挖掘。考慮到少數(shù)民族語言可使用資源有限,機(jī)器翻譯系統(tǒng)不成熟等情況,本文借鑒了跨語言信息檢索的思想,利用雙語詞典和互聯(lián)網(wǎng)上開放的搜索引擎,構(gòu)建藏漢雙語可比語料庫。本文首先從西藏新聞網(wǎng)等主要藏語新聞網(wǎng)站,采集藏語新聞?wù)Z料作為源文檔集,然后開展了以下幾方面工作:一,關(guān)鍵詞提取,在傳統(tǒng)的TF-IDF算法基礎(chǔ)上,融合了首現(xiàn)位置、詞長、詞性等特征信息,提高了關(guān)鍵詞提取質(zhì)量。二,關(guān)鍵詞翻譯及消歧。由藏語源文檔關(guān)鍵詞得到漢語文檔關(guān)鍵詞,還需經(jīng)過藏漢雙語詞典翻譯,由于藏漢詞典中的一個(gè)藏語詞,通常對應(yīng)若干漢語義項(xiàng),本文采用了基于全局共現(xiàn)的方法進(jìn)行歧義消解,減少了查詢詞義項(xiàng)組合,提高了可比語料庫構(gòu)建效率。三,引入部分命名實(shí)體,和前面提取的關(guān)鍵詞共同作為查詢詞。從文檔的標(biāo)題和首段中提取人名、地名、時(shí)間詞、數(shù)量詞等部分命名實(shí)體,這些命名實(shí)體通常含有新聞報(bào)道事件的時(shí)間、地點(diǎn)、人物等信息。命名實(shí)體的引入,提高了搜索返回結(jié)果中可比語料的比例。四,利用雙語文檔相似度計(jì)算方法對候選可比語料進(jìn)行過濾。在得到漢語文檔查詢詞后,通過網(wǎng)絡(luò)搜索引擎進(jìn)行搜索,將排位在前的部分搜索結(jié)果作為候選可比語料。選擇dice系數(shù)作為判定系數(shù),通過實(shí)驗(yàn)確定閾值大小。本文共收集藏語源語料1120余篇,獲得漢語可比語料4576篇,78%的藏語源語料獲得了對應(yīng)的可比語料。實(shí)驗(yàn)表明,采用本文方法構(gòu)建的可比語料庫,領(lǐng)域全,時(shí)效性好,可擴(kuò)展性強(qiáng),適合構(gòu)建大規(guī)模的可比語料庫。本文方法還可應(yīng)用到其它少數(shù)民族語言的民漢雙語可比語料庫構(gòu)建中。
【關(guān)鍵詞】:可比語料庫 關(guān)鍵詞提取 命名實(shí)體 歧義消解 雙語文檔相似度計(jì)算
【學(xué)位授予單位】:中央民族大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要3-5
  • Abstract5-14
  • 第一章 緒論14-25
  • 1.1 可比語料庫研究的緣起14-17
  • 1.1.1 語料庫14-15
  • 1.1.2 語語料庫15-17
  • 1.2 可比語料庫的應(yīng)用范疇17-19
  • 1.2.1 翻譯等價(jià)對挖掘18
  • 1.2.2 平行語料挖掘18-19
  • 1.2.3 其他跨語言信息處理19
  • 1.3 可比語料庫的相關(guān)研究現(xiàn)狀19-22
  • 1.3.1 基于內(nèi)容特征的構(gòu)建方法20
  • 1.3.2 基于跨語言信息檢索的構(gòu)建方法20-21
  • 1.3.3 基于特定網(wǎng)頁資源的構(gòu)建方法21-22
  • 1.4 研究內(nèi)容22-24
  • 1.5 論文基本結(jié)構(gòu)24-25
  • 第二章 可比語料庫構(gòu)建相關(guān)預(yù)處理工作25-29
  • 2.1 Web挖掘與網(wǎng)頁正文抽取25-27
  • 2.2 藏文分詞27-28
  • 2.3 本章小結(jié)28-29
  • 第三章 候選可比語料的獲取29-45
  • 3.1 關(guān)鍵詞提取29-36
  • 3.1.1 相關(guān)研究方法30
  • 3.1.2 TF-IDF算法提取關(guān)鍵詞30-32
  • 3.1.3 引入多特征信息32-34
  • 3.1.4 實(shí)驗(yàn)步驟與結(jié)果分析34-36
  • 3.2 關(guān)鍵詞翻譯及歧義消解36-39
  • 3.2.1 歧義消解常用方法36-37
  • 3.2.2 共現(xiàn)消歧37-39
  • 3.2.3 實(shí)驗(yàn)結(jié)果與分析39
  • 3.3 未登錄詞處理39-43
  • 3.3.1 未登錄詞40
  • 3.3.2 命名實(shí)體引入40-41
  • 3.3.3 命名實(shí)體翻譯41-42
  • 3.3.4 引入命名實(shí)體效果對比42-43
  • 3.4 本章小結(jié)43-45
  • 第四章 候選可比語料的過濾45-51
  • 4.1 語文檔相似度計(jì)算45-48
  • 4.1.1 相關(guān)研究45-46
  • 4.1.2 互譯詞對46-47
  • 4.1.3 相似系數(shù)47-48
  • 4.2 實(shí)驗(yàn)結(jié)果與分析48-50
  • 4.2.1 評價(jià)標(biāo)準(zhǔn)48
  • 4.2.2 實(shí)驗(yàn)步驟48-49
  • 4.2.3 實(shí)驗(yàn)結(jié)果49-50
  • 4.3 本章小結(jié)50-51
  • 第五章 總結(jié)51-53
  • 參考文獻(xiàn)53-57
  • 致謝57-58
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄58

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 李奇;鄧揚(yáng);;課程輔助教學(xué)系統(tǒng)設(shè)計(jì)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2014年01期

2 石翠;;基于條件隨機(jī)場的動(dòng)詞細(xì)分類研究[J];智能計(jì)算機(jī)與應(yīng)用;2014年01期

3 于斯音·于蘇普;艾斯卡爾·艾木都拉;;基于情感詞典的維吾爾語文本句子情感分類[J];電腦知識與技術(shù);2014年10期

4 段良濤;郭曙超;;中文文本校對技術(shù)研究[J];電腦知識與技術(shù);2014年19期

5 拉毛措;安見才讓;;基于ASP.NET的藏文分詞系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2014年23期

6 馬曉軍;;全媒體交互中心及其大數(shù)據(jù)分析的研究[J];電信科學(xué);2014年S2期

7 孫波;陳玖冰;劉永娜;;大數(shù)據(jù)背景下的學(xué)生情感詞典構(gòu)建方法[J];北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2015年04期

8 尹德春;劉建勇;;全啟發(fā)式語言分析模型[J];燕山大學(xué)學(xué)報(bào);2015年04期

9 加羊吉;李亞超;宗成慶;于洪志;;最大熵和條件隨機(jī)場模型相融合的藏文人名識別[J];中文信息學(xué)報(bào);2014年01期

10 高定國;扎西加;趙棟材;;計(jì)算機(jī)識別藏語虛詞的方法研究[J];中文信息學(xué)報(bào);2014年01期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前9條

1 蕭箏;客戶需求信息處理理論和方法研究[D];武漢理工大學(xué);2013年

2 貢正仙;文檔級統(tǒng)計(jì)機(jī)器翻譯的研究[D];蘇州大學(xué);2014年

3 馬力;基于聚類分析的網(wǎng)絡(luò)用戶興趣挖掘方法研究[D];西安電子科技大學(xué);2012年

4 華卻才讓;基于樹到串藏語機(jī)器翻譯若干關(guān)鍵技術(shù)研究[D];陜西師范大學(xué);2014年

5 鹿文鵬;基于依存和領(lǐng)域知識的詞義消歧方法研究[D];北京理工大學(xué);2014年

6 王駿;基于文本挖掘的國際關(guān)系網(wǎng)絡(luò)研究[D];北京郵電大學(xué);2013年

7 孫月萍;基于全信息的社區(qū)問答系統(tǒng)研究[D];北京郵電大學(xué);2014年

8 游彪;極化SAR目標(biāo)散射特性分析與應(yīng)用[D];清華大學(xué);2014年

9 烏日力嘎;西里爾蒙古文—漢文機(jī)器翻譯系統(tǒng)的實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2015年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 洪宗祥;基于自然語言的知識查詢算法研究[D];湖北大學(xué);2013年

2 杜振雷;面向微博短文本的情感分析研究[D];北京信息科技大學(xué);2013年

3 李佳媛;漢語句子相似度計(jì)算技術(shù)及其應(yīng)用[D];北京信息科技大學(xué);2013年

4 劉洋;基于字邊界特征的中文抽詞模型研究[D];湖南大學(xué);2013年

5 王慧;微博話題追蹤方法研究與設(shè)計(jì)[D];北京交通大學(xué);2014年

6 茹曠;日漢雙語命名實(shí)體對獲取方法及其應(yīng)用研究[D];北京交通大學(xué);2014年

7 彭新茗;基于多層學(xué)習(xí)的病歷實(shí)體識別算法設(shè)計(jì)與實(shí)現(xiàn)[D];東北大學(xué);2013年

8 李戰(zhàn)磊;面向博客的檢索排序算法研究[D];東北大學(xué);2011年

9 宋文瑞;古代漢語史書語料庫建設(shè)的初步研究[D];東北大學(xué);2011年

10 時(shí)英晉;面向網(wǎng)頁內(nèi)容的K-means聚類算法的研究[D];東北大學(xué);2011年



本文編號:824729

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/824729.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶99bd4***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
美女黄色三级深夜福利| 亚洲日本韩国一区二区三区| 日韩欧美好看的剧情片免费 | 国产视频在线一区二区| 日韩中文字幕在线不卡一区| 国产高清一区二区白浆| 日韩不卡一区二区视频| 日本女人亚洲国产性高潮视频| 欧美久久一区二区精品| 麻豆精品在线一区二区三区| 国产日产欧美精品大秀| 欧美精品一区久久精品| 国产高清三级视频在线观看| 精品日韩欧美一区久久| 激情少妇一区二区三区| 免费观看日韩一级黄色大片| 欧美日韩一区二区午夜| 欧美区一区二区在线观看| 精品欧美一区二区三久久| 国产日韩欧美在线播放| 国产欧美韩日一区二区三区| 中文字幕区自拍偷拍区| 丰满熟女少妇一区二区三区| 爱在午夜降临前在线观看| 日韩高清中文字幕亚洲| 色综合久久六月婷婷中文字幕| 亚洲天堂精品在线视频| 国产av精品高清一区二区三区| 内射精子视频欧美一区二区| 日韩欧美国产三级在线观看| 亚洲免费黄色高清在线观看| 亚洲熟女精品一区二区成人| 欧美日韩精品一区免费| 91日韩欧美国产视频| 国产传媒中文字幕东京热| 日韩人妻毛片中文字幕| 91人妻人人精品人人爽| 一区二区免费视频中文乱码国产| 国产精品亚洲精品亚洲| 国产av乱了乱了一区二区三区| 国产一区国产二区在线视频|