【摘要】:構建托忒文語料庫、并研發(fā)相關應用程序是建設《蒙古語語言資源平臺》工作中的重要部分,也是將托忒文文獻數(shù)字化,實現(xiàn)資源共享的基礎。目前托忒文文獻數(shù)字化工作中亟待解決的問題是改進和完善它的編碼系統(tǒng)。此項研究在已有的托忒文編碼基礎上,深層次,全面地反映了托忒文中應有的編碼體系。目前,搜集和整理的托忒文語料庫包括以下兩個方面的內容:一是以英雄詩《江格爾》為例的新托忒文語料庫;二是以文獻為例的經(jīng)典托忒文語料庫。該語料庫中對比不同時期的托忒文特征,并概括了已有的托忒文編碼體系中應增加的《名義字符》、《變形顯現(xiàn)字符》、《強制性合體字》和《非強制性合體字》。該論文內容概括為以下幾個方面:導論中主要闡述了研究對象、以往的研究概況、選題依據(jù)、選題意義和目的、研究理論方法,資料的選擇范圍以及論文結構。其中以往的研究內容涉及到三個方面:(1)初學托忒文字母抄本;(2)托忒文研究成果;(3)在信息化領域中使用托忒文的趨勢。第一章,詳細地介紹了托忒文編碼體系。(1)探討了以往的托忒文編碼體系中應增加的字符和標點符號:國內主要研發(fā)單位是內蒙古蒙科立軟件有限責任公司、北京北大方正電子有限公司、濰坊北大青鳥華光照排有限公司和內蒙古大學計算機學院;國外主要開發(fā)國家是蒙古和日本。(2)介紹了研發(fā)《托忒文編碼國家標準》過程:這里系統(tǒng)地列出了已有的方正托忒文編碼體系中應增加的“名義字符”、“變形顯現(xiàn)字符”、“強制性合體字”、“非強制性合體字”、“數(shù)字”、“標點符號”和“控制符”。(3)闡述了有關《托忒文編碼國家標準的系統(tǒng)實現(xiàn)問題:托忒文名義字符到變形顯現(xiàn)字符的轉換規(guī)則。(4)闡述了關于托忒文中使用控制符的規(guī)則。第二章,重點介紹了托忒文文獻語料庫概況。首先介紹了托忒文文獻總論、收藏地區(qū)、統(tǒng)計目錄和搜集工作的進展情況。其次介紹了托忒文拉丁轉寫方案的依據(jù)和使用目的。第三,介紹了托忒文文獻語料庫相關工作。(1)構建托忒文文獻信息數(shù)據(jù)庫;(2)托忒文文獻語料庫由文本庫(拉丁轉寫)和圖片庫(掃描文件)組成。最后,簡單介紹了中世紀文獻語料庫“回鶻式蒙古文文獻語料庫”、“八思巴文文獻語料庫”和“托忒文文獻語料庫”之間如何連接問題。這里提到了兩種方法的優(yōu)點和缺點。一是以字母為單位,制定三種文字共用拉丁轉寫方案來實現(xiàn);二是以詞語為單位,研制三種文字詞語對照電子詞典來實現(xiàn)。第三章,簡單介紹了托忒文文獻語料庫應用程序的開發(fā)步驟。針對今天互聯(lián)網(wǎng)技術的普及和移動終端的廣泛使用主流,研發(fā)該應用程序是采用了跨平臺、開源代碼和廣泛使用的PHP+MySQL+Apache組合。在此基礎上,詳細介紹了數(shù)據(jù)庫設計方案、程序流程圖和應用界面。托忒文文獻查詢程序的主要功能是從數(shù)據(jù)庫中查詢單詞,詞語等元素,并獲得的結果是文本塊和圖片。第四章,詳細介紹了以新托忒文為例的“江格爾語料庫”的加工和它的應用方法。論文中以借鑒信息抽取技術為指導,構建了針對“江格爾語料庫”的命名實體字典。此外,為了擴充“江格爾語料庫”的規(guī)模,初步構建了托忒文、傳統(tǒng)蒙古文和西里爾文的詞語對照電子詞典,目前已收錄2,526條詞條。最后,介紹了“江格爾語料庫”應用程序的設計和實現(xiàn)。
[Abstract]:It is also an important part in the construction of the language resource platform of Mongolian language, which is the basis for the digitization of the document and the realization of resource sharing. At present, the problems that need to be solved in the digital work of Toledo document are to improve and perfect its coding system. This study, on the basis of the existing underpinning code, deeply and comprehensively reflects the coding system in Toledo. Currently, the collection and arrangement of the Tortotext corpus includes the following two aspects: one is the new tolevwen corpus in the heroic poem
as an example; the second is the classical Tortotext corpus in the literature as an example. In this corpus, we compare the characteristics of tolevels in different periods, and summarize the characters of , , and in the existing Toledo coding system. The contents of this paper are summarized as follows: The introduction mainly expounds the research object, the previous research situation, the subject choice basis, the significance and purpose of the topic selection, the research theory method, the selection range of the data and the structure of the paper. Among them, the previous research contents relate to three aspects: (1) the first letter copy; (2) the research results of Toledo; (3) the trend of using tolevwen in the field of informatization. In the first chapter, the coding system of Toledo is introduced in detail. (1) It discusses the characters and punctuation marks that should be added in the previous Toledo coding system: the main R & D unit in China is Monkli Software Co., Ltd. of Inner Mongolia, Beijing Beida Founder Electronics Co., Ltd. Beijing Peking University Green Bird Huaguang Group Co., Ltd. and University of Maryland Computer College; the major developing countries in foreign countries are Mongolia and Japan. (2) The national standard of R & D 【學位授予單位】:內蒙古大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:H212
【相似文獻】
相關期刊論文 前10條
1 波·包力高;《托忒文簡明正字法》讀后感——紀念托忒蒙文創(chuàng)制350周年[J];新疆大學學報(哲學社會科學版);1999年02期
2 烏蘭;從史料學的角度談托忒文歷史文獻[J];西北民族研究;2003年01期
3 M·烏蘭;托忒文歷史文獻對清朝官方史籍編纂的影響[J];清史研究;2004年03期
4 葉爾達;;中國藏托忒文文獻刻本之研究[J];西北民族大學學報(哲學社會科學版);2007年02期
5 額爾德尼巴雅爾;;托忒文研究概述[J];蒙古學資料與情報;1989年04期
6 M·烏蘭;;托忒文歷史文獻對西方史學的影響——以帕拉斯《內陸亞洲厄魯特歷史資料》為中心[J];民族研究;2011年03期
7 ;蒙古文、托忒文、錫伯文(含滿文)編碼方案──我國提出的這一方案已被國際標準化組織接受[J];內蒙古大學學報(哲學社會科學版);1994年03期
8 諾爾布;馮錫時;;托忒文歷史文獻的漢譯注釋[J];新疆大學學報(哲學社會科學版);1986年02期
9 M·烏蘭;試論托忒文歷史文獻的史料價值[J];民族研究;1993年04期
10 ;[J];;年期
相關博士學位論文 前2條
1 孟克代力格日;構建托忒文語料庫及其相關技術研究[D];內蒙古大學;2016年
2 賽爾格;托忒文及其歷史演變研究[D];內蒙古大學;2016年
相關碩士學位論文 前2條
1 薩如拉;托忒文阿里嘎禮研究[D];內蒙古大學;2014年
2 孟克代力格日;托忒文文獻語料庫及其管理程序設計[D];內蒙古大學;2011年
,
本文編號:2297361
本文鏈接:http://sikaile.net/shoufeilunwen/rwkxbs/2297361.html