語(yǔ)言學(xué)領(lǐng)域多語(yǔ)種本體知識(shí)庫(kù)構(gòu)建與新術(shù)語(yǔ)發(fā)現(xiàn)
發(fā)布時(shí)間:2021-08-17 14:44
針對(duì)語(yǔ)言學(xué)術(shù)語(yǔ)使用缺少規(guī)范、領(lǐng)域知識(shí)有待梳理的問(wèn)題,本文首先通過(guò)整合語(yǔ)言學(xué)領(lǐng)域英俄漢術(shù)語(yǔ)資源,構(gòu)建了多語(yǔ)種術(shù)語(yǔ)表;其次,基于維基百科采集與術(shù)語(yǔ)相關(guān)的多語(yǔ)種可比語(yǔ)料并建庫(kù),使用知識(shí)本體方法構(gòu)建了包含14個(gè)大類(lèi)、75個(gè)子類(lèi)、25,385個(gè)實(shí)例以及16個(gè)屬性關(guān)系的語(yǔ)言學(xué)領(lǐng)域知識(shí)庫(kù);最后,統(tǒng)計(jì)術(shù)語(yǔ)構(gòu)成模式,抽取新多詞術(shù)語(yǔ)以實(shí)現(xiàn)對(duì)知識(shí)庫(kù)的迭代更新。本文不僅對(duì)于術(shù)語(yǔ)翻譯、詞典編撰、語(yǔ)言學(xué)知識(shí)挖掘、多語(yǔ)種語(yǔ)料庫(kù)研究有重要意義,知識(shí)庫(kù)也可作為重要基礎(chǔ)數(shù)據(jù)資源應(yīng)用于其他語(yǔ)言學(xué)研究中。
【文章來(lái)源】:外語(yǔ)電化教學(xué). 2020,(03)北大核心CSSCI
【文章頁(yè)數(shù)】:9 頁(yè)
【部分圖文】:
基于詞典與可比語(yǔ)料的多語(yǔ)種知識(shí)庫(kù)構(gòu)建
第一階段,多語(yǔ)種知識(shí)庫(kù)構(gòu)建(見(jiàn)圖1):第一步,以中文、英文和俄文語(yǔ)言學(xué)詞典為基礎(chǔ),構(gòu)建對(duì)照術(shù)語(yǔ)詞表;第二步,依照術(shù)語(yǔ)詞表查詢維基百科的多語(yǔ)言詞目網(wǎng)頁(yè),獲取網(wǎng)頁(yè)正文得到對(duì)應(yīng)的中英俄可比語(yǔ)料,可比依據(jù)為詞目對(duì)應(yīng)(即語(yǔ)料主題相同);第三步,依照語(yǔ)言學(xué)詞典中的術(shù)語(yǔ)和知識(shí)分類(lèi)體系,使用Protégé(4)本體構(gòu)建工具,建立多語(yǔ)種語(yǔ)言學(xué)知識(shí)庫(kù),包含概念類(lèi)、子類(lèi)、實(shí)例和屬性關(guān)系;第四步,通過(guò)本體中的對(duì)象屬性關(guān)聯(lián)中文、英文和俄文術(shù)語(yǔ)概念實(shí)例,并將術(shù)語(yǔ)對(duì)應(yīng)的語(yǔ)料文本錄入知識(shí)庫(kù)中。第二階段,新術(shù)語(yǔ)發(fā)現(xiàn)(見(jiàn)圖2):第一步,將知識(shí)庫(kù)中由英文和俄文中單個(gè)詞構(gòu)成的術(shù)語(yǔ)作為種子術(shù)語(yǔ),并給出相應(yīng)的中文術(shù)語(yǔ)后建表;第二步,通過(guò)知識(shí)庫(kù)中已有的英文和俄文多詞術(shù)語(yǔ),統(tǒng)計(jì)分析其搭配結(jié)構(gòu)及構(gòu)成方法,分別建立多詞術(shù)語(yǔ)的匹配模式;第三步,利用種子術(shù)語(yǔ)定位英文和俄文可比語(yǔ)料中的抽取節(jié)點(diǎn),依照匹配模式抽取多詞組合;第四步,將抽取的多詞組合與知識(shí)庫(kù)中已有術(shù)語(yǔ)進(jìn)行匹配查重,如未查詢到匹配結(jié)果則認(rèn)定為候選新術(shù)語(yǔ),加入候選庫(kù)審定后得到單語(yǔ)種新術(shù)語(yǔ)。
本體概念類(lèi)及其子類(lèi)包括:理論語(yǔ)言學(xué)類(lèi)(學(xué)派、理論與方法、核心術(shù)語(yǔ)、交叉學(xué)科)、文字學(xué)類(lèi)(文字學(xué)總論、漢字結(jié)構(gòu)、漢字起源與發(fā)展、漢字系統(tǒng)內(nèi)部關(guān)系、漢字形體)、語(yǔ)音學(xué)類(lèi)(發(fā)音語(yǔ)音學(xué)、漢語(yǔ)語(yǔ)音學(xué)、聽(tīng)覺(jué)語(yǔ)音學(xué)、聲學(xué)語(yǔ)音學(xué)、一般語(yǔ)音學(xué)、音系學(xué))、語(yǔ)法學(xué)(語(yǔ)法學(xué)總論、詞法、句法、篇章)、詞匯學(xué)(詞匯學(xué)總論、詞與詞匯、詞義、構(gòu)詞法、構(gòu)詞單位、造詞法、熟語(yǔ))、辭書(shū)學(xué)(辭書(shū)學(xué)總論、辭書(shū)編撰、辭書(shū)類(lèi)型、辭書(shū)釋義、辭書(shū)現(xiàn)代化)、方言學(xué)(方言分區(qū)、方言分析、方言調(diào)查、方言學(xué)總論)、修辭學(xué)(修辭、修辭方法、修辭手段、修辭學(xué)總論、語(yǔ)境、語(yǔ)體與風(fēng)格)、社會(huì)語(yǔ)言學(xué)(社會(huì)語(yǔ)言學(xué)總論、語(yǔ)音變異、言語(yǔ)交際、語(yǔ)言接觸與雙語(yǔ)、語(yǔ)言規(guī)劃、語(yǔ)言教育)、民族語(yǔ)言學(xué)(民族語(yǔ)言文字、民族語(yǔ)言學(xué)總論、南島語(yǔ)系、南亞語(yǔ)系、漢藏語(yǔ)系、阿爾泰語(yǔ)系、朝鮮語(yǔ)、印歐語(yǔ)系)、語(yǔ)義學(xué)(語(yǔ)義詞義分析法、語(yǔ)義學(xué)與語(yǔ)義理論)、音韻學(xué)(音韻學(xué)總論、音類(lèi)分析和等韻學(xué)、音類(lèi)演變和對(duì)音、用韻分析和今音學(xué)、語(yǔ)音通轉(zhuǎn)和古音學(xué))、計(jì)算語(yǔ)言學(xué)(計(jì)算語(yǔ)言學(xué)總論、字處理、詞處理、句處理、語(yǔ)篇處理、形式化方法、算法、理論與模型、應(yīng)用系統(tǒng)、機(jī)器翻譯、語(yǔ)言資源)、訓(xùn)詁學(xué)(漢字政策、訓(xùn)詁方法與禁忌、訓(xùn)詁字詞句音義關(guān)系、訓(xùn)詁體式、訓(xùn)詁學(xué)總論、訓(xùn)釋)。圖4 多語(yǔ)種映射關(guān)系及知識(shí)庫(kù)實(shí)例示例
【參考文獻(xiàn)】:
期刊論文
[1]基于多語(yǔ)言本體的中英跨語(yǔ)言信息檢索模型及實(shí)現(xiàn)[J]. 司莉,陳雨雪,曾粵亮. 圖書(shū)情報(bào)工作. 2017(01)
[2]基于知識(shí)庫(kù)和主題爬蟲(chóng)的南海輿情實(shí)時(shí)監(jiān)測(cè)研究[J]. 丁晟春,龔思蘭,周文杰,王曰芬. 情報(bào)雜志. 2016(05)
[3]基于多語(yǔ)言領(lǐng)域本體的知識(shí)挖掘研究[J]. 司莉,李鑫. 圖書(shū)館論壇. 2016(02)
[4]語(yǔ)言學(xué)術(shù)語(yǔ)翻譯標(biāo)準(zhǔn)新探——兼談術(shù)語(yǔ)翻譯的系統(tǒng)經(jīng)濟(jì)律[J]. 胡葉,魏向清. 中國(guó)翻譯. 2014(04)
[5]語(yǔ)言學(xué)術(shù)語(yǔ)的譯名變異——兼評(píng)《語(yǔ)言學(xué)名詞》[J]. 方小兵. 辭書(shū)研究. 2014(01)
[6]基于本體的醫(yī)學(xué)術(shù)語(yǔ)服務(wù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 楊虎,王立軍,黃永峰. 計(jì)算機(jī)工程與科學(xué). 2013(12)
[7]基于術(shù)語(yǔ)部件的領(lǐng)域本體自動(dòng)構(gòu)建方法研究——以教育技術(shù)學(xué)領(lǐng)域本體構(gòu)建為例[J]. 魏順平. 電化教育研究. 2013(05)
[8]融入形態(tài)特征的英語(yǔ)多詞術(shù)語(yǔ)自動(dòng)抽取研究[J]. 鄧耀臣,王健剛. 外語(yǔ)電化教學(xué). 2013(02)
[9]語(yǔ)言學(xué)中一個(gè)不容忽視的學(xué)科:術(shù)語(yǔ)學(xué)[J]. 馮志偉. 山東外語(yǔ)教學(xué). 2012(06)
[10]俄語(yǔ)計(jì)算語(yǔ)言學(xué)領(lǐng)域本體知識(shí)庫(kù)的構(gòu)建[J]. 原偉,易綿竹. 解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào). 2012(01)
碩士論文
[1]基于本體的維吾爾語(yǔ)語(yǔ)義搜索引擎的研究與實(shí)現(xiàn)[D]. 沙吾提江·亞森.電子科技大學(xué) 2015
本文編號(hào):3347961
【文章來(lái)源】:外語(yǔ)電化教學(xué). 2020,(03)北大核心CSSCI
【文章頁(yè)數(shù)】:9 頁(yè)
【部分圖文】:
基于詞典與可比語(yǔ)料的多語(yǔ)種知識(shí)庫(kù)構(gòu)建
第一階段,多語(yǔ)種知識(shí)庫(kù)構(gòu)建(見(jiàn)圖1):第一步,以中文、英文和俄文語(yǔ)言學(xué)詞典為基礎(chǔ),構(gòu)建對(duì)照術(shù)語(yǔ)詞表;第二步,依照術(shù)語(yǔ)詞表查詢維基百科的多語(yǔ)言詞目網(wǎng)頁(yè),獲取網(wǎng)頁(yè)正文得到對(duì)應(yīng)的中英俄可比語(yǔ)料,可比依據(jù)為詞目對(duì)應(yīng)(即語(yǔ)料主題相同);第三步,依照語(yǔ)言學(xué)詞典中的術(shù)語(yǔ)和知識(shí)分類(lèi)體系,使用Protégé(4)本體構(gòu)建工具,建立多語(yǔ)種語(yǔ)言學(xué)知識(shí)庫(kù),包含概念類(lèi)、子類(lèi)、實(shí)例和屬性關(guān)系;第四步,通過(guò)本體中的對(duì)象屬性關(guān)聯(lián)中文、英文和俄文術(shù)語(yǔ)概念實(shí)例,并將術(shù)語(yǔ)對(duì)應(yīng)的語(yǔ)料文本錄入知識(shí)庫(kù)中。第二階段,新術(shù)語(yǔ)發(fā)現(xiàn)(見(jiàn)圖2):第一步,將知識(shí)庫(kù)中由英文和俄文中單個(gè)詞構(gòu)成的術(shù)語(yǔ)作為種子術(shù)語(yǔ),并給出相應(yīng)的中文術(shù)語(yǔ)后建表;第二步,通過(guò)知識(shí)庫(kù)中已有的英文和俄文多詞術(shù)語(yǔ),統(tǒng)計(jì)分析其搭配結(jié)構(gòu)及構(gòu)成方法,分別建立多詞術(shù)語(yǔ)的匹配模式;第三步,利用種子術(shù)語(yǔ)定位英文和俄文可比語(yǔ)料中的抽取節(jié)點(diǎn),依照匹配模式抽取多詞組合;第四步,將抽取的多詞組合與知識(shí)庫(kù)中已有術(shù)語(yǔ)進(jìn)行匹配查重,如未查詢到匹配結(jié)果則認(rèn)定為候選新術(shù)語(yǔ),加入候選庫(kù)審定后得到單語(yǔ)種新術(shù)語(yǔ)。
本體概念類(lèi)及其子類(lèi)包括:理論語(yǔ)言學(xué)類(lèi)(學(xué)派、理論與方法、核心術(shù)語(yǔ)、交叉學(xué)科)、文字學(xué)類(lèi)(文字學(xué)總論、漢字結(jié)構(gòu)、漢字起源與發(fā)展、漢字系統(tǒng)內(nèi)部關(guān)系、漢字形體)、語(yǔ)音學(xué)類(lèi)(發(fā)音語(yǔ)音學(xué)、漢語(yǔ)語(yǔ)音學(xué)、聽(tīng)覺(jué)語(yǔ)音學(xué)、聲學(xué)語(yǔ)音學(xué)、一般語(yǔ)音學(xué)、音系學(xué))、語(yǔ)法學(xué)(語(yǔ)法學(xué)總論、詞法、句法、篇章)、詞匯學(xué)(詞匯學(xué)總論、詞與詞匯、詞義、構(gòu)詞法、構(gòu)詞單位、造詞法、熟語(yǔ))、辭書(shū)學(xué)(辭書(shū)學(xué)總論、辭書(shū)編撰、辭書(shū)類(lèi)型、辭書(shū)釋義、辭書(shū)現(xiàn)代化)、方言學(xué)(方言分區(qū)、方言分析、方言調(diào)查、方言學(xué)總論)、修辭學(xué)(修辭、修辭方法、修辭手段、修辭學(xué)總論、語(yǔ)境、語(yǔ)體與風(fēng)格)、社會(huì)語(yǔ)言學(xué)(社會(huì)語(yǔ)言學(xué)總論、語(yǔ)音變異、言語(yǔ)交際、語(yǔ)言接觸與雙語(yǔ)、語(yǔ)言規(guī)劃、語(yǔ)言教育)、民族語(yǔ)言學(xué)(民族語(yǔ)言文字、民族語(yǔ)言學(xué)總論、南島語(yǔ)系、南亞語(yǔ)系、漢藏語(yǔ)系、阿爾泰語(yǔ)系、朝鮮語(yǔ)、印歐語(yǔ)系)、語(yǔ)義學(xué)(語(yǔ)義詞義分析法、語(yǔ)義學(xué)與語(yǔ)義理論)、音韻學(xué)(音韻學(xué)總論、音類(lèi)分析和等韻學(xué)、音類(lèi)演變和對(duì)音、用韻分析和今音學(xué)、語(yǔ)音通轉(zhuǎn)和古音學(xué))、計(jì)算語(yǔ)言學(xué)(計(jì)算語(yǔ)言學(xué)總論、字處理、詞處理、句處理、語(yǔ)篇處理、形式化方法、算法、理論與模型、應(yīng)用系統(tǒng)、機(jī)器翻譯、語(yǔ)言資源)、訓(xùn)詁學(xué)(漢字政策、訓(xùn)詁方法與禁忌、訓(xùn)詁字詞句音義關(guān)系、訓(xùn)詁體式、訓(xùn)詁學(xué)總論、訓(xùn)釋)。圖4 多語(yǔ)種映射關(guān)系及知識(shí)庫(kù)實(shí)例示例
【參考文獻(xiàn)】:
期刊論文
[1]基于多語(yǔ)言本體的中英跨語(yǔ)言信息檢索模型及實(shí)現(xiàn)[J]. 司莉,陳雨雪,曾粵亮. 圖書(shū)情報(bào)工作. 2017(01)
[2]基于知識(shí)庫(kù)和主題爬蟲(chóng)的南海輿情實(shí)時(shí)監(jiān)測(cè)研究[J]. 丁晟春,龔思蘭,周文杰,王曰芬. 情報(bào)雜志. 2016(05)
[3]基于多語(yǔ)言領(lǐng)域本體的知識(shí)挖掘研究[J]. 司莉,李鑫. 圖書(shū)館論壇. 2016(02)
[4]語(yǔ)言學(xué)術(shù)語(yǔ)翻譯標(biāo)準(zhǔn)新探——兼談術(shù)語(yǔ)翻譯的系統(tǒng)經(jīng)濟(jì)律[J]. 胡葉,魏向清. 中國(guó)翻譯. 2014(04)
[5]語(yǔ)言學(xué)術(shù)語(yǔ)的譯名變異——兼評(píng)《語(yǔ)言學(xué)名詞》[J]. 方小兵. 辭書(shū)研究. 2014(01)
[6]基于本體的醫(yī)學(xué)術(shù)語(yǔ)服務(wù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 楊虎,王立軍,黃永峰. 計(jì)算機(jī)工程與科學(xué). 2013(12)
[7]基于術(shù)語(yǔ)部件的領(lǐng)域本體自動(dòng)構(gòu)建方法研究——以教育技術(shù)學(xué)領(lǐng)域本體構(gòu)建為例[J]. 魏順平. 電化教育研究. 2013(05)
[8]融入形態(tài)特征的英語(yǔ)多詞術(shù)語(yǔ)自動(dòng)抽取研究[J]. 鄧耀臣,王健剛. 外語(yǔ)電化教學(xué). 2013(02)
[9]語(yǔ)言學(xué)中一個(gè)不容忽視的學(xué)科:術(shù)語(yǔ)學(xué)[J]. 馮志偉. 山東外語(yǔ)教學(xué). 2012(06)
[10]俄語(yǔ)計(jì)算語(yǔ)言學(xué)領(lǐng)域本體知識(shí)庫(kù)的構(gòu)建[J]. 原偉,易綿竹. 解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào). 2012(01)
碩士論文
[1]基于本體的維吾爾語(yǔ)語(yǔ)義搜索引擎的研究與實(shí)現(xiàn)[D]. 沙吾提江·亞森.電子科技大學(xué) 2015
本文編號(hào):3347961
本文鏈接:http://sikaile.net/waiyulunwen/yingyulunwen/3347961.html
最近更新
教材專(zhuān)著