《AI移動智能終端藍皮書(2018)》(節(jié)選)漢英翻譯實踐報告
發(fā)布時間:2022-01-06 07:26
目前移動智能終端對人工智能功能的需求日益迫切。出于對個人隱私保護的需求,并基于人工智能處理器發(fā)展快速的現(xiàn)狀,端側人工智能有望逐漸成為未來的發(fā)展趨勢。AI與移動智能終端的結合不僅會給用戶帶來新的體驗,也將對整個產(chǎn)業(yè)界造成深遠的影響。相關科技文本的翻譯對該技術的發(fā)展有重大意義。因此筆者選擇了由CAICT于2018年7月發(fā)布于199IT網(wǎng)頁的《AI移動智能藍皮書》中的四部分,即AI移動智能終端的關鍵功能領域、終端測評體系、存在問題和挑戰(zhàn)以及AI生態(tài)未來展望,作為原文本進行了翻譯實踐。本次實踐中選擇目的論作為翻譯理論指導,詳細分析并闡釋了如何運用目的論的三原則解決科技類文本中的翻譯問題。本報告共有五部分。第一部分介紹了相關背景信息及意義。第二部分描述了翻譯任務,簡要介紹了原文本的內容和特點,同時對目標語讀者進行了分類介紹。第三部分大致描述了整個翻譯過程,包括準備翻譯理論、參考文獻,制定翻譯計劃,選擇翻譯工具和應用質量保證方法。第四部分為案例分析,筆者基于目的論依次從詞匯、句法和語篇層面分析了科技類文本的翻譯,對科技類文本中包含的術語、范疇詞、多謂語長句和無主語句的翻譯展開論述,并對語篇上的主位...
【文章來源】:曲阜師范大學山東省
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
語音轉寫系統(tǒng)框
始燜鰲<蠢??通過語音識別的相關技術來確定待檢語音中是否出現(xiàn)了指定的感興趣的詞匯。根據(jù)具體應用需求,一般可以有在線/離線,固定詞表/可變詞表等多種應用形式。最常用的方式是在語音識別的多候選輸出上做關鍵詞檢測。采用多候選結果的原因是,最優(yōu)選結果中往往有比較高的錯誤率,而多候選結果中則包含了大量正確的補充信息。研究表明,基于語音識別結果的多候選結果進行關鍵詞檢測對提高檢索系統(tǒng)查全率的提高是十分有效和必要的;谡Z音識別多候選詞圖的關鍵詞檢測系統(tǒng)框圖如下所示:圖3.2關鍵詞檢測系統(tǒng)框圖整個系統(tǒng)由兩大部分組成:大詞匯量連續(xù)語音識別引擎和關鍵詞檢測模塊。其中,大詞匯量連續(xù)語音識別引擎的結構與上面1.1.1.1中介紹的語音轉寫類似。語音識別的
Appendices26多候選結果往往被表示為詞格(Lattice)的形式。詞格主要由節(jié)點和邊組成。每一個節(jié)點表示一個時間點,每一條邊表示一個識別單元假設(詞、音節(jié)或音素),邊將不同時刻的節(jié)點連接起來,形成一個有向非循環(huán)圖,如下圖所示。圖3.3詞格示意圖在圖3.2的系統(tǒng)中,詞格搜索模塊在詞格上進行關鍵詞匹配,找到關鍵詞出現(xiàn)的時間;置信度估計模塊將進行后驗概率表示,作為置信度輸出。該置信度越大表示該檢出結果越可信。通常,用于描述語音轉寫的技術指標有:1)FAR,虛警率,表示虛報的關鍵詞;2)FRR,漏報率,表示漏報的關鍵詞;3)Recall,召回率,表示系統(tǒng)所能找到的候選結果中,正確關鍵詞檢測結果的數(shù)量占實際出現(xiàn)的關鍵詞數(shù)量的比;4)EER,等錯誤率,當虛警和漏報達到一致時候的系統(tǒng)工作點錯誤率。顯然,F(xiàn)AR,F(xiàn)RR,EER越低越好;3.1.2語義識別語義識別,也稱語義理解。即通過自然語言處理的相關技術,從用戶說的話(自然文本,或者語音識別后的轉寫文本)中挖掘出結構化的信息,為后端基于語義的推理決策等功能模塊進行服務。語義理解一般被分為三個任務:領域分類(DomainClassification)、意圖檢測(IntentDetection)、語義槽填充(SlotFilling)。其中一般的語義理解流程是一個用戶句子進來,先進行領域分類,確定對話領域后,再進行領域內的意圖檢測和語義槽值填充。3.1.2.1領域分類領域分類,是根據(jù)用戶說的話判斷這句話屬于哪個對話領域的方法。通常,領域分類是語義理解的第一步模塊。領域分類具有傳統(tǒng)分類問題的一系列衡量指標:1)ACC:領域分類的整句分類的準確率,句子領域劃分錯誤則算錯。2)Precision:領域分類的精確率,即預測出正確類別的比例。3)Recall:領域分?
本文編號:3572017
【文章來源】:曲阜師范大學山東省
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
語音轉寫系統(tǒng)框
始燜鰲<蠢??通過語音識別的相關技術來確定待檢語音中是否出現(xiàn)了指定的感興趣的詞匯。根據(jù)具體應用需求,一般可以有在線/離線,固定詞表/可變詞表等多種應用形式。最常用的方式是在語音識別的多候選輸出上做關鍵詞檢測。采用多候選結果的原因是,最優(yōu)選結果中往往有比較高的錯誤率,而多候選結果中則包含了大量正確的補充信息。研究表明,基于語音識別結果的多候選結果進行關鍵詞檢測對提高檢索系統(tǒng)查全率的提高是十分有效和必要的;谡Z音識別多候選詞圖的關鍵詞檢測系統(tǒng)框圖如下所示:圖3.2關鍵詞檢測系統(tǒng)框圖整個系統(tǒng)由兩大部分組成:大詞匯量連續(xù)語音識別引擎和關鍵詞檢測模塊。其中,大詞匯量連續(xù)語音識別引擎的結構與上面1.1.1.1中介紹的語音轉寫類似。語音識別的
Appendices26多候選結果往往被表示為詞格(Lattice)的形式。詞格主要由節(jié)點和邊組成。每一個節(jié)點表示一個時間點,每一條邊表示一個識別單元假設(詞、音節(jié)或音素),邊將不同時刻的節(jié)點連接起來,形成一個有向非循環(huán)圖,如下圖所示。圖3.3詞格示意圖在圖3.2的系統(tǒng)中,詞格搜索模塊在詞格上進行關鍵詞匹配,找到關鍵詞出現(xiàn)的時間;置信度估計模塊將進行后驗概率表示,作為置信度輸出。該置信度越大表示該檢出結果越可信。通常,用于描述語音轉寫的技術指標有:1)FAR,虛警率,表示虛報的關鍵詞;2)FRR,漏報率,表示漏報的關鍵詞;3)Recall,召回率,表示系統(tǒng)所能找到的候選結果中,正確關鍵詞檢測結果的數(shù)量占實際出現(xiàn)的關鍵詞數(shù)量的比;4)EER,等錯誤率,當虛警和漏報達到一致時候的系統(tǒng)工作點錯誤率。顯然,F(xiàn)AR,F(xiàn)RR,EER越低越好;3.1.2語義識別語義識別,也稱語義理解。即通過自然語言處理的相關技術,從用戶說的話(自然文本,或者語音識別后的轉寫文本)中挖掘出結構化的信息,為后端基于語義的推理決策等功能模塊進行服務。語義理解一般被分為三個任務:領域分類(DomainClassification)、意圖檢測(IntentDetection)、語義槽填充(SlotFilling)。其中一般的語義理解流程是一個用戶句子進來,先進行領域分類,確定對話領域后,再進行領域內的意圖檢測和語義槽值填充。3.1.2.1領域分類領域分類,是根據(jù)用戶說的話判斷這句話屬于哪個對話領域的方法。通常,領域分類是語義理解的第一步模塊。領域分類具有傳統(tǒng)分類問題的一系列衡量指標:1)ACC:領域分類的整句分類的準確率,句子領域劃分錯誤則算錯。2)Precision:領域分類的精確率,即預測出正確類別的比例。3)Recall:領域分?
本文編號:3572017
本文鏈接:http://sikaile.net/waiyulunwen/yingyulunwen/3572017.html
最近更新
教材專著