莎士比亞戲劇英漢平行語料庫的創(chuàng)建與應用,戲劇論文
本文關鍵詞:莎士比亞戲劇英漢平行語料庫的創(chuàng)建與應用,,由筆耕文化傳播整理發(fā)布。
您現(xiàn)在的位置:上海論文網(wǎng) > 藝術論文 > 戲劇論文 > 莎士比亞戲劇英漢平行語料庫的創(chuàng)建與應用
莎士比亞戲劇英漢平行語料庫的創(chuàng)建與應用
發(fā)布時間:2013-09-09 點擊次數(shù):次
1.引言莎士比亞研究一直是西方文學研究的“顯學”之一,相關著作可謂“汗牛充棟”。自20世紀初以來,莎士比亞戲劇的多個漢譯本相繼問世,其中影響較大的有朱生豪(1947)、梁實秋(1947)和方平(2000)等翻譯的漢譯本。這些譯本對我國現(xiàn)代戲劇和文學創(chuàng)作產(chǎn)生了深遠的影響,而且很大程度上豐富了漢語的表現(xiàn)形式。然而,莎劇漢譯研究的廣度和深度仍然比較有限,F(xiàn)階段莎士比亞戲劇漢譯研究多局限于具體詞匯或修辭手法的翻譯研究,而關于句法和語篇層面的研究成果比較少見,且多為定性研究,定量研究鮮見。這與莎劇漢譯本在中國文學乃至文化發(fā)展歷程中的重要地位十分不相稱。究其原因,主要是因為莎劇劇本多,內(nèi)容博大精深,莎劇漢譯研究費時費力。因此,建設莎士比亞戲劇英漢平行語料庫,開展基于語料庫的莎劇漢譯研究十分重要。研究人員可以充分利用語料庫儲存數(shù)據(jù)大、計算機運行速度快、語料庫工具能對大量數(shù)據(jù)進行準確分析的優(yōu)勢,系統(tǒng)、全面地對多個莎劇漢譯本進行比較分析,通過數(shù)據(jù)分析和功能闡釋相結合,獲得客觀可信的研究結果。
為此,我們自2005年起便開始著手建設莎士比亞戲劇英漢平行語料庫,經(jīng)過數(shù)年努力,已基本建成,并開展了一系列前期研究。該語料庫收入莎士比亞戲劇原著、這些戲劇的梁實秋譯本和朱生豪譯本和方平譯本,以及漢語原創(chuàng)戲劇,計劃庫容為6百萬字,目前在進一步擴容和深加工之中。建設平行語料庫,尤其建設能夠?qū)崿F(xiàn)一個原著與三個譯本句級對齊,且?guī)烊葸_6百多萬字的語料庫,不僅要耗去大量的人力和物力,而且技術層面亦具有較大難度。本文擬介紹莎士比亞戲劇英漢平行語料庫的創(chuàng)建過程及其在莎士比亞戲劇漢譯研究中的具體應用,以期為英漢平行語料庫的建設及其在譯學研究中的應用提供借鑒。
2.莎士比亞戲劇英漢平行語料庫的創(chuàng)建一般而言,英漢平行語料庫的創(chuàng)建步驟主要為:1)中英文語料的選擇與輸入;2)語料的預處理;3)語料的標注和分詞;4)語料的平行對齊;5)語料庫出版;6)語料庫網(wǎng)上檢索。目前,莎士比亞戲劇英漢平行語料庫已完成第1至第4個步驟。至于語料庫的出版和網(wǎng)上檢索,待完成所有語料的輸入和深加工,并解決相關版權問題之后方可進行。
2.1中英文語料的選擇與輸入自莎士比亞戲劇全集問世以來,英文版本為數(shù)眾多,受到人們推崇的版本主要有牛津版(1743)、撒繆爾·約翰遜版(1765)、里德版(1803)、河畔版(1974)以及阿登系列版本(1899/1958/1995)等等。經(jīng)過討論,我們選擇莎士比亞戲劇全集的牛津版作為語料庫的英文語料。牛津版是公認?睖蚀_的版本,本語料庫擬選擇梁實秋、朱生豪和方平翻譯的三種莎士比亞戲劇全集作為中文語料,其中梁實秋譯本和朱生豪譯本都譯自牛津版。此外,牛津版莎士比亞戲劇全集的電子版可以從互聯(lián)網(wǎng)上免費下載,能省去英文語料輸入的大量工作。
就莎士比亞戲劇全集的漢譯本而言,比較知名的主要有曹未風譯本、朱生豪譯本、梁實秋譯本和方平譯本。曹未風譯本由貴陽文通書局于1942年至1944年之間出版,收入曹未風譯的莎劇劇本11部。朱生豪譯本最早由世界書局出版(1947),后來分別由作家出版社(1954)、人民文學出版社(1978)、時代文藝出版社(1996)和譯林出版社(1998)等出版。該譯本共收入莎劇37部,其中31部為朱生豪所譯。梁實秋譯本由臺灣遠東圖書公司出版(1967),收入梁實秋翻譯的全部36部莎劇劇本。1995年,內(nèi)蒙古文化出版社和中國廣播電視出版社分別出版梁實秋翻譯的《莎士比亞全集》。方平譯本,即《新莎士比亞全集》(河北教育出版社,2000),由方平和梁宗岱參照歐美當代備受重視的Bevington全集本(1992年)與Riverside(河畔)全集本(1974年),以詩體方式譯出。我們根據(jù)譯本的影響及所收莎劇劇本是否齊全,最終確定了朱生豪譯本、梁實秋譯本和方平譯本為語料庫的中文語料。不過,朱生豪譯本中有6部并非朱生豪所譯,故不作為中文語料。
確定語料庫的中英文文本之后,我們便開始進行中英文語料的輸入。牛津版莎士比亞戲劇全集和朱生豪譯本可從網(wǎng)上下載,并直接轉化成TXT格式。梁實秋譯本也可從網(wǎng)上下載,但其格式為PDF格式,需應用清華紫光OCR軟件轉換成TXT格式。方平譯本目前還不能從網(wǎng)上下載,需要使用高速掃描儀掃描或人工輸入。為保證語料庫的語料質(zhì)量以及研究的可靠性,我們組織人力仔細校對輸入好的語料,檢查語料是否出現(xiàn)倒碼、拼寫錯誤以及具體內(nèi)容與藍本出入等問題,并及時更正。
2.2語料的預處理語料的預處理主要包括文本格式的統(tǒng)一、各種雜質(zhì)的清除和中英文語料的分存等。作為中文語料的三個漢譯本分別由不同出版社出版,文本格式如字體、段落編排和文檔格式等各不相同,我們故而首先統(tǒng)一三個漢譯文本的格式。另外,直接從網(wǎng)上下載的語料,往往有多余的空格及空行、斷行、多余的語言符號,以及一些不必要的圖形或符號等。這些雜質(zhì)對于研究而言沒有什么實質(zhì)意義,需要清除。另外,上述莎劇漢譯本均附有數(shù)量不等的注釋,與研究內(nèi)容沒有多大關聯(lián),我們均將其刪除。在輸入并校對語料、清除雜質(zhì)、統(tǒng)一語料格式之后,我們將每部莎士比亞戲劇的中英文語料分存。
2.3語料的分詞和標注莎士比亞戲劇英漢平行語料庫需應用ParaConc和Wordsmith等軟件對中英文語料進行平行處理和檢索,但是由于漢語文字之間沒有空格,國外研發(fā)的許多軟件不能識別漢字。為保證漢語語料與國外軟件之間的兼容性,我們選用漢語詞法分析軟件ICTCLAS3.0版對漢語語料進行分詞處理。該軟件由中國科學院計算機技術研究所開發(fā),功能主要為詞匯切分和詞性標注。
我們討論了漢語語料分詞的具體方法(鄒頌兵2009a:158)。首先,選擇ICTCLAS3.0版中的“操作選項”欄目下的“詞語切分”和“輸出格式”欄目下的“北大標準”,“973標準”或XML格式。考慮到“北大標準”與該軟件的兼容性很強,我們將“輸出格式”確定為“北大標準”。然后,選中“處理文件”,上載需進行詞語切分處理的中文語料,并單擊“運行”,便可完成漢語語料的分詞處理。
語料的標注是指對語料庫的具體語料樣本屬性或語言學特征進行描述,分為篇頭信息和篇體信息標注。后者包括段落標注、語句標注、詞性標注、語法標注和語義標注等。莎士比亞戲劇英漢平行語料庫語料標注主要由詞性標注和段落標注等篇體信息標注組成。我們分別選用ICTCLAS3.0和CLAWS等軟件對中英文語料進行詞性標注處理,而段落標注則使用EmEditor軟件。
上一篇:戲劇在教育中的地位與作用
下一篇:高等戲劇教育的兩種模式及其前景
相關內(nèi)容
本文關鍵詞:莎士比亞戲劇英漢平行語料庫的創(chuàng)建與應用,由筆耕文化傳播整理發(fā)布。
本文編號:66719
本文鏈接:http://sikaile.net/wenyilunwen/xijuwudaolunwen/66719.html