漢語(yǔ)方言語(yǔ)音數(shù)據(jù)庫(kù)的標(biāo)注研究
摘 要:
摘 要:對(duì)語(yǔ)音數(shù)據(jù)庫(kù)進(jìn)行標(biāo)注的目的是為語(yǔ)言工程和與語(yǔ)音研究提供可靠的數(shù)據(jù)。對(duì)語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì)的方法一直是目前語(yǔ)音分析和語(yǔ)音技術(shù)的主流;同時(shí),語(yǔ)音的基礎(chǔ)研究,也很少使用實(shí)驗(yàn)室語(yǔ)音進(jìn)行定性分析,而趨向采用大量自然語(yǔ)料的定量統(tǒng)計(jì)分析,所以語(yǔ)音數(shù)據(jù)庫(kù)的標(biāo)注顯得尤為重要。
關(guān)鍵詞:
關(guān)鍵詞:語(yǔ)料庫(kù) 語(yǔ)音 標(biāo)注 數(shù)據(jù)庫(kù)
漢語(yǔ)方言在各個(gè)地方是應(yīng)用比較廣泛的語(yǔ)言,它在發(fā)音、韻律、詞匯及其詞的形態(tài)變化、組織句子結(jié)構(gòu)、文章的構(gòu)成等許多方面都具有各自獨(dú)特的特性。漢語(yǔ)方言語(yǔ)音數(shù)據(jù)庫(kù)建設(shè)是漢語(yǔ)方言研究不可缺少的部分。隨著對(duì)漢語(yǔ)方言研究的深入,比如機(jī)器翻譯、語(yǔ)音合成、語(yǔ)音識(shí)別、文字識(shí)別、智能檢索等研究,漢語(yǔ)方言各個(gè)特性的量化描述需求越來(lái)越大。正是漢語(yǔ)方言語(yǔ)音數(shù)據(jù)庫(kù),為漢語(yǔ)方言研究提供了確鑿的數(shù)據(jù)。國(guó)內(nèi)各種普通話語(yǔ)音數(shù)據(jù)庫(kù)有很大的進(jìn)步,并逐漸成熟。漢語(yǔ)方言語(yǔ)音數(shù)據(jù)庫(kù)還是寥寥無(wú)幾,而且大多數(shù)的研究是從語(yǔ)言學(xué)的角度定性分析和解析,其主要目的是為了語(yǔ)言的共時(shí)研究、語(yǔ)言學(xué)研究以及民族學(xué)研究等等,而從聲學(xué)和物理學(xué)的角度定量分析和解析的研究則比較少。所以,漢語(yǔ)方言語(yǔ)音數(shù)據(jù)庫(kù)建設(shè)和研究,有它的歷史價(jià)值和使用價(jià)值。
然而,建立漢語(yǔ)方言語(yǔ)音數(shù)據(jù)庫(kù)關(guān)鍵的一個(gè)環(huán)節(jié)就是數(shù)據(jù)庫(kù)的標(biāo)注。對(duì)語(yǔ)音庫(kù)進(jìn)行標(biāo)注的目的是為語(yǔ)言工程和與語(yǔ)音研究提供可靠的數(shù)據(jù)。對(duì)語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì)的方法一直是目前語(yǔ)音分析和語(yǔ)音技術(shù)的主流;同時(shí),語(yǔ)音的基礎(chǔ)研究,也很少使用實(shí)驗(yàn)室語(yǔ)音進(jìn)行定性分析,而趨向采用大量自然語(yǔ)料的定量統(tǒng)計(jì)分析,所以語(yǔ)音庫(kù)標(biāo)注也越來(lái)越受到人們的關(guān)注。但是,語(yǔ)音庫(kù)的標(biāo)注過(guò)程并不是人們所想象的那么簡(jiǎn)單,這本身就是一項(xiàng)研究工作。
根據(jù)編碼標(biāo)注的復(fù)雜程度,可將語(yǔ)音數(shù)據(jù)庫(kù)的標(biāo)注細(xì)分為以下幾種情況:加任何處理的純文本語(yǔ)料庫(kù);經(jīng)過(guò)格式屬性標(biāo)注的語(yǔ)料庫(kù),如對(duì)段落、字體、字號(hào)進(jìn)行標(biāo)注;對(duì)識(shí)別信息進(jìn)行標(biāo)注,如作者、體裁、語(yǔ)域,以及詞性標(biāo)注;特殊標(biāo)記,如錯(cuò)誤附碼。
1 語(yǔ)料庫(kù)的加工處理
1.1 語(yǔ)料庫(kù)加工處理的原理
并不是說(shuō)把大量電子文本簡(jiǎn)單堆放在一起就建成了語(yǔ)料庫(kù),一個(gè)語(yǔ)料庫(kù)的設(shè)計(jì)和建成總是代表某一具體領(lǐng)域的語(yǔ)言應(yīng)用或滿足相應(yīng)的研究目的。一個(gè)計(jì)算機(jī)語(yǔ)料庫(kù)的功能主要和下面三個(gè)因素密切相關(guān),即庫(kù)的規(guī)模、語(yǔ)料的分布和語(yǔ)料的加工深度。因?yàn)閹?kù)容量的大小直接影響到統(tǒng)計(jì)結(jié)果的可靠性,語(yǔ)料分布的考慮則關(guān)系到統(tǒng)計(jì)結(jié)果的適用范圍,而加工深度則決定了該語(yǔ)料庫(kù)能為自然語(yǔ)言處理提供什么樣的知識(shí)。
語(yǔ)料庫(kù)的應(yīng)用越來(lái)越廣泛。90年代開(kāi)始語(yǔ)料庫(kù)的應(yīng)用進(jìn)入了蓬勃發(fā)展的階段。如在機(jī)器翻譯、語(yǔ)音合成與語(yǔ)音識(shí)別、智能搜索方面的應(yīng)用。這些應(yīng)用是離不開(kāi)對(duì)語(yǔ)料庫(kù)的處理和分析,基本處理和分析過(guò)程包括以下幾個(gè)步驟:語(yǔ)音處理,指音段分析,主要用于語(yǔ)音識(shí)別和語(yǔ)音合成。正字處理指對(duì)文本中各種非文字符號(hào)、標(biāo)點(diǎn)、大小寫問(wèn)題等進(jìn)行處理和歧義消除。形態(tài)處理,即詞性指定和標(biāo)注碼。句法處理和語(yǔ)用處理,對(duì)語(yǔ)篇進(jìn)行語(yǔ)義指定和意義解釋。圖1表示出了語(yǔ)料庫(kù)的加工過(guò)程。
為了從原始語(yǔ)料中得到有用的語(yǔ)言知識(shí)庫(kù),必須對(duì)語(yǔ)料庫(kù)進(jìn)行加工。按需要對(duì)語(yǔ)料庫(kù)的加工可以從不同層次、不同深度兩個(gè)方面來(lái)分析。單語(yǔ)料庫(kù)的加工有:詞性標(biāo)注、詞匯語(yǔ)義標(biāo)注、句法標(biāo)注等。
在對(duì)大規(guī)模語(yǔ)料的切分和標(biāo)注過(guò)程中,可以采用兩種方法:人工標(biāo)注和自動(dòng)處理。自動(dòng)處理的優(yōu)勢(shì)在于它處理速度快、效率高、可以保持較好的一致性。但由于自然語(yǔ)言中存在著大量的歧義現(xiàn)象,而計(jì)算機(jī)自動(dòng)排歧的知識(shí)不完備致使自動(dòng)處理結(jié)果會(huì)有許多錯(cuò)誤,如:將交集型和組合型字段切錯(cuò),不能正確地選擇合適的詞類標(biāo)記等,從而降低了處理的準(zhǔn)確度。而人工標(biāo)注正好相反。如果參與工作的人的語(yǔ)言學(xué)知識(shí)比較豐富,又有一定的知識(shí)背景,能在切分和標(biāo)注過(guò)程中依據(jù)上下文信息做出準(zhǔn)確的判斷,那就很少發(fā)生歧義字段切錯(cuò)或詞類標(biāo)記標(biāo)錯(cuò)的現(xiàn)象。但在大規(guī)模語(yǔ)料的處理過(guò)程中,由于各人對(duì)一些概念的認(rèn)識(shí)水平存在差異,即使是同一個(gè)人,在不同的階段某些認(rèn)識(shí)和觀點(diǎn)也會(huì)發(fā)生變化,這樣不可避免的會(huì)使切分和標(biāo)注結(jié)果出現(xiàn)許多不一致現(xiàn)象。而且純粹由人來(lái)標(biāo)注,效率不高,其處理時(shí)間也太長(zhǎng)。
經(jīng)過(guò)標(biāo)注和附碼的語(yǔ)料庫(kù)使得語(yǔ)料庫(kù)數(shù)據(jù)分析更加系統(tǒng)精確,也便于對(duì)特殊數(shù)據(jù)信息的提取和處理。但是,不經(jīng)任何人工介入的生語(yǔ)料庫(kù)同樣具有獨(dú)特的價(jià)值。在語(yǔ)料庫(kù)建設(shè)中,一般是保持一個(gè)干凈的生語(yǔ)料庫(kù),而把經(jīng)過(guò)標(biāo)注和句法分析的語(yǔ)料另存為一個(gè)子語(yǔ)料庫(kù)或者獨(dú)立的版本。
1.2 錄音的加工
一般采集的只是生語(yǔ)料,還要對(duì)其進(jìn)行加工,才能成為真正的方言音庫(kù)。生語(yǔ)料需要的加工的步驟為:
第一,除錄制語(yǔ)音中的首尾噪聲。
第二,去除錄音中的靜音部分, 靜音我們定義為:安靜的條件是信號(hào)低于-38dB、長(zhǎng)于140ms;聲音的條件為高于-34dB,語(yǔ)音長(zhǎng)于25ms的信號(hào)。
第三,丟棄錄音格式不對(duì)的語(yǔ)音。比如采樣率誤用為8kHZ。語(yǔ)音保存為sfs等其他非wav文件格式等。
第四,丟棄錄音質(zhì)量不高的語(yǔ)音。主要涉及:說(shuō)話人呼吸氣,環(huán)境噪聲,語(yǔ)速過(guò)快,,與提問(wèn)無(wú)關(guān)的話,不是要錄的方言,帶有明顯其他方言口音。
第五,寬音位標(biāo)注。要求標(biāo)注的寬音位有:元音,擦音,塞音,閉塞(靜音或背景噪聲),元音前響音,元音間響音,元音后響音。這里的響音是指發(fā)音時(shí)氣流從口腔或鼻腔順利流通。
第六,確認(rèn)每句話的實(shí)際所屬方言。判斷是否受其他方言的影響,那種方言是何種方言。
第七,對(duì)錄下的方言進(jìn)行詳細(xì)的語(yǔ)音標(biāo)注(按國(guó)際音標(biāo)或其他公認(rèn)音標(biāo)標(biāo)注)。
第八,經(jīng)過(guò)上述處理,對(duì)整個(gè)語(yǔ)音庫(kù)進(jìn)行語(yǔ)音學(xué)及聲學(xué)統(tǒng)計(jì)分析。
此外,還需要對(duì)語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè)。端點(diǎn)檢測(cè)算法不是實(shí)時(shí)運(yùn)行的,而是從wav文件中獲取語(yǔ)音采樣,將其分幀并計(jì)算短時(shí)能量和過(guò)零率參數(shù),然后檢測(cè)。這種工作方式被稱為離線處理方法,而實(shí)時(shí)的處理方法是在線的。圖2是無(wú)錫話“桌子”的端點(diǎn)檢測(cè)圖樣。
圖2 無(wú)錫話“桌子”的端點(diǎn)檢測(cè)(從上到下依次為:原始語(yǔ)音信號(hào)、短時(shí)能量、過(guò)零率)
2 語(yǔ)音數(shù)據(jù)庫(kù)的標(biāo)注
2.1 詞性的標(biāo)注
詞性標(biāo)注是語(yǔ)料庫(kù)加工的基本層次。要進(jìn)行詞性標(biāo)注有標(biāo)注集。如何確定標(biāo)注集?Penn Treebank提供了以下幾點(diǎn)原則:一是可恢復(fù)性,從標(biāo)注符號(hào)能恢復(fù)原詞;二是一致性,一隊(duì)詞中的兩個(gè)不能不同類,即一個(gè)屬于異類,另一個(gè)屬于另一類;三是句法功能,是一個(gè)詞的詞性能正確反映它的句法功能;四是不明確性,某一詞的詞性不明確時(shí)可以給出多個(gè)標(biāo)記。
詞性標(biāo)注可以看成是從一種符號(hào)串到另一種符號(hào)串的映射過(guò)程,這種過(guò)程通過(guò)言語(yǔ)模型(言語(yǔ)模型,是指語(yǔ)言學(xué)信息及其處理的形式化)方法實(shí)現(xiàn)。
詞類標(biāo)注的作用就是消除句子中詞的語(yǔ)法兼類。能屬于多種詞類的詞,在實(shí)際的語(yǔ)言環(huán)境中只屬于一種詞類,那么在詞類標(biāo)注中指出其實(shí)際環(huán)境的正確類型。詞類的正確標(biāo)注是后續(xù)句法標(biāo)注乃至語(yǔ)義標(biāo)注的前提。詞性標(biāo)注的自動(dòng)實(shí)現(xiàn)是目前語(yǔ)料庫(kù)加工的基本步驟。詞性標(biāo)注系統(tǒng)有TAGGIT、Brill的方法、Constraint Grammar System、CLAWS、VOLSUNGA、Xtract等。
常見(jiàn)的詞性標(biāo)注方法有以下幾種:基于規(guī)則的方法、基于統(tǒng)計(jì)的方法、基于統(tǒng)計(jì)和規(guī)則相結(jié)合的方法(隱馬爾可夫模型和Brill方法相結(jié)合的方法)、應(yīng)用神經(jīng)網(wǎng)絡(luò)方法、應(yīng)用決策歸納示例學(xué)習(xí)方法。
2.2 音段的標(biāo)注
音段標(biāo)注是為每一個(gè)音段增加用國(guó)際音標(biāo)來(lái)表示的音段名稱。國(guó)際音標(biāo)IPA是國(guó)際通用的標(biāo)點(diǎn)符號(hào)。國(guó)際音標(biāo)是以羅馬字母為基礎(chǔ),再加上一些其他字母組成,但它不能通過(guò)計(jì)算機(jī)鍵盤輸入。為此國(guó)際上研究了一種與IPA對(duì)應(yīng)的計(jì)算機(jī)可讀的語(yǔ)音學(xué)符號(hào)SAMPA。在1987-1989年,SAMPA首先用于歐洲語(yǔ)言間的通信,如丹麥語(yǔ)、德語(yǔ)、意大利語(yǔ)、法語(yǔ)和英語(yǔ),F(xiàn)在已經(jīng)擴(kuò)展到許多語(yǔ)言。并在語(yǔ)言學(xué)標(biāo)記的機(jī)器可讀標(biāo)準(zhǔn)方面開(kāi)展了非常好的國(guó)際合作。SAMPA將IPA映射到ASCII碼的33~127范圍內(nèi)。與編碼一起指導(dǎo)語(yǔ)言的語(yǔ)音標(biāo)記。
從圖3,可以看出語(yǔ)音中的靜音和語(yǔ)音、聲母和韻母可以通過(guò)短時(shí)能量和短時(shí)平均幅度區(qū)分出來(lái)。清音段信號(hào)隨機(jī)性較強(qiáng),頻頻穿過(guò)零點(diǎn),所以短時(shí)過(guò)零率較高。而濁音段的過(guò)零率要低一些。短時(shí)能量和短時(shí)平均幅度也包含有清音和濁音的判別信息。
圖3 沭陽(yáng)話“上課”的時(shí)域波形圖和過(guò)零率圖
(分析工具為SFSWin1.30和Speech Analyzer2.4)
(橫軸都為時(shí)間,上圖縱軸為振幅,下圖縱軸為過(guò)零率)
2.3 韻律的標(biāo)注
本文編號(hào):14527
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/14527.html