基于韻律和詞匯信息的中英文句邊界檢測研究
本文關(guān)鍵詞:基于韻律和詞匯信息的中英文句邊界檢測研究
更多相關(guān)文章: 句邊界檢測 條件隨機(jī)場 深度神經(jīng)網(wǎng)絡(luò) 深度遞歸神經(jīng)網(wǎng)絡(luò)
【摘要】:句邊界檢測(Sentence Boundary Detection)是從語音或文本數(shù)據(jù)中自動地找到完整語義單元(句子)的邊界,是眾多下游任務(wù)的前提和基礎(chǔ)。本文基于韻律和詞匯等多模態(tài)信息,研究了句邊界檢測任務(wù)的有效特征和方法。本文首先對句邊界檢測任務(wù)中涉及的韻律和詞匯特征進(jìn)行了研究,韻律特征包括停頓時長、基頻、能量、詞和音素時長以及說話人轉(zhuǎn)換特征,詞匯特征包括N-grams、POS、Chunk以及詞向量特征。我們研究了基于條件隨機(jī)場(Conditional Random Field)的句邊界檢測建模方法,條件隨機(jī)場對上下文信息和邊界類別的序列信息有較強的建模能力。文中我們把句邊界檢測任務(wù)轉(zhuǎn)化為序列標(biāo)注的問題,通過調(diào)節(jié)類別序列的階數(shù)和上下文特征的窗口,我們得到了最優(yōu)的條件隨機(jī)場模型。我們對比了其他常用分類器在句邊界檢測任務(wù)中的效果,包括決策樹、樸素貝葉斯、多層感知機(jī)、最大熵模型和支持向量機(jī),結(jié)果表明條件隨機(jī)場模型的檢測效果超越了其他分類器。由于韻律特征存在冗余信息,我們利用基于相關(guān)性的特征選擇方法對韻律特征進(jìn)行了特征選擇。深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network)具有很強的特征學(xué)習(xí)能力,通過多層非線性函數(shù)把輸入特征轉(zhuǎn)化為較好的特征表示。文中我們提出了一個基于深度神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場(DNN-CRF)混合模型的句邊界檢測系統(tǒng),該系統(tǒng)以深度神經(jīng)網(wǎng)絡(luò)在韻律特征上的后驗概率和詞匯特征為輸入,并用條件隨機(jī)場對該后驗概率與詞匯特征進(jìn)行建模,標(biāo)注出句子的邊界信息。結(jié)果表明,我們提出的DNN-CRF混合模型的檢測效果超越了先前最好的基于決策樹的DT-CRF方法,其NIST錯誤率在手工抄本和識別抄本條件下分別比DT-CRF降低了16.7%和4.1%。深度遞歸神經(jīng)網(wǎng)絡(luò)(Deep Recurrent Neural Network)具有深度神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力以及條件隨機(jī)場模型的序列和上下文建模能力,因此我們提出了基于深度遞歸神經(jīng)網(wǎng)絡(luò)的句邊界檢測方法,把韻律和詞匯特征統(tǒng)一到同一個框架中。傳統(tǒng)的深度遞歸神經(jīng)網(wǎng)絡(luò)對上下文和序列信息建模能力有限,也存在著梯度消失的問題,基于長短時記憶(Long Short Term Memory)結(jié)構(gòu)的深度遞歸神經(jīng)網(wǎng)絡(luò)能夠解決上述問題。本文中我們主要研究了深度雙向長短時記憶的遞歸神經(jīng)網(wǎng)絡(luò)(DBLSTM-RNN)和特征融合的策略,并使用了詞向量特征來表示詞語信息。實驗結(jié)果表明,在手工抄本和識別抄本條件下,結(jié)合韻律和詞匯特征的DBLSTM-RNN模型都超越了前文提出的DNN-CRF方法,其NIST錯誤率分別降低了15.9%和4.5%。
【關(guān)鍵詞】:句邊界檢測 條件隨機(jī)場 深度神經(jīng)網(wǎng)絡(luò) 深度遞歸神經(jīng)網(wǎng)絡(luò)
【學(xué)位授予單位】:西北工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TN912.34;TP183
【目錄】:
- 摘要4-5
- abstract5-10
- 1 緒論10-18
- 1.1 課題來源與研究意義10-11
- 1.2 句邊界檢測的研究現(xiàn)狀11-14
- 1.3 本文主要工作及創(chuàng)新點14-16
- 1.4 本文組織結(jié)構(gòu)16-18
- 2 語料庫及評測標(biāo)準(zhǔn)18-22
- 2.1 語料庫18-19
- 2.1.1 中文廣播新聞?wù)Z料庫18-19
- 2.1.2 英文廣播新聞?wù)Z料庫19
- 2.2 評測標(biāo)準(zhǔn)19-22
- 3 句邊界檢測特征研究22-30
- 3.1 韻律特征22-26
- 3.1.1 停頓時長特征22-23
- 3.1.2 基頻特征23-25
- 3.1.3 能量特征25-26
- 3.1.4 詞和音素時長特征26
- 3.1.5 說話人轉(zhuǎn)換特征26
- 3.2 詞匯特征26-28
- 3.2.1 N-grams特征26-27
- 3.2.2 POS和Chunk特征27
- 3.2.3 詞向量特征27-28
- 3.3 本章小結(jié)28-30
- 4 基于條件隨機(jī)場的句邊界檢測30-44
- 4.1 條件隨機(jī)場模型30-37
- 4.1.1 模型定義30-33
- 4.1.2 概率計算問題33-34
- 4.1.3 模型學(xué)習(xí)問題34-36
- 4.1.4 序列預(yù)測問題36-37
- 4.2 句邊界檢測系統(tǒng)概述37-38
- 4.3 實驗與分析38-41
- 4.3.1 實驗設(shè)置38-39
- 4.3.2 實驗結(jié)果與分析39-40
- 4.3.3 特征使用分析40-41
- 4.4 本章小結(jié)41-44
- 5 基于DNN-CRF的句邊界檢測44-54
- 5.1 深度神經(jīng)網(wǎng)絡(luò)模型44-48
- 5.1.1 前向傳播45-47
- 5.1.2 后向傳播47-48
- 5.2 DNN-CRF句邊界檢測系統(tǒng)48-49
- 5.3 實驗與分析49-52
- 5.3.1 實驗設(shè)置49-50
- 5.3.2 DNN韻律模型的結(jié)果與分析50-51
- 5.3.3 DNN-CRF的結(jié)果與分析51-52
- 5.4 本章小結(jié)52-54
- 6 基于DBLSTM-RNN的句邊界檢測54-70
- 6.1 遞歸神經(jīng)網(wǎng)絡(luò)54-57
- 6.1.1 前向傳播54-56
- 6.1.2 后向傳播56
- 6.1.3 雙向遞歸神經(jīng)網(wǎng)絡(luò)56-57
- 6.2 長短時記憶57-62
- 6.2.1 前向傳播59-61
- 6.2.2 后向傳播61-62
- 6.3 DBLSTM-RNN句邊界檢測系統(tǒng)62-64
- 6.4 實驗與分析64-69
- 6.4.1 實驗設(shè)置64-65
- 6.4.2 基于韻律特征的實驗結(jié)果與分析65-66
- 6.4.3 基于詞匯特征的實驗結(jié)果與分析66-68
- 6.4.4 多類特征融合的實驗結(jié)果與分析68-69
- 6.5 本章小結(jié)69-70
- 7 總結(jié)與展望70-72
- 參考文獻(xiàn)72-78
- 致謝78-80
- 科研成果發(fā)表80-81
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭圣文,羅立民;一種新的線邊界檢測方法[J];計算機(jī)學(xué)報;2003年07期
2 韓海;線條化的邊界檢測[J];湖北大學(xué)學(xué)報(自然科學(xué)版);2003年03期
3 張俊燕;全方向M型心動圖像的邊界檢測[J];成都信息工程學(xué)院學(xué)報;2004年01期
4 許先斌,汪長城,陳勇華;一種基于運動特征的快速鏡頭邊界檢測方法[J];計算機(jī)應(yīng)用;2004年12期
5 韓冰,姬紅兵,高新波;一種基于小波的分層和多分辨的鏡頭邊界檢測方法[J];西安電子科技大學(xué)學(xué)報;2005年01期
6 韓冰,姬紅兵,高新波;一種先切分后檢測的分層鏡頭邊界檢測方法[J];系統(tǒng)工程與電子技術(shù);2005年02期
7 高健;周宇玫;茅時群;;一種基于相關(guān)性分析的鏡頭邊界檢測系統(tǒng)[J];電視技術(shù);2006年03期
8 蔣興浩;孫錟鋒;方之昕;李榮杰;馮冰;;基于可變窗的鏡頭邊界檢測算法[J];上海交通大學(xué)學(xué)報;2009年11期
9 肖永良;朱韶平;劉超群;;基于結(jié)構(gòu)保留投影的鏡頭邊界檢測[J];計算機(jī)工程與應(yīng)用;2012年32期
10 謝筱華,羅立民,韋鈺;基于矩的異分辨率圖象邊界檢測[J];電子學(xué)報;1993年10期
中國重要會議論文全文數(shù)據(jù)庫 前7條
1 Yue Feng WAN;Jack-Gérard POSTAIRE;Fran噻ois CABESTAING;;圖像邊界檢測[A];1995年中國控制會議論文集(上)[C];1995年
2 管永紅;劉瑞根;周俸才;;用計算機(jī)對比法進(jìn)行邊界檢測[A];中國工程物理研究院科技年報(1998)[C];1998年
3 盧文鋒;;基于貝葉斯方法的超聲波圖像邊界檢測[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年
4 彭進(jìn)業(yè);郝重陽;;一種基于二維圖像分割的視頻鏡頭邊界檢測方法[A];信號與信息處理技術(shù)第三屆信號與信息處理全國聯(lián)合學(xué)術(shù)會議論文集[C];2004年
5 劉瑞根;董維申;周俸才;管永紅;;三種不依賴對比樣品的閃光X光照相圖像邊界檢測[A];中國工程物理研究院科技年報(1999)[C];1999年
6 王麗輝;袁保宗;苗振江;;結(jié)合FCM和邊界檢測算法進(jìn)行不規(guī)則點云去噪[A];第十三屆全國信號處理學(xué)術(shù)年會(CCSP-2007)論文集[C];2007年
7 范競往;翟曉飛;封化民;楊鼎才;方勇;;一種雙層新聞邏輯單元分割框架[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2005)論文集[C];2005年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 邰振華;位場數(shù)據(jù)高精度處理方法的研究與應(yīng)用[D];吉林大學(xué);2016年
2 張輝;基于朝向?qū)Ρ榷鹊倪吔鐧z測和圖像分類研究[D];北京交通大學(xué);2014年
3 李桂丹;無線傳感器網(wǎng)絡(luò)路由協(xié)議及容錯事件邊界檢測研究[D];天津大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 耿鵬;混合屬性數(shù)據(jù)聚類邊界檢測技術(shù)的研究[D];鄭州大學(xué);2015年
2 樊駿笠;關(guān)聯(lián)稀疏在圖像恢復(fù)和邊界檢測中的應(yīng)用[D];浙江師范大學(xué);2015年
3 孫娟;新的視頻鏡頭邊界檢測的度量標(biāo)準(zhǔn)[D];蘭州大學(xué);2015年
4 劉烽;基于動態(tài)閾值與擬合特征的鏡頭邊界檢測[D];南京大學(xué);2013年
5 劉勝男;基于超像素的點互信息圖像邊界檢測與分割算法研究[D];西北農(nóng)林科技大學(xué);2016年
6 王瑞宇;無監(jiān)督在線學(xué)習(xí)實現(xiàn)遮擋邊界檢測與遮擋規(guī)避方法研究[D];燕山大學(xué);2016年
7 張鋮;基于小型無人直升機(jī)的環(huán)境污染區(qū)域邊界檢測與跟蹤算法的研究[D];華南理工大學(xué);2016年
8 嚴(yán)征;無人車的道路邊界檢測研究[D];西安工業(yè)大學(xué);2016年
9 Malichenko Viktor;實時道路邊界檢測和交通標(biāo)志識別[D];北京工業(yè)大學(xué);2016年
10 許成林;基于韻律和詞匯信息的中英文句邊界檢測研究[D];西北工業(yè)大學(xué);2015年
,本文編號:1068556
本文鏈接:http://sikaile.net/kejilunwen/wltx/1068556.html