天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于韻律和詞匯信息的中英文句邊界檢測研究

發(fā)布時間:2017-10-20 18:03

  本文關(guān)鍵詞:基于韻律和詞匯信息的中英文句邊界檢測研究


  更多相關(guān)文章: 句邊界檢測 條件隨機(jī)場 深度神經(jīng)網(wǎng)絡(luò) 深度遞歸神經(jīng)網(wǎng)絡(luò)


【摘要】:句邊界檢測(Sentence Boundary Detection)是從語音或文本數(shù)據(jù)中自動地找到完整語義單元(句子)的邊界,是眾多下游任務(wù)的前提和基礎(chǔ)。本文基于韻律和詞匯等多模態(tài)信息,研究了句邊界檢測任務(wù)的有效特征和方法。本文首先對句邊界檢測任務(wù)中涉及的韻律和詞匯特征進(jìn)行了研究,韻律特征包括停頓時長、基頻、能量、詞和音素時長以及說話人轉(zhuǎn)換特征,詞匯特征包括N-grams、POS、Chunk以及詞向量特征。我們研究了基于條件隨機(jī)場(Conditional Random Field)的句邊界檢測建模方法,條件隨機(jī)場對上下文信息和邊界類別的序列信息有較強的建模能力。文中我們把句邊界檢測任務(wù)轉(zhuǎn)化為序列標(biāo)注的問題,通過調(diào)節(jié)類別序列的階數(shù)和上下文特征的窗口,我們得到了最優(yōu)的條件隨機(jī)場模型。我們對比了其他常用分類器在句邊界檢測任務(wù)中的效果,包括決策樹、樸素貝葉斯、多層感知機(jī)、最大熵模型和支持向量機(jī),結(jié)果表明條件隨機(jī)場模型的檢測效果超越了其他分類器。由于韻律特征存在冗余信息,我們利用基于相關(guān)性的特征選擇方法對韻律特征進(jìn)行了特征選擇。深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network)具有很強的特征學(xué)習(xí)能力,通過多層非線性函數(shù)把輸入特征轉(zhuǎn)化為較好的特征表示。文中我們提出了一個基于深度神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場(DNN-CRF)混合模型的句邊界檢測系統(tǒng),該系統(tǒng)以深度神經(jīng)網(wǎng)絡(luò)在韻律特征上的后驗概率和詞匯特征為輸入,并用條件隨機(jī)場對該后驗概率與詞匯特征進(jìn)行建模,標(biāo)注出句子的邊界信息。結(jié)果表明,我們提出的DNN-CRF混合模型的檢測效果超越了先前最好的基于決策樹的DT-CRF方法,其NIST錯誤率在手工抄本和識別抄本條件下分別比DT-CRF降低了16.7%和4.1%。深度遞歸神經(jīng)網(wǎng)絡(luò)(Deep Recurrent Neural Network)具有深度神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力以及條件隨機(jī)場模型的序列和上下文建模能力,因此我們提出了基于深度遞歸神經(jīng)網(wǎng)絡(luò)的句邊界檢測方法,把韻律和詞匯特征統(tǒng)一到同一個框架中。傳統(tǒng)的深度遞歸神經(jīng)網(wǎng)絡(luò)對上下文和序列信息建模能力有限,也存在著梯度消失的問題,基于長短時記憶(Long Short Term Memory)結(jié)構(gòu)的深度遞歸神經(jīng)網(wǎng)絡(luò)能夠解決上述問題。本文中我們主要研究了深度雙向長短時記憶的遞歸神經(jīng)網(wǎng)絡(luò)(DBLSTM-RNN)和特征融合的策略,并使用了詞向量特征來表示詞語信息。實驗結(jié)果表明,在手工抄本和識別抄本條件下,結(jié)合韻律和詞匯特征的DBLSTM-RNN模型都超越了前文提出的DNN-CRF方法,其NIST錯誤率分別降低了15.9%和4.5%。
【關(guān)鍵詞】:句邊界檢測 條件隨機(jī)場 深度神經(jīng)網(wǎng)絡(luò) 深度遞歸神經(jīng)網(wǎng)絡(luò)
【學(xué)位授予單位】:西北工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TN912.34;TP183
【目錄】:
  • 摘要4-5
  • abstract5-10
  • 1 緒論10-18
  • 1.1 課題來源與研究意義10-11
  • 1.2 句邊界檢測的研究現(xiàn)狀11-14
  • 1.3 本文主要工作及創(chuàng)新點14-16
  • 1.4 本文組織結(jié)構(gòu)16-18
  • 2 語料庫及評測標(biāo)準(zhǔn)18-22
  • 2.1 語料庫18-19
  • 2.1.1 中文廣播新聞?wù)Z料庫18-19
  • 2.1.2 英文廣播新聞?wù)Z料庫19
  • 2.2 評測標(biāo)準(zhǔn)19-22
  • 3 句邊界檢測特征研究22-30
  • 3.1 韻律特征22-26
  • 3.1.1 停頓時長特征22-23
  • 3.1.2 基頻特征23-25
  • 3.1.3 能量特征25-26
  • 3.1.4 詞和音素時長特征26
  • 3.1.5 說話人轉(zhuǎn)換特征26
  • 3.2 詞匯特征26-28
  • 3.2.1 N-grams特征26-27
  • 3.2.2 POS和Chunk特征27
  • 3.2.3 詞向量特征27-28
  • 3.3 本章小結(jié)28-30
  • 4 基于條件隨機(jī)場的句邊界檢測30-44
  • 4.1 條件隨機(jī)場模型30-37
  • 4.1.1 模型定義30-33
  • 4.1.2 概率計算問題33-34
  • 4.1.3 模型學(xué)習(xí)問題34-36
  • 4.1.4 序列預(yù)測問題36-37
  • 4.2 句邊界檢測系統(tǒng)概述37-38
  • 4.3 實驗與分析38-41
  • 4.3.1 實驗設(shè)置38-39
  • 4.3.2 實驗結(jié)果與分析39-40
  • 4.3.3 特征使用分析40-41
  • 4.4 本章小結(jié)41-44
  • 5 基于DNN-CRF的句邊界檢測44-54
  • 5.1 深度神經(jīng)網(wǎng)絡(luò)模型44-48
  • 5.1.1 前向傳播45-47
  • 5.1.2 后向傳播47-48
  • 5.2 DNN-CRF句邊界檢測系統(tǒng)48-49
  • 5.3 實驗與分析49-52
  • 5.3.1 實驗設(shè)置49-50
  • 5.3.2 DNN韻律模型的結(jié)果與分析50-51
  • 5.3.3 DNN-CRF的結(jié)果與分析51-52
  • 5.4 本章小結(jié)52-54
  • 6 基于DBLSTM-RNN的句邊界檢測54-70
  • 6.1 遞歸神經(jīng)網(wǎng)絡(luò)54-57
  • 6.1.1 前向傳播54-56
  • 6.1.2 后向傳播56
  • 6.1.3 雙向遞歸神經(jīng)網(wǎng)絡(luò)56-57
  • 6.2 長短時記憶57-62
  • 6.2.1 前向傳播59-61
  • 6.2.2 后向傳播61-62
  • 6.3 DBLSTM-RNN句邊界檢測系統(tǒng)62-64
  • 6.4 實驗與分析64-69
  • 6.4.1 實驗設(shè)置64-65
  • 6.4.2 基于韻律特征的實驗結(jié)果與分析65-66
  • 6.4.3 基于詞匯特征的實驗結(jié)果與分析66-68
  • 6.4.4 多類特征融合的實驗結(jié)果與分析68-69
  • 6.5 本章小結(jié)69-70
  • 7 總結(jié)與展望70-72
  • 參考文獻(xiàn)72-78
  • 致謝78-80
  • 科研成果發(fā)表80-81

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 郭圣文,羅立民;一種新的線邊界檢測方法[J];計算機(jī)學(xué)報;2003年07期

2 韓海;線條化的邊界檢測[J];湖北大學(xué)學(xué)報(自然科學(xué)版);2003年03期

3 張俊燕;全方向M型心動圖像的邊界檢測[J];成都信息工程學(xué)院學(xué)報;2004年01期

4 許先斌,汪長城,陳勇華;一種基于運動特征的快速鏡頭邊界檢測方法[J];計算機(jī)應(yīng)用;2004年12期

5 韓冰,姬紅兵,高新波;一種基于小波的分層和多分辨的鏡頭邊界檢測方法[J];西安電子科技大學(xué)學(xué)報;2005年01期

6 韓冰,姬紅兵,高新波;一種先切分后檢測的分層鏡頭邊界檢測方法[J];系統(tǒng)工程與電子技術(shù);2005年02期

7 高健;周宇玫;茅時群;;一種基于相關(guān)性分析的鏡頭邊界檢測系統(tǒng)[J];電視技術(shù);2006年03期

8 蔣興浩;孫錟鋒;方之昕;李榮杰;馮冰;;基于可變窗的鏡頭邊界檢測算法[J];上海交通大學(xué)學(xué)報;2009年11期

9 肖永良;朱韶平;劉超群;;基于結(jié)構(gòu)保留投影的鏡頭邊界檢測[J];計算機(jī)工程與應(yīng)用;2012年32期

10 謝筱華,羅立民,韋鈺;基于矩的異分辨率圖象邊界檢測[J];電子學(xué)報;1993年10期

中國重要會議論文全文數(shù)據(jù)庫 前7條

1 Yue Feng WAN;Jack-Gérard POSTAIRE;Fran噻ois CABESTAING;;圖像邊界檢測[A];1995年中國控制會議論文集(上)[C];1995年

2 管永紅;劉瑞根;周俸才;;用計算機(jī)對比法進(jìn)行邊界檢測[A];中國工程物理研究院科技年報(1998)[C];1998年

3 盧文鋒;;基于貝葉斯方法的超聲波圖像邊界檢測[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年

4 彭進(jìn)業(yè);郝重陽;;一種基于二維圖像分割的視頻鏡頭邊界檢測方法[A];信號與信息處理技術(shù)第三屆信號與信息處理全國聯(lián)合學(xué)術(shù)會議論文集[C];2004年

5 劉瑞根;董維申;周俸才;管永紅;;三種不依賴對比樣品的閃光X光照相圖像邊界檢測[A];中國工程物理研究院科技年報(1999)[C];1999年

6 王麗輝;袁保宗;苗振江;;結(jié)合FCM和邊界檢測算法進(jìn)行不規(guī)則點云去噪[A];第十三屆全國信號處理學(xué)術(shù)年會(CCSP-2007)論文集[C];2007年

7 范競往;翟曉飛;封化民;楊鼎才;方勇;;一種雙層新聞邏輯單元分割框架[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2005)論文集[C];2005年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條

1 邰振華;位場數(shù)據(jù)高精度處理方法的研究與應(yīng)用[D];吉林大學(xué);2016年

2 張輝;基于朝向?qū)Ρ榷鹊倪吔鐧z測和圖像分類研究[D];北京交通大學(xué);2014年

3 李桂丹;無線傳感器網(wǎng)絡(luò)路由協(xié)議及容錯事件邊界檢測研究[D];天津大學(xué);2009年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 耿鵬;混合屬性數(shù)據(jù)聚類邊界檢測技術(shù)的研究[D];鄭州大學(xué);2015年

2 樊駿笠;關(guān)聯(lián)稀疏在圖像恢復(fù)和邊界檢測中的應(yīng)用[D];浙江師范大學(xué);2015年

3 孫娟;新的視頻鏡頭邊界檢測的度量標(biāo)準(zhǔn)[D];蘭州大學(xué);2015年

4 劉烽;基于動態(tài)閾值與擬合特征的鏡頭邊界檢測[D];南京大學(xué);2013年

5 劉勝男;基于超像素的點互信息圖像邊界檢測與分割算法研究[D];西北農(nóng)林科技大學(xué);2016年

6 王瑞宇;無監(jiān)督在線學(xué)習(xí)實現(xiàn)遮擋邊界檢測與遮擋規(guī)避方法研究[D];燕山大學(xué);2016年

7 張鋮;基于小型無人直升機(jī)的環(huán)境污染區(qū)域邊界檢測與跟蹤算法的研究[D];華南理工大學(xué);2016年

8 嚴(yán)征;無人車的道路邊界檢測研究[D];西安工業(yè)大學(xué);2016年

9 Malichenko Viktor;實時道路邊界檢測和交通標(biāo)志識別[D];北京工業(yè)大學(xué);2016年

10 許成林;基于韻律和詞匯信息的中英文句邊界檢測研究[D];西北工業(yè)大學(xué);2015年

,

本文編號:1068556

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wltx/1068556.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2a7ef***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com