天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

面向領(lǐng)域的語音轉(zhuǎn)換后文本糾錯研究

發(fā)布時間:2020-09-22 18:20
   隨著信息時代的發(fā)展,人們每天產(chǎn)生的信息都呈指數(shù)爆炸式地增長。這些信息都蘊含著有價值的數(shù)據(jù)有待人們?nèi)ネ诰。比?銀行,保險等傳統(tǒng)行業(yè)公司,每天都會收到大量客服來電,而公司亟待從這些海量對話數(shù)據(jù)里面,進行對話質(zhì)量分析,挖掘用戶意圖等。但在對這些數(shù)據(jù)分析之前,首先遇到的困難是,這些對話數(shù)據(jù)大多數(shù)是通過語音識別后轉(zhuǎn)為文本,在語音轉(zhuǎn)換過程中,由于受到噪聲,用戶口音等干擾,導(dǎo)致語音識別后的文本存在錯誤,從而降低了文本的可分析性。因此,運用自然語言處理的方法,結(jié)合對話自身的特性,對這些文本進行糾錯,一方面能提高對話語音轉(zhuǎn)換的正確率,另一方面也有利于文本數(shù)據(jù)進行進一步的分析,最大化地挖掘數(shù)據(jù)中的價值。雖然文本糾錯一直以來有人研究,但大多是面向開放領(lǐng)域的規(guī)范文本(報紙,書刊類文本),而面對口語化程度高、特定領(lǐng)域文本的糾錯,則鮮有研究,而且是一大挑戰(zhàn)。在查錯方面,本文提出利用組合N-gram模型,融合雙向長短期記憶神經(jīng)網(wǎng)絡(luò)Bi-LSTM語言模型,對句子進行評估,提高查錯的精確率。定位到錯誤點后,則需要進行糾錯。在糾錯方面,本文提出多策略產(chǎn)生候選集的方法,針對不同的錯誤類型,采取不同的方法產(chǎn)生候選集。首先是基于領(lǐng)域本體知識庫與拼音串前綴樹來產(chǎn)生候選集。因為專有名詞的識別通常出錯較多,使用拼音串前綴樹能快速找出相應(yīng)的候選詞匯。在得到由本體知識庫產(chǎn)生的候選集后,需要結(jié)合本體知識庫和對話的上下文,計算出候選詞匯的支持度,最終排序得到TOP-1作為糾錯方案。第二策略是結(jié)合領(lǐng)域的語言知識庫,查詢詞語的搭配、并結(jié)合拼音相似度等信息得出候選集,嘗試對文本錯誤進行糾正,若領(lǐng)域的語言知識庫沒能產(chǎn)生有效候選集,則查詢通用領(lǐng)域語言知識庫來產(chǎn)生候選集合。最后,分別用候選詞替換原有詞語,然后用Bi-LSTM語言模型計算整個句子的概率,并以這個指標(biāo)對候選集進行排序,取TOP-1作為糾正方案。在糾錯知識庫的構(gòu)建上,本文提出結(jié)合依存句法自適應(yīng)地構(gòu)建領(lǐng)域語言知識庫,使到算法能自學(xué)習(xí)到新領(lǐng)域中的領(lǐng)域詞語及搭配。最終,本文以金融領(lǐng)域為例,設(shè)計并實現(xiàn)出一套面向金融領(lǐng)域?qū)υ捨谋镜募m錯框架,能夠?qū)鹑陬I(lǐng)域內(nèi)帶有錯誤的對話進行修正,并具有良好的領(lǐng)域遷移能力。
【學(xué)位單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP391.1;TN912.3
【部分圖文】:

單元結(jié)構(gòu),輸入門,信息選擇


圖 2-3 LSTM 單元結(jié)構(gòu),一個 LSTM 單元的輸入是at,輸出值是ht,LSTM 內(nèi)部的it= σ(Waiat+ Whiht 1+ Wcict 1+ bi) ft= σ(Wafat+ Whfht 1+ Wcfct 1+ bf) ot= σ(Waoat+ Whoht 1+ Wcoct+ bo) ct= ftct 1+ ittanh(Wacat+ Whcht 1+ bc) ht= ottanh(ct) gmoid 激活函數(shù),it,ft,ot,ct分別代表輸入門,遺忘門i,bf,bo,bc分別代表輸入門,遺忘門,輸出門,cell 單權(quán)值參數(shù)。的過程中,輸入門使新的信息選擇性地通過,進入到 Cel儲的信息選擇性地輸出。遺忘門則是控制 Cell 單元內(nèi)部的

理財產(chǎn)品,網(wǎng)站,金融產(chǎn)品


構(gòu)建銀行金融產(chǎn)品的本體知識庫究的客服文本中,比較常見的錯誤是語音引擎對銀行的金融產(chǎn)品行的金融產(chǎn)品建立知識庫是必要的,其將用于計算糾錯候選集第五章將會介紹。本文采取基于本體的知識庫構(gòu)建方法。本體(,知識工程借用了這個概念,用于計算機知識系統(tǒng)領(lǐng)域知識的獲術(shù)語的集合,其結(jié)構(gòu)是層次化的,可作為知識庫的骨架和基礎(chǔ)構(gòu)建本體。本體需要包括概念,關(guān)系,函數(shù),公理和實例這五種銀行官方網(wǎng)站介紹金融產(chǎn)品的頁面,發(fā)現(xiàn)網(wǎng)站上已經(jīng)對金融產(chǎn)品述的方式已經(jīng)是結(jié)構(gòu)化的信息。因此,本體的概念構(gòu)建可以復(fù)用相關(guān)屬性,對應(yīng)的實例則是具體的金融產(chǎn)品,其信息可以通過爬進行獲取。其官方網(wǎng)站的部分截圖如:

流程圖,查錯,流程圖,文本


圖 4-1 查錯流程圖gram 模型組合查錯方法介紹了 N-gram 模型的相關(guān)理論。N-gram 是一個基,如果僅采用通用語料的的 N-gram 模型,一些領(lǐng)或出現(xiàn)頻次較低,導(dǎo)致在領(lǐng)域文本中一些本是正確是錯誤點。因此,要減少查錯的誤報,需要用到多文本,本文用到 3 個模型:公開的新聞?wù)Z料訓(xùn)練的 N-gram 模型。行官網(wǎng)的業(yè)務(wù)說明、產(chǎn)品介紹等文本的訓(xùn)練的 N服文本中整理過的 200 個對話文本訓(xùn)練的 N-gram

【參考文獻】

相關(guān)期刊論文 前10條

1 王璐;張仰森;;基于典型句型的詞語搭配定量分析及提取算法[J];計算機科學(xué);2012年S1期

2 王惠仙;龍華;;基于改進的正向最大匹配中文分詞算法研究[J];貴州大學(xué)學(xué)報(自然科學(xué)版);2011年05期

3 瑪依熱·依布拉音;米吉提·阿不里米提;艾斯卡爾·艾木都拉;;基于最小編輯距離的維語詞語檢錯與糾錯研究[J];中文信息學(xué)報;2008年03期

4 顧金睿;王芳;;關(guān)于本體論的研究綜述[J];情報科學(xué);2007年06期

5 韋向峰;張全;熊亮;;一種基于語義分析的漢語語音識別糾錯方法[J];計算機科學(xué);2006年10期

6 張仰森;曹元大;俞士汶;;基于規(guī)則與統(tǒng)計相結(jié)合的中文文本自動查錯模型與算法[J];中文信息學(xué)報;2006年04期

7 張仰森;俞士汶;;文本自動校對技術(shù)研究綜述[J];計算機應(yīng)用研究;2006年06期

8 張仰森;中文校對系統(tǒng)中糾錯知識庫的構(gòu)造及糾錯建議的產(chǎn)生算法[J];中文信息學(xué)報;2001年05期

9 李建華,王曉龍,王平,王淑清;多特征的中文文本校對算法的研究[J];計算機工程與科學(xué);2001年03期

10 吳巖,李秀坤,劉挺,王開鑄;中文自動校對系統(tǒng)的研究與實現(xiàn)[J];哈爾濱工業(yè)大學(xué)學(xué)報;2001年01期

相關(guān)碩士學(xué)位論文 前8條

1 卓利艷;字詞級中文文本自動校對的方法研究[D];鄭州大學(xué);2018年

2 石宏磊;通信業(yè)客服熱線文本主題識別與演化研究[D];北京郵電大學(xué);2017年

3 石敏;中文文本自動校對系統(tǒng)[D];江蘇科技大學(xué);2015年

4 季俊;客戶投訴電話語音的情感分析技術(shù)研究[D];復(fù)旦大學(xué);2014年

5 龍麗霞;基于實例語境的語音識別后文本檢錯與糾錯研究[D];北京郵電大學(xué);2010年

6 王興建;語音識別后文本處理系統(tǒng)中文本語音信息評價算法研究[D];北京郵電大學(xué);2010年

7 王永景;面向文本識別流的自動校對算法研究[D];上海交通大學(xué);2008年

8 王朔;基于Chart算法的句法分析系統(tǒng)的設(shè)計與實現(xiàn)[D];湖南大學(xué);2005年



本文編號:2824753

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2824753.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a59a1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com