天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

智能音箱中自然語言語義理解算法的研究

發(fā)布時(shí)間:2020-09-25 07:53
   隨著智能時(shí)代的到來,人工智能相關(guān)技術(shù)極速發(fā)展,語音交互已經(jīng)成為人機(jī)交互最重要的方式之一。不論是互聯(lián)網(wǎng)巨頭還是傳統(tǒng)的硬件廠商全部將目光瞄準(zhǔn)了智能音箱,紛紛推出自己的智能音箱產(chǎn)品,試圖將智能音箱作為語音入口,提供給用戶眾多內(nèi)容服務(wù),搶占智能家居的樞紐。在智能語音產(chǎn)品中,語義理解準(zhǔn)確率是評(píng)價(jià)一個(gè)語音平臺(tái)技術(shù)能力和一個(gè)語音產(chǎn)品好壞最重要的標(biāo)準(zhǔn)。因此,在智能音箱中最核心的環(huán)節(jié)是語義理解,而其中最重要的功能就是音樂。本文基于智能音箱的使用場(chǎng)景,對(duì)音樂領(lǐng)域的語義理解算法和優(yōu)化方法進(jìn)行了研究,主要開展的工作如下:首先,提出知識(shí)庫與搜索結(jié)合的算法,實(shí)現(xiàn)音箱中音樂領(lǐng)域的語義理解。基于使用場(chǎng)景與要求,智能音箱中對(duì)音樂語義理解算法的要求可概述為:信息抽取和意圖識(shí)別。為了解決信息抽取,提出基于知識(shí)庫與搜索的思想解決音樂領(lǐng)域的信息抽取。這主要是源于音樂具有知識(shí)的概念,但內(nèi)部并不具從屬抽象關(guān)系,因此受領(lǐng)域內(nèi)基于知識(shí)庫的自然語言理解算法和基于語義的搜索算法啟發(fā),提出了知識(shí)庫與搜索相結(jié)合。因智能音箱中query(指令)包含噪音信息,設(shè)計(jì)了 query預(yù)處理模塊;為了解決音樂領(lǐng)域?qū)嶓w命名歧義問題,設(shè)計(jì)了排序步驟;為了解決意圖判斷,為語義理解算法設(shè)計(jì)了打分模塊;谝陨系乃枷肱c方案,設(shè)計(jì)了由query預(yù)處理、搜索及排序、字段抽取和打分四個(gè)模塊組成的音樂領(lǐng)域語義理解算法。其次,為了解決基于規(guī)則的排序和打分情況覆蓋不全,隨規(guī)則更加邏輯繁雜問題,提出運(yùn)用機(jī)器學(xué)習(xí)算法代替規(guī)則,對(duì)語義理解算法進(jìn)行優(yōu)化。第一,提出用基于LambdaMART的音樂排序算法,優(yōu)化排序子模塊進(jìn)而提升信息抽取的準(zhǔn)確率即語義理解算法中屬性準(zhǔn)確率和屬性值準(zhǔn)確率。本文以AdaRank為對(duì)比,從不同角度對(duì)比兩個(gè)排序?qū)W習(xí)算法,最終根據(jù)算法的結(jié)果和使用目的,證明選擇LambdaMART的正確性。基于LambdaMART的音樂排序算法使語義理解算法的屬性準(zhǔn)確率提升至99.106%,屬性值準(zhǔn)確率提升至98.143%。第二,提出利用基于GBDT的音樂打分算法,優(yōu)化打分子模塊進(jìn)而提高語義理解算法的意圖識(shí)別準(zhǔn)確率及意圖召回率。通過對(duì)比選擇不同特征及對(duì)特征值采用不同處理方式時(shí)GBDT模型的評(píng)價(jià)指標(biāo),選出最優(yōu)GBDT模型。基于GBDT的打分算法使語義理解算法的意圖準(zhǔn)確率提升至99.19%,意圖召回率提升至94.83%。
【學(xué)位單位】:湖南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP391.1
【部分圖文】:

文檔,訓(xùn)練數(shù)據(jù),基本原理


排序因子的風(fēng)險(xiǎn);與此同時(shí),還有一套成熟的理論可以用來避免過擬合問題的發(fā)生。逡逑所以信息檢索領(lǐng)域的學(xué)者試著利用機(jī)器學(xué)習(xí)的方法來解決排序的問題[?491,排序逡逑學(xué)習(xí)就這樣誕生。圖2.3為排序?qū)W習(xí)的基本原理。逡逑q(l)邐q(m)逡逑卜⑴,5〕.邋f邋C邋),5邋)—邋一邐碌羽逡逑<),3邐:邐W"),3邐———’逡逑:::邋1}逡逑Training邋Date逡逑邐逡逑q邐ri邐丨‘逡逑屯,/(“,)逡逑Test邋Date逡逑圖2.邋3排序?qū)W習(xí)基本原理圖逡逑其中,給定文檔(doc)的訓(xùn)練數(shù)據(jù)(trainingDate)為集合D,每個(gè)文檔都用逡逑表示。其中,g是查詢;為文檔特征集合{<,_/;,???/?},文檔特征指是q逡逑和doc的復(fù)合特征;w為doc與^的相關(guān)性取值,在不同的方法中,w可能被分逡逑為5級(jí),可能被分為2級(jí),上圖以5級(jí)舉例,值越大表示相關(guān)性越大。測(cè)試集合逡逑(testdate)用T亦用表示

排序原理


下面以RankNet[:>3]為例,介紹一下pairwise方法的具體算法。Ranking常價(jià)指標(biāo)都無法求梯度,因此沒法直接對(duì)評(píng)價(jià)指標(biāo)做梯度下降。RankNet的創(chuàng)逡逑處在于,它將不適宜用梯度下降求解的Ranking問題,轉(zhuǎn)化為對(duì)概率的交叉逡逑失函數(shù)的優(yōu)化問題,從而適用梯度下降方法。逡逑RankNet的終極目標(biāo)是得到一個(gè)帶參的算分函數(shù):逡逑s邋=邋f(x,w)邐(2.2)逡逑w為文檔的權(quán)重參數(shù)。于是,根據(jù)這個(gè)算分函數(shù),可以計(jì)算文檔;c,.和丨的得逡逑和sy逡逑5,.邋=/0,.;w),'?邋=/0,?;w)邐(2-3)逡逑根據(jù)得分計(jì)算二者的偏序概率逡逑哪(。埽┻姡卞义希校蓿校蓿荆兀掊濉ǎ珰猓ǎ玻粗校釠Q定了邋sigmoid函數(shù)的形狀,再定義交叉熵為損失函數(shù)逡逑C邋=-10§-1-10§1-=1-0-5;-5.+邋10§1邋+邋^-0-5(-5(2.5)

概率分布,排序原理,搜索引擎,文檔


再以分?jǐn)?shù)的高低作為排序條件,得到最終的排序結(jié)果。有很多訓(xùn)練最優(yōu)評(píng)分逡逑函數(shù)的方法,本文以一個(gè)簡(jiǎn)單的實(shí)例來說明其中一種訓(xùn)練方法,此方法是以搜索逡逑結(jié)果排列組合的概率分布情況來訓(xùn)練的方法,圖2.3為此方法的圖解示意。逡逑f{B)=2邋f[Q=l逡逑評(píng)分函數(shù)/逡逑A邋S邋^邋¥邋S逡逑

本文編號(hào):2826452

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2826452.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7c858***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com