天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

應(yīng)用于WMD的相似語(yǔ)義檢索加速算法

發(fā)布時(shí)間:2022-01-09 03:49
  為了提高Word Mover’s Distance(WMD)算法在大量樣本數(shù)據(jù)中的語(yǔ)義相似性檢索響應(yīng)速度,結(jié)合KNN-Search的算法思想,提出了一種應(yīng)用于WMD的相似語(yǔ)義檢索加速算法。通過(guò)引入?yún)⒖键c(diǎn)對(duì)數(shù)據(jù)集進(jìn)行線下預(yù)排序,并利用參考點(diǎn)與輸入的WMD距離關(guān)系劃定線上檢索樣本的范圍,以避免在整個(gè)樣本集中逐句計(jì)算與輸入句的WMD距離,優(yōu)化了檢索策略;同時(shí)設(shè)計(jì)了兩個(gè)可調(diào)參數(shù)以折中算法的效率和精度。實(shí)驗(yàn)結(jié)果表明,該算法可在保證一定精度的前提下,大幅提高線上檢索的響應(yīng)速度,增強(qiáng)WMD在工業(yè)應(yīng)用上的實(shí)用性。 

【文章來(lái)源】:電子設(shè)計(jì)工程. 2020,28(17)

【文章頁(yè)數(shù)】:5 頁(yè)

【部分圖文】:

應(yīng)用于WMD的相似語(yǔ)義檢索加速算法


樣本集空間劃分

示意圖,回退,全局,示意圖


第2步,對(duì)于輸入句A,計(jì)算yA?=WMD(A,?),根據(jù)yA?的大小判定A落在哪個(gè)圓環(huán)區(qū)域,取這個(gè)環(huán)內(nèi)所有樣本逐個(gè)與A計(jì)算WMD,值最小的樣本,姑且先作為與A最相似的句子,設(shè)為δ,記yAδ=WMD(A,δ)。如圖2左邊所示,輸入A經(jīng)過(guò)WMD(A,?)映射落進(jìn)2環(huán)內(nèi),則A只需與2環(huán)中的點(diǎn)計(jì)算WMD,找出環(huán)內(nèi)與A最相似的樣本作為δ。第3步,步驟2僅在圓環(huán)內(nèi)尋找相似點(diǎn),但可能全局最優(yōu)點(diǎn)并不在這個(gè)環(huán)內(nèi),如圖2右邊所示,Ω點(diǎn)才為所求。因此,要同KD-Tree一樣,采用“回退”思想找全局最優(yōu)。以A為圓心,yAδ為半徑形成圓RA,若圓內(nèi)無(wú)其他樣本,則δ為全局最優(yōu);若圓內(nèi)還有其他點(diǎn),計(jì)算圓RA內(nèi)的各點(diǎn)與A的WMD距離,值最小的點(diǎn)Ω即為全局最優(yōu)。


本文編號(hào):3577895

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3577895.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b01ff***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com