面向領(lǐng)域的智能搜索研究
發(fā)布時(shí)間:2021-09-29 09:20
進(jìn)入信息時(shí)代后各個(gè)領(lǐng)域的數(shù)據(jù)出現(xiàn)了爆炸性的增長(zhǎng),高效的知識(shí)搜索和發(fā)現(xiàn)成為日益迫切的需要。在許多面向領(lǐng)域的搜索場(chǎng)景中,由于數(shù)據(jù)保密性的原因通用的搜索引擎沒(méi)有幫助,實(shí)現(xiàn)的搜索功能往往只是基于數(shù)據(jù)庫(kù)查詢的條件匹配,只能捕獲有限的查詢語(yǔ)句的語(yǔ)義信息。因此如何做到語(yǔ)義理解查詢語(yǔ)句以實(shí)現(xiàn)面向領(lǐng)域的智能搜索具有非常重要的意義。針對(duì)智能搜索中核心的查詢語(yǔ)句實(shí)體鏈接,傳統(tǒng)的方法都是先識(shí)別出語(yǔ)句中的命名實(shí)體,然后再鏈接到知識(shí)圖譜的實(shí)體,這需要大量的數(shù)據(jù)處理(如實(shí)體指稱標(biāo)注)和特征選擇工作,而且容易造成錯(cuò)誤累積,降低鏈接效果。針對(duì)這種情況,本文提出基于注意力機(jī)制的查詢語(yǔ)句實(shí)體鏈接模型。該模型使用雙向的長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)問(wèn)句進(jìn)行編碼,經(jīng)過(guò)注意力機(jī)制解碼,生成對(duì)應(yīng)的實(shí)體指稱和消歧信息輸出,最后再鏈接到知識(shí)圖譜中的實(shí)體。在有關(guān)汽車領(lǐng)域車系產(chǎn)品問(wèn)句和實(shí)體的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明該模型僅利用很少的上下文信息便取得良好的效果,為實(shí)體鏈接提供了新的思路。結(jié)合自然語(yǔ)言處理的知識(shí)圖譜、文本分類、實(shí)體鏈接、表示學(xué)習(xí)等技術(shù),經(jīng)過(guò)實(shí)踐和總結(jié),本文提出了一種面向限定領(lǐng)域的智能搜索框架,該框架由網(wǎng)絡(luò)層、查詢語(yǔ)句分類層、實(shí)體鏈接層、服...
【文章來(lái)源】:西南交通大學(xué)四川省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【圖文】:
Google知識(shí)圖譜輔助搜索
要介紹論文涉及到的相關(guān)知識(shí)和技術(shù)。理論介紹后文使用到的相關(guān)理論知識(shí)做一個(gè)簡(jiǎn)要介紹,主要是涉及到識(shí)。函數(shù)數(shù)是模擬神經(jīng)細(xì)胞在網(wǎng)絡(luò)中設(shè)置的非線性函數(shù),如果沒(méi)有激活就是輸入的各維度特征乘以不同權(quán)值后的線性組合,其擬合能的激活函數(shù)主要包括 sigmoid、tanh 和 softmax 函數(shù),這里將id 函數(shù) 函數(shù)是一種提出較早、目前廣泛使用的激活函數(shù),在本文中中間隱藏層細(xì)胞的激活。其計(jì)算公式為:( )11zf ze =+如圖 2-1 所示,可以看到 sigmoid 函數(shù)值域?yàn)?0,1)。
圖 2-2 tanh 函數(shù)圖像ax 函數(shù)神經(jīng)網(wǎng)絡(luò)多分類時(shí),通常輸出層的激活函數(shù)選擇為 softmax 函數(shù)( )1jkzjKzkee == z 經(jīng)元激活前的輸出,K 為輸出層神經(jīng)元的數(shù)量。出,softmax 函數(shù)將原來(lái)的 K 維輸出歸一化,并且它們之和為作分類為 i 的得分或概率。函數(shù)數(shù)是評(píng)估算法預(yù)測(cè)值與實(shí)際值之間差別大小的方法,后文涉及ftmax 函數(shù)對(duì)應(yīng)的多分類對(duì)數(shù)損失函數(shù)(Categorical Cross Ent( ), ,logi i j i jjL = t p數(shù)據(jù)點(diǎn),j 表示類別,p 表示預(yù)測(cè)結(jié)果的得分,t 表示實(shí)際的得
【參考文獻(xiàn)】:
期刊論文
[1]基于詞向量的實(shí)體鏈接方法[J]. 齊愛(ài)芹,徐蔚然. 數(shù)據(jù)采集與處理. 2017(03)
[2]基于詞向量的中文微博實(shí)體鏈接方法[J]. 毛二松,王波,唐永旺,梁丹. 計(jì)算機(jī)應(yīng)用與軟件. 2017(04)
[3]基于詞向量語(yǔ)義分類的微博實(shí)體鏈接方法[J]. 馮沖,石戈,郭宇航,龔靜,黃河燕. 自動(dòng)化學(xué)報(bào). 2016(06)
[4]一種基于概率主題模型的命名實(shí)體鏈接方法[J]. 懷寶興,寶騰飛,祝恒書(shū),劉淇. 軟件學(xué)報(bào). 2014(09)
[5]自然語(yǔ)言處理在信息檢索中的應(yīng)用綜述[J]. 王燦輝,張敏,馬少平. 中文信息學(xué)報(bào). 2007(02)
本文編號(hào):3413466
【文章來(lái)源】:西南交通大學(xué)四川省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【圖文】:
Google知識(shí)圖譜輔助搜索
要介紹論文涉及到的相關(guān)知識(shí)和技術(shù)。理論介紹后文使用到的相關(guān)理論知識(shí)做一個(gè)簡(jiǎn)要介紹,主要是涉及到識(shí)。函數(shù)數(shù)是模擬神經(jīng)細(xì)胞在網(wǎng)絡(luò)中設(shè)置的非線性函數(shù),如果沒(méi)有激活就是輸入的各維度特征乘以不同權(quán)值后的線性組合,其擬合能的激活函數(shù)主要包括 sigmoid、tanh 和 softmax 函數(shù),這里將id 函數(shù) 函數(shù)是一種提出較早、目前廣泛使用的激活函數(shù),在本文中中間隱藏層細(xì)胞的激活。其計(jì)算公式為:( )11zf ze =+如圖 2-1 所示,可以看到 sigmoid 函數(shù)值域?yàn)?0,1)。
圖 2-2 tanh 函數(shù)圖像ax 函數(shù)神經(jīng)網(wǎng)絡(luò)多分類時(shí),通常輸出層的激活函數(shù)選擇為 softmax 函數(shù)( )1jkzjKzkee == z 經(jīng)元激活前的輸出,K 為輸出層神經(jīng)元的數(shù)量。出,softmax 函數(shù)將原來(lái)的 K 維輸出歸一化,并且它們之和為作分類為 i 的得分或概率。函數(shù)數(shù)是評(píng)估算法預(yù)測(cè)值與實(shí)際值之間差別大小的方法,后文涉及ftmax 函數(shù)對(duì)應(yīng)的多分類對(duì)數(shù)損失函數(shù)(Categorical Cross Ent( ), ,logi i j i jjL = t p數(shù)據(jù)點(diǎn),j 表示類別,p 表示預(yù)測(cè)結(jié)果的得分,t 表示實(shí)際的得
【參考文獻(xiàn)】:
期刊論文
[1]基于詞向量的實(shí)體鏈接方法[J]. 齊愛(ài)芹,徐蔚然. 數(shù)據(jù)采集與處理. 2017(03)
[2]基于詞向量的中文微博實(shí)體鏈接方法[J]. 毛二松,王波,唐永旺,梁丹. 計(jì)算機(jī)應(yīng)用與軟件. 2017(04)
[3]基于詞向量語(yǔ)義分類的微博實(shí)體鏈接方法[J]. 馮沖,石戈,郭宇航,龔靜,黃河燕. 自動(dòng)化學(xué)報(bào). 2016(06)
[4]一種基于概率主題模型的命名實(shí)體鏈接方法[J]. 懷寶興,寶騰飛,祝恒書(shū),劉淇. 軟件學(xué)報(bào). 2014(09)
[5]自然語(yǔ)言處理在信息檢索中的應(yīng)用綜述[J]. 王燦輝,張敏,馬少平. 中文信息學(xué)報(bào). 2007(02)
本文編號(hào):3413466
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3413466.html
最近更新
教材專著