基于垂直搜索的意圖識別算法的設(shè)計與實現(xiàn)

發(fā)布時間：2024-01-29 21:34

　　垂直搜索是一種專業(yè)領(lǐng)域內(nèi)的搜索,與通用搜索不同,垂直搜索需要深度理解用戶意圖并返回特定領(lǐng)域內(nèi)的信息。由于垂直搜索引擎中需要針對不同領(lǐng)域訓(xùn)練多個意圖識別模型,同時訓(xùn)練模型需要大量的標(biāo)注,所以在垂直搜索場景下訓(xùn)練意圖識別模型的代價是較高的。本文主要解決在垂直搜索場景下訓(xùn)練意圖識別模型成本大的問題。作者的主要工作包括基于SimNet的語義向量預(yù)訓(xùn)練和基于遷移學(xué)習(xí)的意圖識別模型訓(xùn)練。(1)基于SimNet的語義向量預(yù)訓(xùn)練,主要利用搜索引擎積累的海量數(shù)據(jù),預(yù)訓(xùn)練基于語義的句向量。作者利用本文首創(chuàng)的QUQ(Query to Url to Query)游走算法獲取大量的弱標(biāo)注樣本,通過海量樣本訓(xùn)練SimNet模型,最終根據(jù)SimNet模型生成語義向量。經(jīng)過實驗驗證,語義向量可以很好的表達(dá)句子語義,并具有一定的泛化性。(2)基于遷移學(xué)習(xí)訓(xùn)練意圖識別模型,主要利用預(yù)訓(xùn)練的語義向量遷移到意圖識別模型中,并且利用主動學(xué)習(xí)與遷移學(xué)習(xí)減少標(biāo)注成本。首先將樣本轉(zhuǎn)化為語義向量并利用種子樣本初始化意圖識別模型,然后利用改進后的最優(yōu)標(biāo)號與次優(yōu)標(biāo)號(Best vs Second-best,BvSB)算法,降低了樣本冗余并...

【文章頁數(shù)】：58 頁

【學(xué)位級別】：碩士

【文章目錄】：
致謝
摘要
ABSTRACT
1 引言
    1.1 研究背景與意義
    1.2 國內(nèi)外研究發(fā)展現(xiàn)狀
        1.2.1 垂直搜索發(fā)展現(xiàn)狀
        1.2.2 主動學(xué)習(xí)發(fā)展現(xiàn)狀
        1.2.3 遷移學(xué)習(xí)發(fā)展現(xiàn)狀
    1.3 論文的主要工作以創(chuàng)新點
    1.4 論文的組織結(jié)構(gòu)
2 相關(guān)理論與關(guān)鍵技術(shù)
    2.1 SimNet框架
    2.2 長短期記憶網(wǎng)絡(luò)
    2.3 遷移學(xué)習(xí)
    2.4 主動學(xué)習(xí)
    2.5 開發(fā)平臺
    2.6 本章小節(jié)
3 基于SimNet語義向量預(yù)訓(xùn)練
    3.1 數(shù)據(jù)預(yù)處理
        3.1.1 數(shù)據(jù)清洗
        3.1.2 利用QUQ產(chǎn)出弱標(biāo)注樣本
        3.1.3 QUQ算法流程
    3.2 利用SimNet模型訓(xùn)練語義向量
        3.2.1 樣本向量化
        3.2.2 利用LSTM構(gòu)建表示層
        3.2.3 利用余弦相似度構(gòu)建匹配層
        3.2.4 語義向量訓(xùn)練流程
    3.3 實驗與驗證
        3.3.1 數(shù)據(jù)集介紹
        3.3.2 實驗結(jié)果分析
    3.4 本章小結(jié)
4 基于遷移學(xué)習(xí)的意圖識別模型
    4.1 利用預(yù)訓(xùn)練模型向量化樣本
    4.2 意圖識別模型訓(xùn)練
        4.2.1 多層感知機器模型結(jié)構(gòu)
        4.2.2 多層感知機器模型訓(xùn)練
    4.3 利用主動學(xué)習(xí)減少標(biāo)注成本
        4.3.1 利用主動學(xué)習(xí)挑選訓(xùn)練樣本
        4.3.2 利用遷移學(xué)習(xí)降低訓(xùn)練樣本冗余
        4.3.3 完整的訓(xùn)練樣本篩選流程
    4.4 實驗與驗證
        4.4.1 數(shù)據(jù)集介紹
        4.4.2 實驗結(jié)果分析
        4.4.3 意圖識別模型應(yīng)用
    4.5 本章小結(jié)
5 結(jié)論
    5.1 工作總結(jié)
    5.2 展望
參考文獻
作者簡歷及攻讀碩士/博士學(xué)位期間取得的研究成果
學(xué)位論文數(shù)據(jù)集

本文編號：3888879

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3888879.html

上一篇：基于重引力搜索和深度學(xué)習(xí)的圖像表情識別研究
下一篇：求解考慮順序相關(guān)調(diào)整時間的雙邊裝配線平衡問題的變鄰域搜索算法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于垂直搜索的意圖識別算法的設(shè)計與實現(xiàn)