基于垂直搜索的意圖識別算法的設(shè)計與實現(xiàn)
發(fā)布時間:2024-01-29 21:34
垂直搜索是一種專業(yè)領(lǐng)域內(nèi)的搜索,與通用搜索不同,垂直搜索需要深度理解用戶意圖并返回特定領(lǐng)域內(nèi)的信息。由于垂直搜索引擎中需要針對不同領(lǐng)域訓(xùn)練多個意圖識別模型,同時訓(xùn)練模型需要大量的標(biāo)注,所以在垂直搜索場景下訓(xùn)練意圖識別模型的代價是較高的。本文主要解決在垂直搜索場景下訓(xùn)練意圖識別模型成本大的問題。作者的主要工作包括基于SimNet的語義向量預(yù)訓(xùn)練和基于遷移學(xué)習(xí)的意圖識別模型訓(xùn)練。(1)基于SimNet的語義向量預(yù)訓(xùn)練,主要利用搜索引擎積累的海量數(shù)據(jù),預(yù)訓(xùn)練基于語義的句向量。作者利用本文首創(chuàng)的QUQ(Query to Url to Query)游走算法獲取大量的弱標(biāo)注樣本,通過海量樣本訓(xùn)練SimNet模型,最終根據(jù)SimNet模型生成語義向量。經(jīng)過實驗驗證,語義向量可以很好的表達(dá)句子語義,并具有一定的泛化性。(2)基于遷移學(xué)習(xí)訓(xùn)練意圖識別模型,主要利用預(yù)訓(xùn)練的語義向量遷移到意圖識別模型中,并且利用主動學(xué)習(xí)與遷移學(xué)習(xí)減少標(biāo)注成本。首先將樣本轉(zhuǎn)化為語義向量并利用種子樣本初始化意圖識別模型,然后利用改進后的最優(yōu)標(biāo)號與次優(yōu)標(biāo)號(Best vs Second-best,BvSB)算法,降低了樣本冗余并...
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【文章目錄】:
致謝
摘要
ABSTRACT
1 引言
1.1 研究背景與意義
1.2 國內(nèi)外研究發(fā)展現(xiàn)狀
1.2.1 垂直搜索發(fā)展現(xiàn)狀
1.2.2 主動學(xué)習(xí)發(fā)展現(xiàn)狀
1.2.3 遷移學(xué)習(xí)發(fā)展現(xiàn)狀
1.3 論文的主要工作以創(chuàng)新點
1.4 論文的組織結(jié)構(gòu)
2 相關(guān)理論與關(guān)鍵技術(shù)
2.1 SimNet框架
2.2 長短期記憶網(wǎng)絡(luò)
2.3 遷移學(xué)習(xí)
2.4 主動學(xué)習(xí)
2.5 開發(fā)平臺
2.6 本章小節(jié)
3 基于SimNet語義向量預(yù)訓(xùn)練
3.1 數(shù)據(jù)預(yù)處理
3.1.1 數(shù)據(jù)清洗
3.1.2 利用QUQ產(chǎn)出弱標(biāo)注樣本
3.1.3 QUQ算法流程
3.2 利用SimNet模型訓(xùn)練語義向量
3.2.1 樣本向量化
3.2.2 利用LSTM構(gòu)建表示層
3.2.3 利用余弦相似度構(gòu)建匹配層
3.2.4 語義向量訓(xùn)練流程
3.3 實驗與驗證
3.3.1 數(shù)據(jù)集介紹
3.3.2 實驗結(jié)果分析
3.4 本章小結(jié)
4 基于遷移學(xué)習(xí)的意圖識別模型
4.1 利用預(yù)訓(xùn)練模型向量化樣本
4.2 意圖識別模型訓(xùn)練
4.2.1 多層感知機器模型結(jié)構(gòu)
4.2.2 多層感知機器模型訓(xùn)練
4.3 利用主動學(xué)習(xí)減少標(biāo)注成本
4.3.1 利用主動學(xué)習(xí)挑選訓(xùn)練樣本
4.3.2 利用遷移學(xué)習(xí)降低訓(xùn)練樣本冗余
4.3.3 完整的訓(xùn)練樣本篩選流程
4.4 實驗與驗證
4.4.1 數(shù)據(jù)集介紹
4.4.2 實驗結(jié)果分析
4.4.3 意圖識別模型應(yīng)用
4.5 本章小結(jié)
5 結(jié)論
5.1 工作總結(jié)
5.2 展望
參考文獻
作者簡歷及攻讀碩士/博士學(xué)位期間取得的研究成果
學(xué)位論文數(shù)據(jù)集
本文編號:3888879
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【文章目錄】:
致謝
摘要
ABSTRACT
1 引言
1.1 研究背景與意義
1.2 國內(nèi)外研究發(fā)展現(xiàn)狀
1.2.1 垂直搜索發(fā)展現(xiàn)狀
1.2.2 主動學(xué)習(xí)發(fā)展現(xiàn)狀
1.2.3 遷移學(xué)習(xí)發(fā)展現(xiàn)狀
1.3 論文的主要工作以創(chuàng)新點
1.4 論文的組織結(jié)構(gòu)
2 相關(guān)理論與關(guān)鍵技術(shù)
2.1 SimNet框架
2.2 長短期記憶網(wǎng)絡(luò)
2.3 遷移學(xué)習(xí)
2.4 主動學(xué)習(xí)
2.5 開發(fā)平臺
2.6 本章小節(jié)
3 基于SimNet語義向量預(yù)訓(xùn)練
3.1 數(shù)據(jù)預(yù)處理
3.1.1 數(shù)據(jù)清洗
3.1.2 利用QUQ產(chǎn)出弱標(biāo)注樣本
3.1.3 QUQ算法流程
3.2 利用SimNet模型訓(xùn)練語義向量
3.2.1 樣本向量化
3.2.2 利用LSTM構(gòu)建表示層
3.2.3 利用余弦相似度構(gòu)建匹配層
3.2.4 語義向量訓(xùn)練流程
3.3 實驗與驗證
3.3.1 數(shù)據(jù)集介紹
3.3.2 實驗結(jié)果分析
3.4 本章小結(jié)
4 基于遷移學(xué)習(xí)的意圖識別模型
4.1 利用預(yù)訓(xùn)練模型向量化樣本
4.2 意圖識別模型訓(xùn)練
4.2.1 多層感知機器模型結(jié)構(gòu)
4.2.2 多層感知機器模型訓(xùn)練
4.3 利用主動學(xué)習(xí)減少標(biāo)注成本
4.3.1 利用主動學(xué)習(xí)挑選訓(xùn)練樣本
4.3.2 利用遷移學(xué)習(xí)降低訓(xùn)練樣本冗余
4.3.3 完整的訓(xùn)練樣本篩選流程
4.4 實驗與驗證
4.4.1 數(shù)據(jù)集介紹
4.4.2 實驗結(jié)果分析
4.4.3 意圖識別模型應(yīng)用
4.5 本章小結(jié)
5 結(jié)論
5.1 工作總結(jié)
5.2 展望
參考文獻
作者簡歷及攻讀碩士/博士學(xué)位期間取得的研究成果
學(xué)位論文數(shù)據(jù)集
本文編號:3888879
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3888879.html
最近更新
教材專著