基于Word2Vec模型特征擴(kuò)展的Web搜索結(jié)果聚類性能的改進(jìn)
發(fā)布時間:2024-03-05 03:57
對于用戶泛化和模糊的查詢,將Web搜索引擎返回的列表內(nèi)容聚類處理,便于用戶有效查找感興趣的內(nèi)容。由于返回的列表由稱為片段(snippet)的短文本組成,而傳統(tǒng)的單詞頻率-逆文檔頻率(TF-IDF)特征選擇模型不能適用于稀疏的短文本,使得聚類性能下降。一個有效的方法就是通過一個外部的知識庫對短文本進(jìn)行擴(kuò)展。受到基于神經(jīng)網(wǎng)絡(luò)詞表示方法的啟發(fā),提出了通過詞嵌入技術(shù)的Word2Vec模型對短文本擴(kuò)展,即采用Word2Vec模型的TopN個最相似的單詞用于對片段(snippet)的擴(kuò)展,擴(kuò)展文檔使得TF-IDF模型特征選擇得到聚類性能的提高。同時考慮到通用性單詞造成的噪聲引入,對擴(kuò)展文檔的TF-IDF矩陣進(jìn)行了詞頻權(quán)重修正。實驗在兩個公開數(shù)據(jù)集ODP239和SearchSnippets上完成,將所提方法和純snippet無擴(kuò)展的方法、基于Wordnet的特征擴(kuò)展方法和基于Wikipedia的特征擴(kuò)展方法進(jìn)行了對比。實驗結(jié)果表明,所提方法在聚類性能方面優(yōu)于對比方法。
【文章頁數(shù)】:6 頁
【文章目錄】:
0 引言
1 相關(guān)工作
2 Word2Vec模型描述
3 通過Word2Vec對snippet的擴(kuò)展
3.1 TopN擴(kuò)展
3.2 基于詞頻的權(quán)重修正
3.3 處理流程
4 實驗與結(jié)果分析
4.1 數(shù)據(jù)集
4.2 評價指標(biāo)
4.3 實驗策略
4.4 TopN的確定
4.5 聚類算法確定
4.6 結(jié)果分析
5 結(jié)語
本文編號:3919644
【文章頁數(shù)】:6 頁
【文章目錄】:
0 引言
1 相關(guān)工作
2 Word2Vec模型描述
3 通過Word2Vec對snippet的擴(kuò)展
3.1 TopN擴(kuò)展
3.2 基于詞頻的權(quán)重修正
3.3 處理流程
4 實驗與結(jié)果分析
4.1 數(shù)據(jù)集
4.2 評價指標(biāo)
4.3 實驗策略
4.4 TopN的確定
4.5 聚類算法確定
4.6 結(jié)果分析
5 結(jié)語
本文編號:3919644
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3919644.html
最近更新
教材專著