天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Word2Vec模型特征擴(kuò)展的Web搜索結(jié)果聚類性能的改進(jìn)

發(fā)布時間:2024-03-05 03:57
  對于用戶泛化和模糊的查詢,將Web搜索引擎返回的列表內(nèi)容聚類處理,便于用戶有效查找感興趣的內(nèi)容。由于返回的列表由稱為片段(snippet)的短文本組成,而傳統(tǒng)的單詞頻率-逆文檔頻率(TF-IDF)特征選擇模型不能適用于稀疏的短文本,使得聚類性能下降。一個有效的方法就是通過一個外部的知識庫對短文本進(jìn)行擴(kuò)展。受到基于神經(jīng)網(wǎng)絡(luò)詞表示方法的啟發(fā),提出了通過詞嵌入技術(shù)的Word2Vec模型對短文本擴(kuò)展,即采用Word2Vec模型的TopN個最相似的單詞用于對片段(snippet)的擴(kuò)展,擴(kuò)展文檔使得TF-IDF模型特征選擇得到聚類性能的提高。同時考慮到通用性單詞造成的噪聲引入,對擴(kuò)展文檔的TF-IDF矩陣進(jìn)行了詞頻權(quán)重修正。實驗在兩個公開數(shù)據(jù)集ODP239和SearchSnippets上完成,將所提方法和純snippet無擴(kuò)展的方法、基于Wordnet的特征擴(kuò)展方法和基于Wikipedia的特征擴(kuò)展方法進(jìn)行了對比。實驗結(jié)果表明,所提方法在聚類性能方面優(yōu)于對比方法。

【文章頁數(shù)】:6 頁

【文章目錄】:
0 引言
1 相關(guān)工作
2 Word2Vec模型描述
3 通過Word2Vec對snippet的擴(kuò)展
    3.1 TopN擴(kuò)展
    3.2 基于詞頻的權(quán)重修正
    3.3 處理流程
4 實驗與結(jié)果分析
    4.1 數(shù)據(jù)集
    4.2 評價指標(biāo)
    4.3 實驗策略
    4.4 TopN的確定
    4.5 聚類算法確定
    4.6 結(jié)果分析
5 結(jié)語



本文編號:3919644

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3919644.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶425d2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
狠狠干狠狠操亚洲综合| 国产精品免费视频专区| 久久亚洲午夜精品毛片| 91久久国产福利自产拍 | 国产精品免费视频视频| 男人大臿蕉香蕉大视频| 久久精品国产亚洲av麻豆| 东北女人的逼操的舒服吗| 99热在线精品视频观看| 好吊色免费在线观看视频| 日本一二三区不卡免费| 大香蕉久久精品一区二区字幕| 亚洲一区二区三区三州| 成人精品一级特黄大片| 又色又爽又无遮挡的视频| 欧美午夜不卡在线观看| 国产精品内射婷婷一级二级| 亚洲一区二区久久观看| 欧美精品一区久久精品| 韩日黄片在线免费观看| 麻豆91成人国产在线观看| 国产日韩熟女中文字幕| 欧美日韩亚洲巨色人妻| 亚洲日本中文字幕视频在线观看 | 亚洲一区二区三区日韩91| 亚洲欧美视频欧美视频| 日韩精品中文在线观看| 亚洲黄香蕉视频免费看| 国产成人综合亚洲欧美日韩| 欧美精品久久男人的天堂| 久热久热精品视频在线观看| 成人午夜激情在线免费观看| 五月婷婷欧美中文字幕| 欧美午夜性刺激在线观看| 高清一区二区三区大伊香蕉| 国产免费一区二区三区av大片| 夜夜嗨激情五月天精品| 亚洲成人免费天堂诱惑| 日本高清中文精品在线不卡| 欧美日韩国产精品第五页| 少妇被粗大进猛进出处故事 |