基于語義上下文的互聯網金融搜索引擎研究
發(fā)布時間:2021-03-24 20:20
搜索引擎是用戶最常用的信息查詢工具之一。隨著用戶對搜索結果準確性要求的提升,基于關鍵詞匹配和排序算法的傳統(tǒng)搜索引擎暴露出搜索結果與用戶需求語義關聯性低的問題,無法"理解"用戶查詢意圖與網頁內容的內在聯系。因此,為了更好地解決由語義關聯性低引起的搜索效果差的問題,本文提出了基于語義上下文的搜索引擎模型。首先,本文利用主題模型建立非結構化文檔與潛在主題向量的映射關系,并結合詞項權重模型優(yōu)化了傳統(tǒng)搜索引擎的索引空間。接下來,根據文檔生成模型對優(yōu)化詞項后的語料庫進行語言建模,通過主題模型和神經網絡語言模型分別對搜索關鍵詞的語義和上下文進行擴展。然后,對傳統(tǒng)搜索引擎使用關鍵詞的搜索方法進行拓展,并對擴展后的語義上下文進行搜索。最后,結合文檔相關性排序模型,基于帶權語義上下文進行文檔相關度計算并排序,返回搜索結果。本文通過在互聯網金融新聞類非結構化數據集上的實驗,與傳統(tǒng)搜索引擎在索引空間、搜索結果、搜索性能等方面進行了對比分析。結果表明,基于語義上下文搜索引擎索引空間更小,且能提供更準確的搜索服務。
【文章來源】:浙江大學浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:74 頁
【學位級別】:碩士
【部分圖文】:
圖1-1信息檢索系統(tǒng)基本結構圖??W,,
圖1-4自學習排序模型示意圖??
圖2-1化geRank在Google的巧用示意圖??
【參考文獻】:
期刊論文
[1]Word2vec的核心架構及其應用[J]. 熊富林,鄧怡豪,唐曉晟. 南京師范大學學報(工程技術版). 2015(01)
[2]Word2vec的工作原理及應用探究[J]. 周練. 科技情報開發(fā)與經濟. 2015(02)
[3]國外語義搜索引擎調查與分析[J]. 郭衛(wèi)寧,司莉. 圖書情報工作. 2013(23)
[4]傳統(tǒng)搜索引擎與語義搜索引擎服務比較研究[J]. 趙夷平. 情報科學. 2010(02)
[5]網絡搜索引擎分類與發(fā)展[J]. 楊麗萍,馬繼濤,張虹霞. 情報學報. 2006 (S1)
本文編號:3098333
【文章來源】:浙江大學浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:74 頁
【學位級別】:碩士
【部分圖文】:
圖1-1信息檢索系統(tǒng)基本結構圖??W,,
圖1-4自學習排序模型示意圖??
圖2-1化geRank在Google的巧用示意圖??
【參考文獻】:
期刊論文
[1]Word2vec的核心架構及其應用[J]. 熊富林,鄧怡豪,唐曉晟. 南京師范大學學報(工程技術版). 2015(01)
[2]Word2vec的工作原理及應用探究[J]. 周練. 科技情報開發(fā)與經濟. 2015(02)
[3]國外語義搜索引擎調查與分析[J]. 郭衛(wèi)寧,司莉. 圖書情報工作. 2013(23)
[4]傳統(tǒng)搜索引擎與語義搜索引擎服務比較研究[J]. 趙夷平. 情報科學. 2010(02)
[5]網絡搜索引擎分類與發(fā)展[J]. 楊麗萍,馬繼濤,張虹霞. 情報學報. 2006 (S1)
本文編號:3098333
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3098333.html