基于統(tǒng)計特征的語義搜索引擎的研究與實現(xiàn)
發(fā)布時間:2017-09-18 23:36
本文關鍵詞:基于統(tǒng)計特征的語義搜索引擎的研究與實現(xiàn)
更多相關文章: 神經(jīng)網(wǎng)絡語言模型 CBOW模型 Skip-Gram模型 詞向量 語義搜索
【摘要】:資源搜索是資源管理中不可或缺的關鍵技術,其根據(jù)用戶請求返回相應資源集。傳統(tǒng)的資源搜索采用基于關鍵字匹配的方法,通過匹配的結果返回精確的資源。但是,自然語言中存在多詞同義、一詞多義等不確定性因素,相同概念可以有多種不同的表述方式,因此傳統(tǒng)的資源搜索存在以下兩個問題:一是用戶很難用關鍵詞或者關鍵詞串來表達真正需要查詢的內容;二是簡單依據(jù)包含相同詞的多少來判斷兩篇文檔的語義相似度可信度低。 本文基于神經(jīng)網(wǎng)絡語言模型從統(tǒng)計特征角度挖掘詞和文檔的潛在語義特征,在詞方面提出基于詞向量的中文同義詞提取算法,在文檔方面引入文檔語義特征訓練模型,結合NBSVM-bi算法在情感分析領域提高了準確率。針對由于查詢輸入偏差而導致信息丟失的問題,本文提出基于神經(jīng)網(wǎng)絡語言模型中的CBOW和Skip-Gram模型提取詞向量,結合隨機森林分類器算法實現(xiàn)中文同義詞提取的算法,通過同義詞拓展有效解決了由于用戶查詢輸入偏差導致信息丟失的問題。針對文檔相似度計算問題,本文引入文檔向量改進CBOW模型和Skip-Gram模型,將文檔向量和詞向量聯(lián)合輸入神經(jīng)網(wǎng)絡模型進行訓練,最終得到的文檔向量可視為文檔的語義特征;谡Z義特征的文檔相似度計算解決了基于共同出現(xiàn)詞個數(shù)的文檔相似度計算方法可信度低的問題。 最后,本文在詞向量和文檔特征向量的研究基礎上,實現(xiàn)了針對電視節(jié)目的語義搜索引擎。利用同義詞提取算法得到同義詞及其相似度,用于查詢拓展,提高了文檔的查全率;利用基于離線數(shù)據(jù)訓練得到的文檔語義特征作為離線特征,改進文檔的搜索排序,將語義相關度更高的文檔優(yōu)先返回給用戶。
【關鍵詞】:神經(jīng)網(wǎng)絡語言模型 CBOW模型 Skip-Gram模型 詞向量 語義搜索
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.3
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-15
- 1.1 課題研究的背景和意義9-10
- 1.2 課題的研究內容10-12
- 1.2.1 基于詞向量的中文同義詞自動提取10-11
- 1.2.2 文檔向量表示模型研究及基于文檔特征向量的情感分類器應用11-12
- 1.3 論文的主要研究成果12-13
- 1.4 本文的組織結構13-15
- 第二章 研究基礎綜述15-25
- 2.1 搜索引擎研究現(xiàn)狀15-17
- 2.2 搜索引擎相關技術綜述17-20
- 2.2.1 搜索引擎的原理17-18
- 2.2.2 信息獲取18
- 2.2.3 索引技術18-19
- 2.2.4 用戶接口設計19
- 2.2.5 排序技術19-20
- 2.3 統(tǒng)計特征研究綜述20-24
- 2.3.1 特征提取概述20
- 2.3.2 淺層次統(tǒng)計特征提取20-22
- 2.3.3 深層次統(tǒng)計特征提取22-24
- 2.4 總結24-25
- 第三章 基于詞向量的中文同義詞自動提取25-36
- 3.1 中文同義詞自動提取研究總結25-27
- 3.1.1 基于語義詞典的方法26
- 3.1.2 基于網(wǎng)絡資源的方法26-27
- 3.2 詞向量研究27-32
- 3.2.1 Skip-Gram模型28-29
- 3.2.2 CBOW模型29
- 3.2.3 Skip-Gram和CBOW對比29-31
- 3.2.4 模型訓練中的參數(shù)學習技巧31-32
- 3.3 隨機森林算法32-33
- 3.3.1 隨機森林算法原理簡介32
- 3.3.2 隨機森林生成流程32-33
- 3.4 中文同義詞自動提取實驗33-35
- 3.5 總結35-36
- 第四章 基于文檔特征的情感分析研究36-43
- 4.1 文檔特征學習算法研究36-38
- 4.1.1 基于CBOW模型改進的文檔特征學習算法36-37
- 4.1.2 基于Skip-Gram模型改進的文檔特征學習算法37-38
- 4.2 模型集成算法38
- 4.3 情感分析實驗38-42
- 4.3.1 情感分析的研究現(xiàn)狀38-39
- 4.3.2 基于文檔語義特征的情感分析實驗39-41
- 4.3.3 本文提出算法與其他算法的結果對比41-42
- 4.4 總結42-43
- 第五章 語義搜索引擎設計與實現(xiàn)43-58
- 5.1 系統(tǒng)架構設計43-44
- 5.2 數(shù)據(jù)獲取系統(tǒng)44-47
- 5.3 消息系統(tǒng)47-48
- 5.4 線上系統(tǒng)48-54
- 5.4.1 索引構建流程48-52
- 5.4.2 檢索流程52-53
- 5.4.3 線上系統(tǒng)打分算法53-54
- 5.5 離線系統(tǒng)54-55
- 5.5.1 節(jié)目的語義特征向量55
- 5.5.2 節(jié)目的質量值55
- 5.6 演示系統(tǒng)55-56
- 5.7 總結56-58
- 第六章 總結與展望58-59
- 參考文獻59-62
- 附錄1 論文使用縮寫說明62-63
- 致謝63-64
- 攻讀學位期間發(fā)表或已錄用的學術論文64
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 石晶,龔震宇,裘杭萍,張毓森;一種更穩(wěn)定的鏈接分析算法——子空間HITS算法[J];吉林大學學報(理學版);2003年01期
2 李鈴;搜索引擎發(fā)展方向[J];科技情報開發(fā)與經(jīng)濟;2005年21期
3 于江生 ,俞士汶;中文概念詞典的結構[J];中文信息學報;2002年04期
,本文編號:878224
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/878224.html
最近更新
教材專著