天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于標簽篩選的文檔排序方法研究

發(fā)布時間:2017-09-30 18:00

  本文關鍵詞:基于標簽篩選的文檔排序方法研究


  更多相關文章: 搜索引擎 主題模型 互信息 查詢擴展 詞義消歧


【摘要】:在信息技術日新月異的今天,網絡信息量也在快速增長,每天通過互聯網產生的信息量是難以估計的,要想從這樣繁多的信息中找出滿意的結果,就必須要借助于搜索引擎,搜索技術的提高是優(yōu)化搜索引擎性能的關鍵。那么如何提升搜索技術,使搜索引擎能夠快速而準確地找到人們想要的知識,是信息檢索領域面臨的挑戰(zhàn)。本文首先介紹了信息檢索領域的研究現狀和相關知識,然后進一步引出本文研究重點。本文從標簽篩選和查詢擴展兩方面入手,來提升檢索效果。一方面,對文檔語義信息的挖掘是文本檢索中一個很重要的方法,充分地挖掘文本語義信息對檢索效果的提升有很大的幫助。Tag-LDA模型是在LDA模型的基礎上改進的一種主題模型,它在LDA模型的“文檔-主題”層之間加了一個標簽層,通過標簽層,能較好地發(fā)掘文檔的語義信息。然而Tag-LDA的標簽層在篩選標簽的過程中更多考慮的是詞語的詞頻信息,根據詞頻來選擇文本特征,抽取標簽,沒有考慮標簽對文檔的類別區(qū)分能力,進而導致篩選的標簽不能很好地代表文檔;另一方面,現有的查詢擴展方法大都是基于人工構建的知識庫,但是人工構建的知識庫忽略了詞語語義信息的動態(tài)變化情況,使得這種變化不能在擴展檢索中體現;谝陨咸岢龅膬蓚缺點,本文在第三章和第四章分別提出了兩個解決的方法。本文第三章提出了一種基于標簽篩選的文檔排序方法。該方法首先在互信息的基礎上引入特征項在文檔類別間的分布信息,通過特征項分布的方差來描述特征項的分布均勻程度,然后將特征項的位置信息也考慮進來,最后用引入了特征項分布和位置信息的互信息改進方法對文檔集中的文檔進行標簽選擇,篩選出更能代表文檔的標簽。通過基于互信息改進的Tag-LDA來獲得詞對文檔的語義信息表達,用于文檔排序,從而提升檢索效果。本文第四章還提出了一種基于動態(tài)詞語貢獻度的文檔排序方法。該方法針對現有的查詢擴展方法的不足之處,提出了幾點改進。首先提出了動態(tài)地計算和更新語義知識庫中詞語語義信息的方法,然后將這種語義信息融入到查詢詞擴展和詞義消歧的過程中,將擴展檢索提升到支持動態(tài)語義分析的檢索上,從而提高檢索結果的準確率和查全率。
【關鍵詞】:搜索引擎 主題模型 互信息 查詢擴展 詞義消歧
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第一章 緒論10-15
  • 1.1 研究背景及其意義10-11
  • 1.2 國內外研究現狀11-13
  • 1.3 本文的主要工作13-14
  • 1.4 論文的結構安排14-15
  • 第二章 相關理論知識15-27
  • 2.1 文本特征選擇15-17
  • 2.1.1 詞頻TF(Term Frequency)15
  • 2.1.2 互信息15-16
  • 2.1.3 期望交叉熵16
  • 2.1.4 信息增益16-17
  • 2.2 查詢擴展17-19
  • 2.2.1 基于敘詞表的查詢擴展17
  • 2.2.2 基于局部上下文分析(LCA)的查詢擴展17-18
  • 2.2.3 語義概念查詢擴展18-19
  • 2.3 詞義消歧19-22
  • 2.3.1 基于詞典的詞義消岐19-20
  • 2.3.2 基于統(tǒng)計的詞義消岐20-21
  • 2.3.3 基于維基百科的詞義消岐方法21-22
  • 2.4 語義知識庫22-23
  • 2.5 主題模型23-25
  • 2.5.1 LDA模型簡介24-25
  • 2.5.2 Tag-LDA模型25
  • 2.6 本章小結25-27
  • 第三章 基于標簽篩選的文檔排序方法27-36
  • 3.1 研究問題引出27-28
  • 3.2 互信息的改進方法28-30
  • 3.2.1 引入特征項分布的互信息方法28-29
  • 3.2.2 引入特征項位置信息的互信息方法29-30
  • 3.3 基于標簽篩選的文檔排序方法30-31
  • 3.3.1 基于互信息改進方法的標簽篩選30-31
  • 3.3.2 基于標簽篩選的文檔排序方法31
  • 3.3.3 基于標簽篩選的文檔排序方法描述31
  • 3.4 基于標簽篩選的文檔排序方法系統(tǒng)框架31-32
  • 3.5 實驗設計及結果分析32-35
  • 3.5.1 實驗語料及對比系統(tǒng)32-33
  • 3.5.2 實驗流程33
  • 3.5.3 篩選標簽結果對比與分析33
  • 3.5.4 實驗結果33-35
  • 3.6 本章小結35-36
  • 第四章 基于動態(tài)詞語貢獻度的文檔排序方法36-47
  • 4.1 問題引出36-37
  • 4.2 基于動態(tài)詞語貢獻度的檢索系統(tǒng)框架37-43
  • 4.2.1 查詢信息接收37-38
  • 4.2.2 查詢語句語義處理38-41
  • 4.2.3 詞語貢獻度動態(tài)計算41-43
  • 4.2.4 文本檢索43
  • 4.3 基于動態(tài)詞語貢獻度的文檔排序方法43-44
  • 4.3.1 相關公式43-44
  • 4.3.2 算法描述44
  • 4.4 實驗設計及結果分析44-46
  • 4.4.1 實驗流程44
  • 4.4.2 實驗結果44-46
  • 4.5 本章小結46-47
  • 第五章 總結及進一步工作47-49
  • 5.1 總結47
  • 5.2 進一步工作47-49
  • 參考文獻49-53
  • 攻讀碩士學位期間公開發(fā)表的成果與參加的科研項目53-54
  • 致謝54-55

【參考文獻】

中國期刊全文數據庫 前1條

1 任永功;楊榮杰;尹明飛;馬名威;;基于信息增益的文本特征選擇方法[J];計算機科學;2012年11期

,

本文編號:949582

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/949582.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶99ce0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com