自然語言處理在信息檢索中的研究和應用
發(fā)布時間:2023-05-03 17:30
21世紀是互聯網的黃金時代。在這一期間,信息技術得到了快速的發(fā)展,因特網已經成為目前最大的知識寶庫。其內容浩如煙海,包羅萬象,是人們求知解惑的重要來源。信息檢索系統(tǒng)作為人們獲取網絡資源的高效工具,自始至終發(fā)揮著重要作用。但是傳統(tǒng)采用關鍵字進行全文檢索方式的檢索系統(tǒng),存在檢索結果不全面和相關性低等問題。針對目前檢索系統(tǒng)存在的不足,本文使用自然語言處理中的相關技術對檢索系統(tǒng)加以優(yōu)化,實現對查詢關鍵詞進行擴展。本文設計了一種基于百科詞條信息的詞語相似度計算方法。該方法由詞條間對應的名片、詞條正文,開放分類和相關詞條四部分之間的內容相似度,來獲得給定詞匯對的整體相似度。利用該方法在《HowNet》中文詞典中獲取關鍵詞意思相近的詞作為擴展詞。另外,本文還實現了對用戶興趣愛好信息的提取,并把結果作為對檢索結果排序優(yōu)化的依據。本文的主要工作如下:(1)深入研究Simhash算法,提出了改進的TTSimhash算法。TTSimhash算法采用ICTCLAS分詞技術,在關鍵詞初始權值計算中,引入TF-IDF方法,并考慮了詞性、詞長的因素。采用基于PageRank的思想對文本建立圖模型,通過鄰接節(jié)點以及鄰...
【文章頁數】:71 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 研究現狀及發(fā)展趨勢
1.3 本文主要工作
1.4 本文組織結構
第2章 理論與技術基礎
2.1 中文分詞和預處理
2.2 TF-IDF算法
2.3 百度百科和詞語相似度
2.4 本章小結
第3章 Simhash算法的改進
3.1 Simhash算法簡介
3.2 改進的Simhash算法
3.2.1 投票模型簡介
3.2.2 關鍵詞權值計算
3.3 評價指標
3.4 實驗及結果分析
3.5 本章小結
第4章 基于TTSimhash算法的詞語相似度計算
4.1 詞條相似度計算
4.1.1 詞條名片相似度計算
4.1.2 詞條正文相似度計算
4.1.3 詞條開放分類相似度計算
4.1.4 相關詞條相似度計算
4.1.5 詞條相似度計算公式
4.2 數據集處理
4.3 評價指標
4.4 實驗及結果分析
4.5 本章小結
第5章 詞語相似度在信息檢索中的應用
5.1 系統(tǒng)需求分析
5.2 系統(tǒng)設計與實現
5.2.1 查詢擴展模塊設計與實現
5.2.2 個性化模塊設計與實現
5.3 系統(tǒng)測試
5.3.1 查詢擴展模塊測試
5.3.2 個性化模塊測試
5.3.3 系統(tǒng)搜索結果展示
5.4 本章小結
第6章 總結和展望
6.1 總結
6.2 展望
參考文獻
攻讀碩士學位期間發(fā)表的論文
致謝
本文編號:3807030
【文章頁數】:71 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 研究現狀及發(fā)展趨勢
1.3 本文主要工作
1.4 本文組織結構
第2章 理論與技術基礎
2.1 中文分詞和預處理
2.2 TF-IDF算法
2.3 百度百科和詞語相似度
2.4 本章小結
第3章 Simhash算法的改進
3.1 Simhash算法簡介
3.2 改進的Simhash算法
3.2.1 投票模型簡介
3.2.2 關鍵詞權值計算
3.3 評價指標
3.4 實驗及結果分析
3.5 本章小結
第4章 基于TTSimhash算法的詞語相似度計算
4.1 詞條相似度計算
4.1.1 詞條名片相似度計算
4.1.2 詞條正文相似度計算
4.1.3 詞條開放分類相似度計算
4.1.4 相關詞條相似度計算
4.1.5 詞條相似度計算公式
4.2 數據集處理
4.3 評價指標
4.4 實驗及結果分析
4.5 本章小結
第5章 詞語相似度在信息檢索中的應用
5.1 系統(tǒng)需求分析
5.2 系統(tǒng)設計與實現
5.2.1 查詢擴展模塊設計與實現
5.2.2 個性化模塊設計與實現
5.3 系統(tǒng)測試
5.3.1 查詢擴展模塊測試
5.3.2 個性化模塊測試
5.3.3 系統(tǒng)搜索結果展示
5.4 本章小結
第6章 總結和展望
6.1 總結
6.2 展望
參考文獻
攻讀碩士學位期間發(fā)表的論文
致謝
本文編號:3807030
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3807030.html
教材專著