基于語義的文獻關鍵字提取技術的研究
發(fā)布時間:2023-04-27 21:07
隨著信息技術的不斷發(fā)展,快速增長的數(shù)據(jù)涌現(xiàn)在人們眼前,各式各樣的信息充斥在生活的各個角落。因此,如何準確地從眾多數(shù)據(jù)信息中獲取到真正有意義的關鍵部分已成為研究的技術熱點。目前的關鍵字提取算法中大部分是基于詞頻和詞長的研究,也有基于語義和詞匯鏈的研究。在基于詞頻和詞長的關鍵字提取中依賴詞的長度,長度較長的分詞更容易成為關鍵字,但對于一些特殊情況卻適用性不強,同時沒有加入詞在全文中的語義信息;基于語義的研究忽略了詞本身的詞長等基本屬性,同時時間開銷較大,不能夠準確高效地提取到文獻關鍵字信息。在準確性和效率之間的兼容性較差。本文也正是基于以上問題進行的研究。關鍵字反應的是文章的主旨信息和核心概念。在閱讀和檢索查找等方面,精準的關鍵字信息能夠給讀者帶來極大的便利。所以在關鍵字的提取技術上,也有著不斷地改進和優(yōu)化。其中基于語義的提取算法通過消歧和語義分析能得到詞語在文章中更真實的含義和意圖。本文通過與傳統(tǒng)的TF-IDF和KEA等經(jīng)典算法的研究比較,提出了一種基于語義的GSW(Group character tree,Semantic similarity and Word-length prio...
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景
1.2 國內外研究現(xiàn)狀
1.2.1 國內研究現(xiàn)狀
1.2.2 國外研究現(xiàn)狀
1.3 主要工作及研究意義
1.3.1 主要工作
1.3.2 研究意義
1.4 論文結構
第2章 相關算法與技術
2.1 中文分詞優(yōu)化技術
2.1.1 基于詞典存儲的分詞優(yōu)化
2.1.2 基于字符串匹配的分詞優(yōu)化
2.2 關鍵字提取算法
2.2.1 TF-IDF
2.2.2 基于詞長改進的TF-IDF算法
2.2.3 KEA算法
2.2.4 基于語義的關鍵字提取算法
2.3 數(shù)據(jù)分析工具
第3章 GSW算法
3.1 相關工作
3.2 GCT分詞法
3.2.1 字符樹和trie索引樹
3.2.2 分組字符樹原理和GCT算法
3.2.3 性能比較
3.3 SDBT消歧算法
3.3.1 同義詞詞林和語義距離
3.3.2 基于語義距離—B+樹的消歧算法
3.3.3 實驗評估
3.4 WPR-TOC關鍵字提取算法
3.4.1 候選詞合并
3.4.2 樸素貝葉斯算法和特征選取
3.4.3 詞長優(yōu)先比原理
3.4.4 WPR-TOC算法
3.5 本章小結
第4章 系統(tǒng)實現(xiàn)和性能測試
4.1 基于語義的關鍵字提取的意義
4.2 系統(tǒng)概述
4.2.1 系統(tǒng)實現(xiàn)
4.2.2 處理流程
4.3 性能測試
4.3.1 實驗數(shù)據(jù)和開發(fā)平臺
4.3.2 實驗設計
4.4 結果分析
4.5 本章小結
第5章 總結與展望
5.1 論文總結
5.2 工作展望
參考文獻
作者簡介及在學期間所取得的科研成果
致謝
本文編號:3803066
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景
1.2 國內外研究現(xiàn)狀
1.2.1 國內研究現(xiàn)狀
1.2.2 國外研究現(xiàn)狀
1.3 主要工作及研究意義
1.3.1 主要工作
1.3.2 研究意義
1.4 論文結構
第2章 相關算法與技術
2.1 中文分詞優(yōu)化技術
2.1.1 基于詞典存儲的分詞優(yōu)化
2.1.2 基于字符串匹配的分詞優(yōu)化
2.2 關鍵字提取算法
2.2.1 TF-IDF
2.2.2 基于詞長改進的TF-IDF算法
2.2.3 KEA算法
2.2.4 基于語義的關鍵字提取算法
2.3 數(shù)據(jù)分析工具
第3章 GSW算法
3.1 相關工作
3.2 GCT分詞法
3.2.1 字符樹和trie索引樹
3.2.2 分組字符樹原理和GCT算法
3.2.3 性能比較
3.3 SDBT消歧算法
3.3.1 同義詞詞林和語義距離
3.3.2 基于語義距離—B+樹的消歧算法
3.3.3 實驗評估
3.4 WPR-TOC關鍵字提取算法
3.4.1 候選詞合并
3.4.2 樸素貝葉斯算法和特征選取
3.4.3 詞長優(yōu)先比原理
3.4.4 WPR-TOC算法
3.5 本章小結
第4章 系統(tǒng)實現(xiàn)和性能測試
4.1 基于語義的關鍵字提取的意義
4.2 系統(tǒng)概述
4.2.1 系統(tǒng)實現(xiàn)
4.2.2 處理流程
4.3 性能測試
4.3.1 實驗數(shù)據(jù)和開發(fā)平臺
4.3.2 實驗設計
4.4 結果分析
4.5 本章小結
第5章 總結與展望
5.1 論文總結
5.2 工作展望
參考文獻
作者簡介及在學期間所取得的科研成果
致謝
本文編號:3803066
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3803066.html
最近更新
教材專著