面向檢索信息的同義詞挖掘
發(fā)布時間:2021-01-20 09:19
隨著計算機技術的飛速發(fā)展,搜索引擎的應用深入到各行各業(yè),使用搜索引擎對信息進行檢索已經(jīng)深入到人民群眾的日常生活當中,信息的查找與獲取變得越來越頻繁的同時,信息的精準查找與獲取也越來越有挑戰(zhàn)性。如何從浩如煙海的信息資源庫中,更加準確的理解用戶想要搜索的關鍵詞,使得關鍵詞搜索內(nèi)容能夠得到拓展和更加準確的推薦,是信息檢索領域一直以來的重要研究課題。傳統(tǒng)的信息檢索服務已漸漸不能滿足用戶的檢索需求,智能的、基于概念的信息檢索系統(tǒng)成為未來的發(fā)展方向。識別用戶搜索關鍵詞的可替代同義詞是實現(xiàn)智能信息檢索的重要方法之一,而要實現(xiàn)高效的同義詞拓展,就需要一個強大的同義詞表。本文中定義的同義詞,是在相似的上下文語境中可以相互替代的詞。隨著時代的變化,語言的應用日新月異,使用傳統(tǒng)的同義詞詞典查詢的方法對同義詞進行判別或者發(fā)現(xiàn)已完全不適用。使用更加智能的方法進行同義詞挖掘,找到新的同義詞表勢在必行。近年來,隨著自然語言處理技術的進步,關于同義詞的研究越來越多,需要用到同義詞的領域涉及方方面面,研究者們提出了眾多先進的配對同義詞辨析和基于語料庫的同義詞集提取方法。本文面向檢索信息進行同義詞挖掘,與使用基于特定業(yè)務...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:78 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究工作的背景
1.2 本文研究的目的與意義
1.3 國內(nèi)外研究歷史與現(xiàn)狀
1.4 本文章節(jié)編排
第二章 相關研究
2.1 同義詞識別的概念
2.2 同義詞識別的分類
2.3 漢語同義詞識別算法研究
2.3.1 基于字面的相似度算法
2.3.2 基于Ontology(世界知識)的相似度算法
2.3.3 基于圖模型的同義詞集抽取算法
2.4 詞向量
2.4.1 詞向量的理解
2.5 XGBoost模型
第三章 數(shù)據(jù)處理及對齊規(guī)則設計
3.1 同義詞挖掘具體實現(xiàn)流程
3.2 數(shù)據(jù)預處理
3.2.1 數(shù)據(jù)提取
3.3 對齊規(guī)則設計
3.3.1 對齊的概念
3.3.2 規(guī)則對齊
3.3.3 統(tǒng)計對齊
3.3.4 短語對抽取
第四章 特征工程及模型訓練
4.1 特征工程
4.1.1 統(tǒng)計特征提取
4.1.2 詞向量特征提取
4.1.3 特征篩選
4.2 模型訓練及調(diào)參
4.3 基于領域文章檢索數(shù)據(jù)的同義詞挖掘應用拓展
4.3.1 候選對提取
4.3.2 詞對清洗
4.3.3 特征工程
4.3.4 模型訓練
第五章 實驗與分析
5.1 實驗結果
5.1.1 對比實驗一
5.1.2 方法及調(diào)參實驗
5.1.3 對比實驗二
5.1.4 查詢小界面
5.1.5 本章小節(jié)
第六章 總結與展望
致謝
參考文獻
攻讀碩士學位期間取得的成果
【參考文獻】:
期刊論文
[1]中文短文本聚合模型研究[J]. 劉震,陳晶,鄭建賓,華錦芝,肖淋峰. 軟件學報. 2017(10)
[2]微博文本聚類中特征擴展策略研究[J]. 段旭磊,張仰森,郭正斌. 計算機工程與應用. 2017(13)
[3]基于路徑與深度的同義詞詞林詞語相似度計算[J]. 陳宏朝,李飛,朱新華,馬潤聰. 中文信息學報. 2016(05)
[4]詞匯相似度計算和相似詞挖掘研究進展[J]. 韓普,王東波,王子敏. 情報科學. 2016(09)
[5]基于知網(wǎng)與詞林的詞語語義相似度計算[J]. 朱新華,馬潤聰,孫柳,陳宏朝. 中文信息學報. 2016(04)
[6]產(chǎn)品評論挖掘中特征同義詞的識別[J]. 郗亞輝. 中文信息學報. 2016(04)
[7]基于復雜網(wǎng)絡的漢語相似詞挖掘和相似度計算研究[J]. 韓普,王東波,朱恒民. 情報學報. 2015 (08)
[8]基于詞向量距離的相關詞變遷研究——以《情報探索》雜志摘要為例[J]. 方延風,陳健. 情報探索. 2015(04)
[9]多策略同義詞獲取方法研究[J]. 宋文杰,顧彥慧,周俊生,孫玉杰,嚴杰,曲維光. 北京大學學報(自然科學版). 2015(02)
[10]基于維基語義圖的詞語語義相關度計算研究[J]. 劉曉亮. 情報學報. 2014 (11)
碩士論文
[1]基于搜索日志和點擊日志的同義詞挖掘的研究和實現(xiàn)[D]. 宋宇軒.北京交通大學 2011
[2]基于百科詞典的知識獲取系統(tǒng)的研究與實現(xiàn)[D]. 許勇.北京工業(yè)大學 2001
[3]智能搜索引擎中的同義詞識別算法研究[D]. 朱毅華.南京農(nóng)業(yè)大學 2001
本文編號:2988786
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:78 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究工作的背景
1.2 本文研究的目的與意義
1.3 國內(nèi)外研究歷史與現(xiàn)狀
1.4 本文章節(jié)編排
第二章 相關研究
2.1 同義詞識別的概念
2.2 同義詞識別的分類
2.3 漢語同義詞識別算法研究
2.3.1 基于字面的相似度算法
2.3.2 基于Ontology(世界知識)的相似度算法
2.3.3 基于圖模型的同義詞集抽取算法
2.4 詞向量
2.4.1 詞向量的理解
2.5 XGBoost模型
第三章 數(shù)據(jù)處理及對齊規(guī)則設計
3.1 同義詞挖掘具體實現(xiàn)流程
3.2 數(shù)據(jù)預處理
3.2.1 數(shù)據(jù)提取
3.3 對齊規(guī)則設計
3.3.1 對齊的概念
3.3.2 規(guī)則對齊
3.3.3 統(tǒng)計對齊
3.3.4 短語對抽取
第四章 特征工程及模型訓練
4.1 特征工程
4.1.1 統(tǒng)計特征提取
4.1.2 詞向量特征提取
4.1.3 特征篩選
4.2 模型訓練及調(diào)參
4.3 基于領域文章檢索數(shù)據(jù)的同義詞挖掘應用拓展
4.3.1 候選對提取
4.3.2 詞對清洗
4.3.3 特征工程
4.3.4 模型訓練
第五章 實驗與分析
5.1 實驗結果
5.1.1 對比實驗一
5.1.2 方法及調(diào)參實驗
5.1.3 對比實驗二
5.1.4 查詢小界面
5.1.5 本章小節(jié)
第六章 總結與展望
致謝
參考文獻
攻讀碩士學位期間取得的成果
【參考文獻】:
期刊論文
[1]中文短文本聚合模型研究[J]. 劉震,陳晶,鄭建賓,華錦芝,肖淋峰. 軟件學報. 2017(10)
[2]微博文本聚類中特征擴展策略研究[J]. 段旭磊,張仰森,郭正斌. 計算機工程與應用. 2017(13)
[3]基于路徑與深度的同義詞詞林詞語相似度計算[J]. 陳宏朝,李飛,朱新華,馬潤聰. 中文信息學報. 2016(05)
[4]詞匯相似度計算和相似詞挖掘研究進展[J]. 韓普,王東波,王子敏. 情報科學. 2016(09)
[5]基于知網(wǎng)與詞林的詞語語義相似度計算[J]. 朱新華,馬潤聰,孫柳,陳宏朝. 中文信息學報. 2016(04)
[6]產(chǎn)品評論挖掘中特征同義詞的識別[J]. 郗亞輝. 中文信息學報. 2016(04)
[7]基于復雜網(wǎng)絡的漢語相似詞挖掘和相似度計算研究[J]. 韓普,王東波,朱恒民. 情報學報. 2015 (08)
[8]基于詞向量距離的相關詞變遷研究——以《情報探索》雜志摘要為例[J]. 方延風,陳健. 情報探索. 2015(04)
[9]多策略同義詞獲取方法研究[J]. 宋文杰,顧彥慧,周俊生,孫玉杰,嚴杰,曲維光. 北京大學學報(自然科學版). 2015(02)
[10]基于維基語義圖的詞語語義相關度計算研究[J]. 劉曉亮. 情報學報. 2014 (11)
碩士論文
[1]基于搜索日志和點擊日志的同義詞挖掘的研究和實現(xiàn)[D]. 宋宇軒.北京交通大學 2011
[2]基于百科詞典的知識獲取系統(tǒng)的研究與實現(xiàn)[D]. 許勇.北京工業(yè)大學 2001
[3]智能搜索引擎中的同義詞識別算法研究[D]. 朱毅華.南京農(nóng)業(yè)大學 2001
本文編號:2988786
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2988786.html
最近更新
教材專著