面向自然語言查詢的知識搜索關(guān)鍵技術(shù)研究
發(fā)布時間:2017-03-26 21:03
本文關(guān)鍵詞:面向自然語言查詢的知識搜索關(guān)鍵技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)上信息的爆炸式增長,人們對信息檢索的需求越來越大。如何快速、精確、可靠地從大量的、結(jié)構(gòu)多樣化的信息中搜索到用戶需要的信息,成為一個熱門的迫切需要解決的課題。以Google為首的傳統(tǒng)的搜索引擎主要是基于關(guān)鍵詞匹配的一種信息檢索技術(shù),它從互聯(lián)網(wǎng)中以一定的策略搜集、爬取信息,對信息進行解析、索引,為用戶提供檢索服務(wù)。傳統(tǒng)搜索引擎存在搜索接口不友好、搜索過程復(fù)雜、返回信息量大、返回內(nèi)容針對性不強等問題。基于傳統(tǒng)搜索引擎存在的不足,面向自然語言查詢的知識搜索系統(tǒng)被提出。本文主要研究知識搜索系統(tǒng)中兩個關(guān)鍵技術(shù):基于知識圖譜的知識搜索和基于社區(qū)問答的知識搜索。針對事實性的問題,本文提供了基于結(jié)構(gòu)化的知識圖譜數(shù)據(jù)的知識搜索服務(wù)。這種檢索模式存在檢索語法復(fù)雜、數(shù)據(jù)結(jié)構(gòu)復(fù)雜等問題。因此,如何將無結(jié)構(gòu)化的自然語句映射到結(jié)構(gòu)化查詢語句是該模塊的核心。本文首先在從自然表達語句到知識庫中的實體和關(guān)系的映射上,提出了基于層次化實體映射和基于外部數(shù)據(jù)集的關(guān)系映射算法。同時,本文還提出了基于手工定義模板和基于語義關(guān)系抽取的自動生成算法,實現(xiàn)從無結(jié)構(gòu)化自然查詢語句到結(jié)構(gòu)化查詢語句之間的映射。針對非事實性的問題,本文提供了基于無結(jié)構(gòu)化的社區(qū)問答數(shù)據(jù)的知識搜索服務(wù)。本文從基于問題跟問題相似度匹配和問題跟答案相似度匹配兩個方向解決問題。在問題跟問題相似度匹配模型中,我們提出改進的WMD算法,該算法根據(jù)社區(qū)問答數(shù)據(jù)的特性對原始的WMD算法進行改進,算法的結(jié)果比傳統(tǒng)的BM25算法以及原始的WMD算法在性能上都有了較大提高。在問題與答案相似度匹配模型中,當(dāng)前學(xué)術(shù)界主要的思想是通過深度學(xué)習(xí)在NLP領(lǐng)域的應(yīng)用來比較兩個句子或者段落的語義相似度,本文在這些模型的基礎(chǔ)上,考慮問題和答案在數(shù)據(jù)集上的共現(xiàn)特征,提高了模型在處理答案簡短、關(guān)鍵詞與問題語義不匹配等情況下性能低下的問題。
【關(guān)鍵詞】:知識搜索 知識圖譜 社區(qū)問答 深度學(xué)習(xí) 共現(xiàn)特征
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【目錄】:
- 摘要5-6
- Abstract6-13
- 第1章 緒論13-18
- 1.1 課題背景與意義13-14
- 1.2 本文的主要工作14-16
- 1.3 本文的組織結(jié)構(gòu)16-17
- 1.4 本章小結(jié)17-18
- 第2章 知識搜索關(guān)鍵技術(shù)相關(guān)工作綜述18-27
- 2.1 知識搜索的概念及相關(guān)研究18-20
- 2.2 基于知識圖譜的知識搜索相關(guān)研究20-23
- 2.2.1 知識圖譜20-22
- 2.2.2 研究現(xiàn)狀和研究內(nèi)容22-23
- 2.3 基于社區(qū)問答的知識搜索相關(guān)研究23-25
- 2.3.1 社區(qū)問答23-25
- 2.3.2 研究現(xiàn)狀和研究內(nèi)容25
- 2.4 本章小結(jié)25-27
- 第3章 基于知識圖譜的知識搜索27-45
- 3.1 基于層次化模型的實體匹配算法28-33
- 3.1.1 基于倒排索引的嚴格匹配29-30
- 3.1.2 基于字符串相似度的匹配30-32
- 3.1.3 基于字典詞匯集的擴充32
- 3.1.4 基于語義相似度的匹配32-33
- 3.2 基于外部數(shù)據(jù)集的關(guān)系模式挖掘算法33-37
- 3.2.1 知識庫三元組集獲取34
- 3.2.2 外部數(shù)據(jù)集獲取34-35
- 3.2.3 潛在的自然語言表達式集挖掘35
- 3.2.4 自然語言表達式集驗證35-36
- 3.2.5 實驗與分析36-37
- 3.3 基于模板匹配的結(jié)構(gòu)化查詢語句生成37-44
- 3.3.1 基于手工定義模板的映射算法37-40
- 3.3.2 基于語義關(guān)系抽取的映射算法40-43
- 3.3.3 實驗與分析43-44
- 3.4 本章小結(jié)44-45
- 第4章 基于社區(qū)問答的知識搜索45-60
- 4.1 基于問題與問題相似度匹配算法45-53
- 4.1.1 基于BM25算法46-47
- 4.1.2 基于改進的WMD算法47-49
- 4.1.3 實驗與分析49-53
- 4.2 基于問題與答案相似度匹配算法53-59
- 4.2.1 問題和答案的語義向量表達53-55
- 4.2.2 問題和答案語義向量的相似度計算55-56
- 4.2.3 基于問題和答案詞共現(xiàn)特征的模型改進56-58
- 4.2.4 實驗和分析58-59
- 4.3 本章小結(jié)59-60
- 第5章 知識搜索系統(tǒng)設(shè)計與實現(xiàn)60-67
- 5.1 知識搜索系統(tǒng)框架介紹60
- 5.2 問句查詢處理模塊60-61
- 5.3 知識搜索分發(fā)模塊61-63
- 5.4 知識搜索服務(wù)模塊63-64
- 5.5 知識搜索結(jié)果處理模塊64
- 5.6 系統(tǒng)實現(xiàn)展示64-66
- 5.7 本章小結(jié)66-67
- 第6章 總結(jié)與展望67-70
- 6.1 總結(jié)67-68
- 6.2 展望68-70
- 參考文獻70-73
- 攻讀碩士學(xué)位期間主要的研究成果73-74
- 致謝74
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前8條
1 閆宏飛,陳
本文編號:269350
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/269350.html
最近更新
教材專著