面向多領(lǐng)域大規(guī)模知識庫的自然語言自動問答研究
本文關(guān)鍵詞:面向多領(lǐng)域大規(guī)模知識庫的自然語言自動問答研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著計算機(jī)和網(wǎng)絡(luò)的飛速發(fā)展,我們已經(jīng)進(jìn)入了數(shù)據(jù)信息爆炸式增長的時代,如何從海量的非結(jié)構(gòu)化信息中提取真正滿足用戶需求的信息,已經(jīng)成為一個越來越重要的研究課題。自然語言問答系統(tǒng)應(yīng)運(yùn)而生,它是一個能夠?qū)τ嬎銠C(jī)用戶或移動用戶以自然語言形式描述的問句做出高效、準(zhǔn)確回答的問答系統(tǒng)。本文研究的課題是面向多領(lǐng)域大規(guī)模知識庫的自然語言自動問答研究。本文主要研究人物、地理、機(jī)構(gòu)、音樂和電影這五類的自然語言自動問答。除構(gòu)建知識庫外,其精髓是如何進(jìn)行準(zhǔn)確高效的自然語言問句語義理解。與傳統(tǒng)的搜索引擎不同,自然語言自動問答系統(tǒng)不是簡單的關(guān)鍵詞組合匹配,而是需要理解用戶意圖,因此,自然語言自動問答系統(tǒng)面臨著很多困難,主要有兩點:一是需要構(gòu)建大規(guī)模知識庫以及能夠高效查詢的查詢體系;二是系統(tǒng)的輸入是日常使用的自然語言,需要對自然語言問句進(jìn)行理解分析,得到用戶意圖。針對上述問題,本文提出了一系列解決方法,主要有以下四點:一是構(gòu)建知識庫。對知識存儲模型做了深入研究,根據(jù)存儲模型需要滿足能夠大規(guī)模存儲數(shù)據(jù)且高效查詢、又能支持知識推理的特點,決定使用RDF存儲模型存儲知識。本文按類別爬取了百科數(shù)據(jù)和豆瓣數(shù)據(jù),構(gòu)建RDF知識庫;二是進(jìn)行命名實體識別。自然語言問句理解首先需要識別命名實體,本文使用機(jī)器學(xué)習(xí)的方法進(jìn)行命名實體識別,研究了兩種機(jī)器學(xué)習(xí)方法:SVM統(tǒng)計模型和CRF統(tǒng)計模型,以及兩種統(tǒng)計模型特征模板的選取問題,同時研究了選取不同的特征模板對命名實體識別準(zhǔn)確率的影響,最終根據(jù)實驗數(shù)據(jù)選取合適的模板和統(tǒng)計模型;三是自然語言問句理解。本文在問句已經(jīng)被劃分類別、分詞和進(jìn)行命名實體識別的基礎(chǔ)上,利用類別信息和詞性標(biāo)注,提出構(gòu)建問句語義圖的方法來描述用戶意圖,針對漢語的一個實體可以有多種表述方式的問題,提出了實體消歧和屬性詞消歧的方法:四是構(gòu)建查詢機(jī)制。針對RDF知識庫需要用SPARQL語言進(jìn)行查詢的問題,構(gòu)建了自動生成SPARQL查詢語句的查詢機(jī)制。為了驗證本文方法的高效性,本文使用數(shù)據(jù)堂提供的手機(jī)助手語音問句作為實驗問句數(shù)據(jù)集,爬取百科頁面和豆瓣頁面作為構(gòu)造知識庫的數(shù)據(jù)集。實驗結(jié)果表明,本文構(gòu)建的知識庫高效且便于知識推理,本文提出的自然語言問句理解方法能夠很好地理解分析用戶的查詢意圖,并能夠返回準(zhǔn)確的答案。
【關(guān)鍵詞】:RDF知識庫 命名實體識別 語義圖 消歧 SPARQL查詢
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要6-7
- Abstract7-11
- 第1章 緒論11-17
- 1.1 研究背景11-12
- 1.2 研究現(xiàn)狀12-13
- 1.3 研究內(nèi)容13-14
- 1.4 研究方案與實施14-15
- 1.5 論文章節(jié)安排15-17
- 第2章 RDF知識庫的構(gòu)建17-24
- 2.1 RDF知識庫概述17-19
- 2.2 百科詞條信息抽取及預(yù)處理19-20
- 2.3 構(gòu)建存儲模型RDF知識庫20-22
- 2.4 與其他存儲模型比較22-23
- 2.5 本章小結(jié)23-24
- 第3章 自然語言問句中命名實體識別24-40
- 3.1 統(tǒng)計模型24-27
- 3.1.1 SVM統(tǒng)計模型25-26
- 3.1.2 CRF統(tǒng)計模型26-27
- 3.2 問句中命名實體識別27-34
- 3.2.1 命名實體識別的必要性27-28
- 3.2.2 SVM統(tǒng)計模型中英文特征模板的選取28-29
- 3.2.3 CRF統(tǒng)計模型中英文特征模板的選取29-31
- 3.2.4 構(gòu)建命名實體識別SVM統(tǒng)計模型31-32
- 3.2.5 構(gòu)建命名實體識別CRF統(tǒng)計模型32-34
- 3.3 實驗結(jié)果與分析34-38
- 3.3.1 實驗數(shù)據(jù)與設(shè)置34
- 3.3.2 評價標(biāo)準(zhǔn)34-35
- 3.3.3 SVM中英文命名實體識別實驗結(jié)果35-36
- 3.3.4 CRF中英文命名實體識別實驗結(jié)果36-38
- 3.4 本章小結(jié)38-40
- 第4章 自然語言問句理解40-54
- 4.1 問句語義圖的構(gòu)建40-43
- 4.1.1 語義圖的定義40-41
- 4.1.2 構(gòu)造問句語義圖41-43
- 4.2 實體消歧43-44
- 4.3 屬性詞消歧44-48
- 4.3.1 屬性詞消歧的重要性44-45
- 4.3.2 文本中的屬性詞相關(guān)詞收集45-47
- 4.3.3 基于N-gram的問句中屬性詞相關(guān)詞收集47-48
- 4.4 實驗結(jié)果與分析48-52
- 4.4.1 實驗數(shù)據(jù)集48
- 4.4.2 評價標(biāo)準(zhǔn)48-49
- 4.4.3 各類語音問句理解效果與分析49-52
- 4.5 本章小結(jié)52-54
- 第5章 SPARQL查詢54-62
- 5.1 SPARQL相關(guān)介紹54-55
- 5.2 SPARQL查詢算法55-59
- 5.2.1 自然語言問句查詢的總體架構(gòu)55-56
- 5.2.2 Triple Pattern自動生成56-57
- 5.2.3 自然語言問句查詢算法57-59
- 5.2.4 SPARQL實例查詢59
- 5.3 SPARQL查詢實驗結(jié)果與分析59-60
- 5.4 本章小結(jié)60-62
- 結(jié)論62-63
- 致謝63-64
- 參考文獻(xiàn)64-68
- 攻讀碩士學(xué)位期間發(fā)表的論文及科研成果68
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 顧瀟華;楊杰;陳立勛;;漢語關(guān)鍵詞自動轉(zhuǎn)換主題詞的方法[J];河北大學(xué)學(xué)報(自然科學(xué)版);2014年03期
2 賈真;尹紅風(fēng);李天瑞;;中文網(wǎng)絡(luò)百科開放分類層次結(jié)構(gòu)樹及其聚類算法研究[J];計算機(jī)應(yīng)用研究;2013年06期
3 奉國和;;SVM分類核函數(shù)及參數(shù)選擇比較[J];計算機(jī)工程與應(yīng)用;2011年03期
4 繆建明;張全;;一種基于概念關(guān)聯(lián)式的詞義消岐方法[J];計算機(jī)科學(xué);2010年01期
5 趙軍;;命名實體識別、排歧和跨語言關(guān)聯(lián)[J];中文信息學(xué)報;2009年02期
6 張曉艷;王挺;陳火旺;;命名實體識別研究[J];計算機(jī)科學(xué);2005年04期
7 崔桓,蔡東風(fēng),苗雪雷;基于網(wǎng)絡(luò)的中文問答系統(tǒng)及信息抽取算法研究[J];中文信息學(xué)報;2004年03期
8 李素建,劉群,楊志峰;基于最大熵模型的組塊分析[J];計算機(jī)學(xué)報;2003年12期
9 周雅倩,郭以昆,黃萱菁,吳立德;基于最大熵方法的中英文基本名詞短語識別[J];計算機(jī)研究與發(fā)展;2003年03期
10 周強(qiáng),孫茂松,黃昌寧;漢語句子的組塊分析體系[J];計算機(jī)學(xué)報;1999年11期
本文關(guān)鍵詞:面向多領(lǐng)域大規(guī)模知識庫的自然語言自動問答研究,,由筆耕文化傳播整理發(fā)布。
本文編號:325140
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/325140.html