面向特定領(lǐng)域的問答系統(tǒng)及其在NAO機(jī)器人平臺(tái)上的實(shí)現(xiàn)
本文關(guān)鍵詞:面向特定領(lǐng)域的問答系統(tǒng)及其在NAO機(jī)器人平臺(tái)上的實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:智能問答系統(tǒng)有別與傳統(tǒng)的搜索引擎,用戶提問的是更加多樣化、無固定格式的自然語言形式問句query,對(duì)于基于關(guān)鍵詞的傳統(tǒng)搜索引擎來說,返回給戶的可能是一些相關(guān)的列表,但是智能問答系統(tǒng)要做的更加直接更加智能化,對(duì)于query給出明確的答案,因此相對(duì)于傳統(tǒng)搜索引擎,智能問答系統(tǒng)的實(shí)現(xiàn)過程更加困難。問答系統(tǒng)的實(shí)現(xiàn)方式有很多種,有些是基于數(shù)據(jù)庫的,有些事基于搜索引擎的。基于數(shù)據(jù)庫的問答系統(tǒng)需要構(gòu)建一個(gè)龐大的知識(shí)庫,這部分工作量是巨大而繁瑣的;谒阉饕娴膯柎鹣到y(tǒng)則是省略了知識(shí)庫構(gòu)建繁瑣的過程,主要是工作集中在問句的理解,答案的抽取和排序。隨著信息的逐漸網(wǎng)絡(luò)化,很多的信息都可以從互聯(lián)網(wǎng)上獲得。與此同時(shí),南京大學(xué)計(jì)算機(jī)系教師信息不統(tǒng)一,對(duì)于想了解相關(guān)資料的同學(xué)來說,信息的零散化、不透明使得很多時(shí)候無從查起,沒有一個(gè)規(guī)范化的系統(tǒng)來幫助他們。基于此,本文從現(xiàn)實(shí)需求的角度出發(fā),整合各個(gè)方面的信息,構(gòu)建一個(gè)基于南京大學(xué)計(jì)算機(jī)系(computer science,CS)教師信息的問答系統(tǒng)。本文著重于限定領(lǐng)域的智能問答,以計(jì)算機(jī)系教師信息來構(gòu)建相應(yīng)的知識(shí)庫,包括從Web不同網(wǎng)站入口爬取相關(guān)內(nèi)容,解析網(wǎng)頁結(jié)構(gòu),再做相應(yīng)的信息抽取,進(jìn)一步整理數(shù)據(jù),數(shù)據(jù)清洗、消解,實(shí)體融合,產(chǎn)生結(jié)構(gòu)化知識(shí)庫。以這樣相對(duì)完善的CS知識(shí)庫為基礎(chǔ),同時(shí)以課題組購買的法國Aldebaran公司的人型機(jī)器人NAO作為硬件平臺(tái)構(gòu)建智能問答系統(tǒng)iAskNao。本文主要的研究重點(diǎn)是構(gòu)建結(jié)構(gòu)化知識(shí)庫、知識(shí)庫的Web可視化展示和對(duì)問句query的分析和計(jì)算。傳統(tǒng)構(gòu)建問答系統(tǒng)的過程一般包括:問句分析、信息檢索、答案抽取。本文的側(cè)重點(diǎn)在于系統(tǒng)的搭建過程,主要包括通過Web網(wǎng)頁爬取、信息抽取、數(shù)據(jù)整理、知識(shí)庫構(gòu)建、Web可視化展示以及在NAO上搭建融合不同場景下的問答系統(tǒng),最后將相應(yīng)的工作都融合在硬件平臺(tái)NAO上面。NAO機(jī)器人本身自帶有語音識(shí)別的引擎,但是缺點(diǎn)在于是屬于插入識(shí)別,這樣就限制了問句的形式,無法滿足用戶多樣化的問題形式;诖,本文采用了使用云端語音識(shí)別的方法,NAO機(jī)器人通過獲取用戶的語音問句,上次到web云端去識(shí)別,再對(duì)返回來的識(shí)別文字做相應(yīng)的問句分析、答案檢索等一系列處理,這樣客服了NAO自帶語音識(shí)別的問題,使得問句的形式更加多樣化,對(duì)于后期問答系統(tǒng)的問句的拓展奠定了很重要的基礎(chǔ)。
【關(guān)鍵詞】:自動(dòng)問答 問句分析 知識(shí)庫構(gòu)建 Web可視化展現(xiàn) NAO機(jī)器人
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3;TP242
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第1章 緒論10-16
- 1.1 研究背景10-11
- 1.2 問答系統(tǒng)介紹11-13
- 1.3 本文的主要工作13-15
- 1.4 本文的組織結(jié)構(gòu)15-16
- 第2章 Web信息抽取16-34
- 2.1 引言16-17
- 2.2 網(wǎng)頁爬蟲17-23
- 2.3 信息抽取23-33
- 2.3.1 常用的Web信息抽取方法23-26
- 2.3.2 基于DOM和模板解析HTML26-30
- 2.3.3 基于正則表達(dá)式的抽取規(guī)則30-31
- 2.3.4 基于規(guī)則的實(shí)體消解指代消解31-33
- 2.4 本章小結(jié)33-34
- 第3章 面向領(lǐng)域問答系統(tǒng)的知識(shí)庫構(gòu)建34-42
- 3.1 引言34-35
- 3.2 數(shù)據(jù)表示形式-三元組35-36
- 3.3 使用RDF做Web數(shù)據(jù)交互36-38
- 3.4 基于模板的數(shù)據(jù)整理38-41
- 3.5 本章小結(jié)41-42
- 第4章 基于Web的知識(shí)庫檢索系統(tǒng)(iAsk)及其可視化展示42-51
- 4.1 引言42
- 4.2 ARBORJS簡介42-43
- 4.3 RDF轉(zhuǎn)化為JSON數(shù)據(jù)43-44
- 4.4 iAsk系統(tǒng)構(gòu)建44-50
- 4.5 本章小結(jié)50-51
- 第5章 問答系統(tǒng)在NAO機(jī)器人平臺(tái)上的應(yīng)用51-57
- 5.1 NAO機(jī)器人概述51-53
- 5.2 基于NAO機(jī)器人平臺(tái)的問答系統(tǒng)iAskNao53-56
- 5.2.1 語音識(shí)別54-56
- 5.2.2 簡單邏輯推理56
- 5.3 本章小結(jié)56-57
- 第6章 結(jié)論與展望57-58
- 參考文獻(xiàn)58-63
- 附錄63-64
- 附錄1 碩士生期間參與的科研項(xiàng)目63-64
- 致謝64-65
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 盧志堅(jiān),張冬茉;中文問答系統(tǒng)中的問句理解[J];計(jì)算機(jī)工程;2004年18期
2 王樹西;問答系統(tǒng):核心技術(shù)、發(fā)展趨勢[J];計(jì)算機(jī)工程與應(yīng)用;2005年18期
3 賈君枝;毛海飛;;漢語框架網(wǎng)絡(luò)問答系統(tǒng)問句處理研究[J];圖書情報(bào)工作;2008年10期
4 胡小華;劉軒;劉丹;陸偉;;基于冗余的仿真問答系統(tǒng)的輕量級(jí)局部文本分析[J];圖書情報(bào)知識(shí);2009年01期
5 張中峰;李秋丹;;社區(qū)問答系統(tǒng)研究綜述[J];計(jì)算機(jī)科學(xué);2010年11期
6 陳玉;;基于“為什么”問句的中文問答系統(tǒng)研究[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2010年11期
7 陳玉;;基于關(guān)鍵詞距離的中文問答系統(tǒng)研究[J];電腦開發(fā)與應(yīng)用;2011年01期
8 翟菊葉;馬吳迪;;電子商務(wù)問答系統(tǒng)的研究[J];科技信息;2011年18期
9 李季;淺談中文問答系統(tǒng)[J];遼寧經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院.遼寧經(jīng)濟(jì)管理干部學(xué)院學(xué)報(bào);2004年01期
10 林鴻飛;丁洪文;楊志豪;趙晶;;基于概念和統(tǒng)計(jì)的問答系統(tǒng)實(shí)現(xiàn)機(jī)制[J];大連理工大學(xué)學(xué)報(bào);2006年02期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 何靖;陳,
本文編號(hào):378821
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/378821.html