基于結(jié)構(gòu)化數(shù)據(jù)的雙語自動(dòng)問答系統(tǒng)研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于結(jié)構(gòu)化數(shù)據(jù)的雙語自動(dòng)問答系統(tǒng)研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著信息時(shí)代的到來和web2.0技術(shù)的快速發(fā)展,結(jié)構(gòu)化數(shù)據(jù)得到極大豐富。由于傳統(tǒng)搜索引擎的固有缺陷,自動(dòng)問答受到越來越多研究者的關(guān)注。同時(shí),結(jié)構(gòu)化知識(shí)的擁有易用性高、可信度高等特點(diǎn)。因此,研究更加高效、實(shí)用的基于結(jié)構(gòu)化數(shù)據(jù)的自動(dòng)問答系統(tǒng),具有非常重要的研究意義和實(shí)用價(jià)值。本文旨在研究基于結(jié)構(gòu)化數(shù)據(jù)的問答系統(tǒng)中涉及的關(guān)鍵技術(shù),并在研究的基礎(chǔ)上實(shí)現(xiàn)基于DBpedia和百度百科三元組結(jié)構(gòu)化數(shù)據(jù)的雙語自動(dòng)問答系統(tǒng)。論文主要工作和創(chuàng)新點(diǎn)包括:1)分析了問答系統(tǒng)的主要類型和研究現(xiàn)狀,闡述了本文的研究背景和研究意義,并詳細(xì)探討了問答系統(tǒng)中涉及的關(guān)鍵技術(shù);2)提出并實(shí)現(xiàn)了基于依存樹的中英文問句分析算法,有效地抽取問句中的關(guān)系短語和表述,并提出啟發(fā)式規(guī)則用以改善抽取效果。針對(duì)問句的特點(diǎn),使用有監(jiān)督機(jī)器學(xué)習(xí)方法,改進(jìn)了共指消解算法。提出了基于后綴樹的候選節(jié)點(diǎn)召回和查詢擴(kuò)展的方法,并基于規(guī)則對(duì)候選節(jié)點(diǎn)進(jìn)行過濾,實(shí)現(xiàn)了基于排序?qū)W習(xí)的實(shí)體鏈接算法;3)提出并實(shí)現(xiàn)了融合子圖匹配和SPARQL語句的答案抽取算法,提出了基于語義屬性的匹配規(guī)則,改進(jìn)了子圖匹配算法。對(duì)于簡(jiǎn)單類型問句,系統(tǒng)將問句轉(zhuǎn)化為查詢圖,進(jìn)而通過子圖匹配的方式在知識(shí)庫(kù)中查找答案,保證系統(tǒng)效率;對(duì)于包含最高級(jí)、統(tǒng)計(jì)等形式的復(fù)雜問句,通過轉(zhuǎn)換成SPARQL語句的方式查找答案,增強(qiáng)了問答系統(tǒng)可用性;4)針對(duì)中文結(jié)構(gòu)化數(shù)據(jù)量較小且不完善的問題,通過翻譯模塊,引入英文知識(shí)庫(kù)幫助回答中文問題。設(shè)計(jì)并實(shí)現(xiàn)了基于結(jié)構(gòu)化數(shù)據(jù)的雙語自動(dòng)問答系統(tǒng),最后通過實(shí)驗(yàn)驗(yàn)證了系統(tǒng)性能。
【關(guān)鍵詞】:結(jié)構(gòu)化數(shù)據(jù) 問句分析 實(shí)體鏈接 答案抽取 中英翻譯
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-10
- 第1章 緒論10-16
- 1.1 研究背景與意義10-12
- 1.1.1 研究背景10
- 1.1.2 研究意義10-12
- 1.2 研究現(xiàn)狀和發(fā)展趨勢(shì)12-14
- 1.3 本文的主要工作和結(jié)構(gòu)安排14-15
- 1.3.1 本文的主要工作14
- 1.3.2 本文的結(jié)構(gòu)安排14-15
- 1.4 本章小結(jié)15-16
- 第2章 相關(guān)技術(shù)16-26
- 2.1 基于結(jié)構(gòu)化數(shù)據(jù)的問答系統(tǒng)16-19
- 2.1.1 基于關(guān)系數(shù)據(jù)庫(kù)的問答系統(tǒng)17-18
- 2.1.2 基于本體的問答系統(tǒng)18-19
- 2.1.3 基于XML數(shù)據(jù)庫(kù)的自動(dòng)問答系統(tǒng)19
- 2.2 共指消解相關(guān)技術(shù)19-23
- 2.2.1 基于規(guī)則的共指消解19-20
- 2.2.2 基于學(xué)習(xí)的共指消解20-23
- 2.3 實(shí)體鏈接相關(guān)技術(shù)23-24
- 2.3.1 檢索模型23-24
- 2.3.2 分類模型24
- 2.4 答案抽取相關(guān)技術(shù)24-25
- 2.4.1 基于SPARQL語句的答案抽取24-25
- 2.4.2 基于子圖匹配的答案抽取25
- 2.5 本章小結(jié)25-26
- 第3章 基于依存樹的問句分析與理解26-36
- 3.1 問題描述26-27
- 3.2 基于依存樹的英文問句分析27-30
- 3.2.1 英文問句中的關(guān)系抽取27-30
- 3.2.2 英文問句表述抽取30
- 3.3 中文問句分析30-32
- 3.3.1 基于依存分析的中文問句分析30-31
- 3.3.2 基于字典樹的中文問句分析31-32
- 3.4 基于表述對(duì)模型的共指消解32-35
- 3.4.1 表述檢測(cè)32
- 3.4.2 表述對(duì)構(gòu)建32-34
- 3.4.3 實(shí)驗(yàn)結(jié)果及分析34-35
- 3.5 本章小結(jié)35-36
- 第4章 基于排序?qū)W習(xí)的實(shí)體鏈接36-44
- 4.1 問題描述36
- 4.2 候選知識(shí)庫(kù)節(jié)點(diǎn)召回36-37
- 4.3 知識(shí)庫(kù)節(jié)點(diǎn)排序37-43
- 4.3.1 排序特征的選擇37-42
- 4.3.2 基于排序?qū)W習(xí)的知識(shí)庫(kù)節(jié)點(diǎn)排序42-43
- 4.4 實(shí)驗(yàn)結(jié)果及分析43
- 4.5 本章小結(jié)43-44
- 第5章 基于結(jié)構(gòu)化數(shù)據(jù)的答案抽取44-49
- 5.1 問題描述44
- 5.2 基于子圖匹配的答案抽取44-47
- 5.2.1 查詢子圖的構(gòu)建和排序45
- 5.2.2 改進(jìn)的子圖匹配算法45-47
- 5.3 基于SPARQL語句的答案抽取47-48
- 5.3.1 SPARQL語句的生成47-48
- 5.3.2 SPARQL語句的執(zhí)行48
- 5.4 本章小結(jié)48-49
- 第6章 BSDQA系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)49-60
- 6.1 引言49
- 6.2 BSDQA總體設(shè)計(jì)49-53
- 6.2.1 實(shí)驗(yàn)環(huán)境49
- 6.2.2 系統(tǒng)框架49-51
- 6.2.3 處理流程51-52
- 6.2.4 系統(tǒng)演示52
- 6.2.5 系統(tǒng)邏輯結(jié)構(gòu)52-53
- 6.3 系統(tǒng)所用知識(shí)庫(kù)和工具包53-55
- 6.3.1 雙語知識(shí)庫(kù)53-55
- 6.3.2 外部工具包55
- 6.4 BSDQA系統(tǒng)各模塊的實(shí)現(xiàn)55-59
- 6.4.1 問句分析模塊55-57
- 6.4.2 實(shí)體鏈接模塊57
- 6.4.3 問句翻譯模塊57-58
- 6.4.4 答案抽取模塊58-59
- 6.5 實(shí)驗(yàn)結(jié)果及分析59
- 6.6 本章小結(jié)59-60
- 第7章 總結(jié)與展望60-61
- 參考文獻(xiàn)61-65
- 攻讀學(xué)位期間發(fā)表論文與研究成果清單65-66
- 致謝66
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李自平,徐蓉芬,陳芝萍;結(jié)構(gòu)化數(shù)據(jù)獲取與處理系統(tǒng)[J];核電子學(xué)與探測(cè)技術(shù);1988年01期
2 蘇祖輝;;一種結(jié)構(gòu)化數(shù)據(jù)交換格式及方法[J];中小企業(yè)管理與科技(上旬刊);2012年07期
3 劉大滏;趙盛;;非結(jié)構(gòu)化數(shù)據(jù)的ETL設(shè)計(jì)方法探討[J];科技創(chuàng)新與應(yīng)用;2014年14期
4 文必龍;王瑞;姚建蓬;黃俊蓮;;一種Excel數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換方法[J];佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年03期
5 金更達(dá);潘燕軍;;結(jié)構(gòu)化數(shù)據(jù)長(zhǎng)期保存問題探析[J];檔案學(xué)通訊;2006年05期
6 周進(jìn)剛;邢鐵軍;紀(jì)勇;趙大哲;;一種結(jié)構(gòu)化數(shù)據(jù)緩存方法[J];計(jì)算機(jī)工程;2010年20期
7 戴弘寧,文貴華,丁月華,范崇貴;非結(jié)構(gòu)化數(shù)據(jù)的可視化編輯系統(tǒng)[J];計(jì)算機(jī)應(yīng)用研究;2003年06期
8 李愛民;譚獻(xiàn)海;;基于XML技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換的研究[J];鐵路計(jì)算機(jī)應(yīng)用;2012年10期
9 曹金山;張澤濱;;非結(jié)構(gòu)化數(shù)據(jù)的ETL設(shè)計(jì)[J];現(xiàn)代電子技術(shù);2011年10期
10 潘順,金遠(yuǎn)平,歐陽(yáng)曄;結(jié)構(gòu)化數(shù)據(jù)到XML數(shù)據(jù)的語義映射[J];東南大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條
1 陶曉鵬;胡運(yùn)發(fā);周水庚;王寧;;面向功能集成的結(jié)構(gòu)化數(shù)據(jù)采掘語言[A];第十五屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1998年
2 金更達(dá);潘燕軍;;結(jié)構(gòu)化數(shù)據(jù)長(zhǎng)期保存問題探析[A];2007年浙江省高等學(xué)校檔案優(yōu)秀論文集[C];2007年
3 黃正行;呂旭東;段會(huì)龍;李昊e,
本文編號(hào):284904
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/284904.html