基于依存句法分析的語(yǔ)義三元組構(gòu)建的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-06-04 15:02
本文關(guān)鍵詞:基于依存句法分析的語(yǔ)義三元組構(gòu)建的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的迅速發(fā)展,知識(shí)和信息量開(kāi)始呈現(xiàn)爆炸式的增長(zhǎng)趨勢(shì),而搜索引擎的智能化程度卻與人們的實(shí)際需求相差甚遠(yuǎn)。目前,萬(wàn)維網(wǎng)聯(lián)盟提出了一種新興的、具有智能化優(yōu)點(diǎn)的語(yǔ)義網(wǎng)。對(duì)于漢語(yǔ)來(lái)說(shuō),語(yǔ)義網(wǎng)構(gòu)造的核心任務(wù)就是提取句子的語(yǔ)義三元組成分。本論文的主要研究?jī)?nèi)容是自然語(yǔ)言處理中句法分析的理論和相關(guān)方法,利用依存句法分析的方法來(lái)構(gòu)建漢語(yǔ)復(fù)雜長(zhǎng)句的語(yǔ)義三元組,即主語(yǔ),謂語(yǔ)和賓語(yǔ)。語(yǔ)義三元組的提取為自動(dòng)構(gòu)建語(yǔ)義網(wǎng)奠定了基礎(chǔ)。 漢語(yǔ)長(zhǎng)句具有語(yǔ)序靈活多變、依存關(guān)系復(fù)雜的特點(diǎn),本文采用構(gòu)造根搜索器的方法將長(zhǎng)句劃分成兩個(gè)短句,然后分別對(duì)兩個(gè)簡(jiǎn)單短句進(jìn)行依存句法分析。本課題選用長(zhǎng)句較多的哈工大漢語(yǔ)依存樹(shù)庫(kù)作為實(shí)驗(yàn)的訓(xùn)練和測(cè)試語(yǔ)料庫(kù)。首先,利用JAVA的DOM4j方法將哈工大樹(shù)庫(kù)從XML格式轉(zhuǎn)換成TXT格式。然后,利用支持向量機(jī)方法對(duì)長(zhǎng)句的結(jié)點(diǎn)詞進(jìn)行訓(xùn)練并預(yù)測(cè)根結(jié)點(diǎn)。本課題選用LIBSVM作為二值分類(lèi)器構(gòu)造根搜索器的模型,提取與根結(jié)點(diǎn)信息相關(guān)的特征,并進(jìn)行了對(duì)比實(shí)驗(yàn)分析,找出影響根搜索器性能的最優(yōu)特征組合。最后,,為避免Arc-eager算法進(jìn)行長(zhǎng)距離依存關(guān)系分析時(shí)的貪婪性問(wèn)題,將Arc-eager依存分析算法和支持向量機(jī)方法結(jié)合對(duì)短句進(jìn)行依存句法分析,提取語(yǔ)義三元組成分并對(duì)1000個(gè)長(zhǎng)句和分割后形成的1981個(gè)短句進(jìn)行了對(duì)比實(shí)驗(yàn)分析,分別獲得兩者的依存關(guān)系準(zhǔn)確率。 理論分析和實(shí)驗(yàn)結(jié)果表明,先構(gòu)造根結(jié)點(diǎn)搜索器,然后將長(zhǎng)句劃分成短句,并對(duì)短句進(jìn)行依存分析,最后提取語(yǔ)義三元組中的根結(jié)點(diǎn)、主謂關(guān)系和動(dòng)賓關(guān)系的準(zhǔn)確率比原始長(zhǎng)句的準(zhǔn)確率高。
【關(guān)鍵詞】:根結(jié)點(diǎn)搜索器 依存句法分析 支持向量機(jī) 語(yǔ)義三元組
【學(xué)位授予單位】:沈陽(yáng)工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-10
- 第一章 緒論10-17
- 1.1 課題的背景及意義10-11
- 1.2 國(guó)內(nèi)外研究動(dòng)態(tài)11-14
- 1.2.1 國(guó)外研究動(dòng)態(tài)11-12
- 1.2.2 國(guó)內(nèi)研究動(dòng)態(tài)12-14
- 1.3 論文主要研究?jī)?nèi)容14-15
- 1.4 論文組織結(jié)構(gòu)15-17
- 第二章 依存語(yǔ)法與依存句法分析概述17-28
- 2.1 依存語(yǔ)法理論17-19
- 2.2 依存結(jié)構(gòu)形式19-20
- 2.3 依存句法分析方法20-25
- 2.3.1 各種依存句法的分析比較22-23
- 2.3.2 Arc-eager 決策式依存句法分析算法23-25
- 2.4 語(yǔ)料庫(kù)25-27
- 2.4.1 國(guó)外語(yǔ)料庫(kù)25
- 2.4.2 漢語(yǔ)語(yǔ)料庫(kù)25-27
- 2.5 本章小結(jié)27-28
- 第三章 機(jī)器學(xué)習(xí)模型28-36
- 3.1 機(jī)器學(xué)習(xí)在句法分析中的應(yīng)用28-29
- 3.2 支持向量機(jī)模型29-35
- 3.2.1 支持向量機(jī)的理論基礎(chǔ)29-32
- 3.2.2 多類(lèi)劃分的方法32-34
- 3.2.3 LIBSVM34-35
- 3.3 本章小結(jié)35-36
- 第四章 漢語(yǔ)長(zhǎng)句根結(jié)點(diǎn)搜索器的構(gòu)造36-47
- 4.1 前期工作36-37
- 4.2 構(gòu)造根結(jié)點(diǎn)搜索器37-46
- 4.2.1 漢語(yǔ)長(zhǎng)句分析的難點(diǎn)37-38
- 4.2.2 根搜索器的構(gòu)造38-40
- 4.2.3 實(shí)驗(yàn)結(jié)果及分析40-46
- 4.3 本章小結(jié)46-47
- 第五章 漢語(yǔ)子句句法分析及三元組的構(gòu)造47-60
- 5.1 分句進(jìn)行句法分析48-52
- 5.1.1 依存句法分析模型49-50
- 5.1.2 依存句法分析算法及過(guò)程描述50-52
- 5.2 提取長(zhǎng)句的語(yǔ)義三元組52-53
- 5.3 實(shí)驗(yàn)結(jié)果及分析53-59
- 5.3.1 評(píng)價(jià)標(biāo)準(zhǔn)53-54
- 5.3.2 數(shù)據(jù)特征選取54-55
- 5.3.3 實(shí)驗(yàn)結(jié)果分析55-59
- 5.4 本章小結(jié)59-60
- 第六章 結(jié)論60-61
- 參考文獻(xiàn)61-64
- 在學(xué)研究成果64-65
- 致謝65
【參考文獻(xiàn)】
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 姚文琳;漢語(yǔ)依存句法分析方法的研究與實(shí)現(xiàn)[D];中國(guó)海洋大學(xué);2009年
本文關(guān)鍵詞:基于依存句法分析的語(yǔ)義三元組構(gòu)建的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):421294
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/421294.html
最近更新
教材專著