天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

漢語詞匯上下位關(guān)系獲取及其應(yīng)用研究

發(fā)布時(shí)間:2017-09-01 20:17

  本文關(guān)鍵詞:漢語詞匯上下位關(guān)系獲取及其應(yīng)用研究


  更多相關(guān)文章: 上下位 語義詞典 網(wǎng)絡(luò)百科 詞嵌入 文本分類


【摘要】:知識(shí)獲取是人工智能的核心問題之一,其中,語義關(guān)系獲取是知識(shí)獲取的研究熱點(diǎn),常見語義關(guān)系主要包括:同義、上下位、部分一整體和因果關(guān)系。上下位關(guān)系是一種非常重要的語義關(guān)系,常用于詞典和知識(shí)庫的構(gòu)建。隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)中新鮮詞匯層出不窮,人們也對(duì)某些傳統(tǒng)詞匯賦予新的含義,這些改變對(duì)于傳統(tǒng)的語義詞典的構(gòu)建造成嚴(yán)重的挑戰(zhàn)。本文主要針對(duì)漢語詞匯上下位關(guān)系獲取及其應(yīng)用進(jìn)行研究,旨在對(duì)現(xiàn)有語義詞典進(jìn)行更新、完善,進(jìn)一步提高語義詞典的處理能力,使其更好地服務(wù)于各項(xiàng)自然語言處理任務(wù)。具體內(nèi)容包括如下三個(gè)方面:(1)上下位關(guān)系獲取。利用《中文概念詞典》和《中國分類主題詞表》作為詞典資源,提出一種針對(duì)特定屬性類型概念實(shí)例的抽取方法,準(zhǔn)確地抽取詞典中蘊(yùn)含的上下位關(guān)系。同時(shí),以中文維基百科、百度百科和互動(dòng)百科作為知識(shí)獲取來源,獲取大規(guī)模候選下位詞。此外,本文還對(duì)基于模式匹配的方法在人民日?qǐng)?bào)語料中的語言現(xiàn)象進(jìn)行了討論。(2)上下位關(guān)系驗(yàn)證。首先,分析基于詞典信息獲取的上下位詞對(duì),發(fā)現(xiàn)這些詞語在字形上具有相似性,因此從字面相似度去驗(yàn)證上下位關(guān)系。其次,從信息檢索的角度,根據(jù)上下位詞語在搜索引擎中的共現(xiàn)情況計(jì)算相似度。單獨(dú)使用上述兩種方法,通過設(shè)定相似度閾值過濾非下位詞,會(huì)使召回率下降較大,影響候選下位詞集合的規(guī)模。因此,本文提出一種將字面相似度和信息檢索融入詞向量模型的上下位關(guān)系驗(yàn)證方法,該方法可以從正確率和召回率上提高上下位關(guān)系驗(yàn)證的性能。最后,結(jié)合人工校對(duì)技術(shù),對(duì)語義詞典進(jìn)行后處理,進(jìn)一步提升下位詞集合的質(zhì)量。(3)語義詞典的構(gòu)建及應(yīng)用。南京師范大學(xué)自然語言處理小組在NLPCC2012中文語義關(guān)系獲取評(píng)測(cè)中取得了同義詞評(píng)測(cè)的第一名,通過評(píng)測(cè)證明了其同義詞獲取方法的可行性,結(jié)合本文提出的上下位關(guān)系獲取方法,以《現(xiàn)代漢語語法信息詞典》(GKB)名詞部分為目標(biāo),構(gòu)建了同義詞典GKB_SYN和上下位詞典GKB_HYP。在文本分類實(shí)驗(yàn)中, GKB_SYN比同義詞詞林擁有更好的分類效果。以人民日?qǐng)?bào)語料作為標(biāo)注對(duì)象,GKB_SYN和GKB HYP在標(biāo)注規(guī)模和覆蓋兩個(gè)指標(biāo)均超過了GKB。
【關(guān)鍵詞】:上下位 語義詞典 網(wǎng)絡(luò)百科 詞嵌入 文本分類
【學(xué)位授予單位】:南京師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要4-5
  • Abstract5-9
  • 第1章 緒論9-17
  • 1.1 課題的來源與研究意義9-10
  • 1.2 研究現(xiàn)狀10-13
  • 1.3 研究?jī)?nèi)容13-15
  • 1.4 創(chuàng)新之處15
  • 1.5 組織結(jié)構(gòu)15-17
  • 第2章 上下位關(guān)系獲取17-30
  • 2.1 基于詞典資源的方法17-20
  • 2.1.1 中文概念詞典17-18
  • 2.1.2 中國分類主題詞表18-20
  • 2.2 基于網(wǎng)絡(luò)百科的方法20-22
  • 2.3 基于模式匹配的方法22-25
  • 2.4 實(shí)驗(yàn)25-29
  • 2.4.1 實(shí)驗(yàn)語料25-26
  • 2.4.2 評(píng)價(jià)指標(biāo)26-27
  • 2.4.3 實(shí)驗(yàn)結(jié)果及分析27-29
  • 2.5 本章小結(jié)29-30
  • 第3章 上下位關(guān)系驗(yàn)證30-52
  • 3.1 基于字面相似度的方法30-31
  • 3.2 基于信息檢索的方法31-35
  • 3.2.1 相似度計(jì)算31-32
  • 3.2.2 網(wǎng)絡(luò)爬蟲及搜索技巧32-35
  • 3.3 基于詞向量的方法35-40
  • 3.3.1 背景介紹35
  • 3.3.2 word2vec35-37
  • 3.3.3 上下位關(guān)系驗(yàn)證37-40
  • 3.4 人工標(biāo)注40-41
  • 3.5 實(shí)驗(yàn)41-50
  • 3.6 本章小結(jié)50-52
  • 第4章 語義詞典的應(yīng)用52-65
  • 4.1 語義詞典的構(gòu)建52-57
  • 4.1.1 同義詞典GKB SYN53-54
  • 4.1.2 上下位詞典GKB HYP54-57
  • 4.2 語義詞典的應(yīng)用57-64
  • 4.2.1 詞義標(biāo)注57-58
  • 4.2.2 文本分類58-64
  • 4.3 本章小結(jié)64-65
  • 第5章 總結(jié)與展望65-68
  • 5.1 本文工作總結(jié)65-66
  • 5.2 下一步工作66-68
  • 參考文獻(xiàn)68-73
  • 在讀期間參加的科研項(xiàng)目與公開發(fā)表的論文73-74
  • 致謝74

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前7條

1 張清;;知識(shí)獲取問題[J];計(jì)算機(jī)科學(xué);1987年05期

2 劉磊;曹存根;王海濤;陳威;;一種基于“是一個(gè)”模式的下位概念獲取方法[J];計(jì)算機(jī)科學(xué);2006年09期

3 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期

4 俞士汶,朱學(xué)鋒,王惠;《現(xiàn)代漢語語法信息詞典》的新進(jìn)展[J];中文信息學(xué)報(bào);2001年01期

5 俞士汶,段慧明,朱學(xué)鋒,張化瑞;綜合型語言知識(shí)庫的建設(shè)與利用[J];中文信息學(xué)報(bào);2004年05期

6 俞士汶,朱學(xué)鋒,王惠,,張蕓蕓;現(xiàn)代漢語語法信息詞典規(guī)格說明書[J];中文信息學(xué)報(bào);1996年02期

7 陳震;吳斌;沈崇瑋;張忠輝;王柏;;一種改進(jìn)的基于質(zhì)心的文本分類算法[J];計(jì)算機(jī)應(yīng)用與軟件;2013年01期



本文編號(hào):774195

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/774195.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9cbea***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com