天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

知識庫與語料庫相結(jié)合的語義相似度的研究與實現(xiàn)

發(fā)布時間:2017-05-21 15:13

  本文關(guān)鍵詞:知識庫與語料庫相結(jié)合的語義相似度的研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。


【摘要】:語義相似度計算作為自然語言處理的基礎(chǔ)之一,在詞義消歧、機器翻譯、拼寫修正、文本分類和自動問答系統(tǒng)等領(lǐng)域有著廣泛的應(yīng)用。當(dāng)前語義相似度計算方法主要有兩個發(fā)展方向,其一是基于語料庫的空間向量模型的相似度計算方法;其二是基于知識庫結(jié)構(gòu)的語義相似度計算方法。詞向量由大規(guī)模語料經(jīng)過神經(jīng)網(wǎng)絡(luò)語言模型訓(xùn)練得到,由于缺少語義信息很難計算詞與詞之間的內(nèi)在關(guān)系;知識庫中包含了豐富的語義信息,能反映詞與詞之間的關(guān)系,但受制于語義詞典的容量難以準(zhǔn)確地計算文本之間的相似度。本文的創(chuàng)新點為在計算語義相似度時,結(jié)合了知識庫與語料庫的相似度計算方法,在詞語的相似度計算和短文本的相似度計算上取得了較好的成果。針對詞語相似度的計算,本文分析了基于知識庫和基于語料庫的相似度計算方法的優(yōu)劣之處并取長補短,提出了基于知識庫與語料庫相結(jié)合的語義相似度計算方法。首先,基于連續(xù)詞袋模型對語料庫進行訓(xùn)練得到初始詞向量,利用WordNet對詞向量進行語義信息加強,然后,通過最大相似度計算模型計算得到詞與詞之間的相似度值,并在RG-65、MC-30和WS-353三個基準(zhǔn)數(shù)據(jù)集上進行了實驗驗證。針對短文本相似度的計算,本文引入了相似度矩陣方法作為短文本相似度計算的主要方法,分別計算短文本的基于知識庫的相似度特征、基于語料庫的相似度特征、基于知識庫與語料庫相結(jié)合的相似度特征,在微軟研究院釋義數(shù)據(jù)集上的實驗取得了較好的準(zhǔn)確率、召回率以及F1值。最后本文將語義相似度計算應(yīng)用到Web服務(wù)匹配領(lǐng)域,提出基于詞語相似度計算的輸入、輸出屬性相似度和基于短文本相似度計算的文本描述屬性相似度的Web服務(wù)綜合相似度計算方法,在OWLS-TC數(shù)據(jù)集上的Web服務(wù)匹配實驗驗證了該算法的可行性和有效性。
【關(guān)鍵詞】:語義相似度計算 WordNet 詞語相似度 短文本相似度 Web服務(wù)匹配
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
  • 致謝5-6
  • 摘要6-7
  • ABSTRACT7-9
  • 序言9-13
  • 1 緒論13-22
  • 1.1 研究背景13-14
  • 1.2 研究意義14-16
  • 1.3 國內(nèi)外研究現(xiàn)狀16-20
  • 1.3.1 基于知識庫的語義相似度計算方法16-17
  • 1.3.2 基于語料庫的語義相似度計算方法17-19
  • 1.3.3 語義相似度混合計算方法19-20
  • 1.4 本文主要工作20-21
  • 1.5 論文組織結(jié)構(gòu)21-22
  • 2 基于知識庫與語料庫相結(jié)合的詞語相似度計算方法22-39
  • 2.1 WordNet中的關(guān)系22-25
  • 2.1.1 注釋語義屬性22-23
  • 2.1.2 上下位關(guān)系23-24
  • 2.1.3 同義關(guān)系24-25
  • 2.2 連續(xù)詞袋模型25-26
  • 2.3 詞語相似度計算方法26-30
  • 2.3.1 多原型詞向量模型26-27
  • 2.3.2 知識庫與語料庫融合實驗設(shè)計27-29
  • 2.3.3 單詞相似度計算29-30
  • 2.4 實驗與分析30-33
  • 2.4.1 語料庫30-31
  • 2.4.2 語料預(yù)處理模塊31-32
  • 2.4.3 基準(zhǔn)數(shù)據(jù)集32-33
  • 2.5 實驗數(shù)據(jù)與分析33-37
  • 2.6 本章小結(jié)37-39
  • 3 基于知識庫與語料庫綜合特征的短文本分類方法39-51
  • 3.1 基于相似度矩陣的短文本相似度計算方法39-40
  • 3.2 實體間相似度計算方法40-43
  • 3.2.1 基于WordNet路徑的相似度計算方法41-42
  • 3.2.2 基于WordNet信息內(nèi)容的相似度計算方法42-43
  • 3.3 微軟研究院釋義語料庫數(shù)據(jù)集43-44
  • 3.4 短文本相似度特征值的計算44-45
  • 3.5 文本分類方法45-47
  • 3.5.1 樸素貝葉斯分類算法45-46
  • 3.5.2 K近鄰分類算法46
  • 3.5.3 支持向量機46-47
  • 3.6 實驗與分析47-50
  • 3.6.1 實驗環(huán)境47-48
  • 3.6.2 文本分類評價指標(biāo)48
  • 3.6.3 實驗結(jié)果及分析48-50
  • 3.7 本章小結(jié)50-51
  • 4 基于語義相似度的Web服務(wù)匹配51-62
  • 4.1 Web服務(wù)本體語言O(shè)WL-S52-54
  • 4.2 基于語義相似度的Web服務(wù)發(fā)現(xiàn)框架54-58
  • 4.2.1 Web服務(wù)相似度計算54-55
  • 4.2.2 Web服務(wù)匹配框架55-58
  • 4.3 Web服務(wù)測試數(shù)據(jù)集58-59
  • 4.4 實驗與分析59-61
  • 4.4.1 實驗環(huán)境60
  • 4.4.2 語義Web服務(wù)匹配評價指標(biāo)60
  • 4.4.3 實驗結(jié)果與分析60-61
  • 4.5 本章小結(jié)61-62
  • 5 總結(jié)與展望62-64
  • 5.1 總結(jié)62-63
  • 5.2 展望63-64
  • 參考文獻(xiàn)64-68
  • 作者簡歷及攻讀碩士學(xué)位期間取得的研究成果68-70
  • 學(xué)位論文數(shù)據(jù)集70

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 胡艷波;崔新春;路青;;2002~2011年國內(nèi)語義相似度研究計量分析[J];情報科學(xué);2013年07期

2 王家琴;李仁發(fā);李仲生;唐劍波;;一種基于本體的概念語義相似度方法的研究[J];計算機工程;2007年11期

3 劉俊;;基于語義相似度的關(guān)鍵詞生成在企業(yè)搜索引擎營銷中應(yīng)用[J];電腦知識與技術(shù);2008年14期

4 宗裕朋;吳剛;;一種基于上下文的語義相似度算法[J];微計算機信息;2008年30期

5 劉春辰;劉大有;王生生;趙靜濱;王兆丹;;改進的語義相似度計算模型及應(yīng)用[J];吉林大學(xué)學(xué)報(工學(xué)版);2009年01期

6 徐猛;劉宗田;周文;;一種基于知網(wǎng)語義相似度計算的應(yīng)用研究[J];微計算機信息;2010年03期

7 孫海霞;錢慶;成穎;;基于本體的語義相似度計算方法研究綜述[J];現(xiàn)代圖書情報技術(shù);2010年01期

8 魏椺;向陽;陳千;;計算術(shù)語間語義相似度的混合方法[J];計算機應(yīng)用;2010年06期

9 馬續(xù)補;郭菊娥;;基于《知網(wǎng)》語義相似度的企業(yè)事實主題診斷研究[J];情報雜志;2010年05期

10 魏凱斌;冉延平;余牛;;語義相似度的計算方法研究與分析[J];計算機技術(shù)與發(fā)展;2010年07期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 關(guān)毅;王曉龍;;基于統(tǒng)計的漢語詞匯間語義相似度計算[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年

2 李月雷;師瑞峰;林麗冰;周一民;;漢語語句語義相似度的計算方法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年

3 馮新元;魏建國;路文煥;黨建武;;引入領(lǐng)域知識的基于《知網(wǎng)》詞語語義相似度計算[A];第十二屆全國人機語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年

4 章成志;;詞語的語義相似度計算及其應(yīng)用研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

5 劉寒磊;關(guān)毅;徐永東;;多文檔文摘中基于語義相似度的最大邊緣相關(guān)技術(shù)研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年

6 石靜;邱立坤;王菲;吳云芳;;相似詞獲取的集成方法[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年

7 陳明;鹿e

本文編號:384016


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/384016.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6695d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com