天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于維基百科的漁業(yè)知識庫構建研究

發(fā)布時間:2017-08-31 16:37

  本文關鍵詞:基于維基百科的漁業(yè)知識庫構建研究


  更多相關文章: 相似度計算 命名實體消歧 漁業(yè)知識庫


【摘要】:本文的目標在于利用維基百科作為語義知識源,構建一個漁業(yè)知識相關的語義知識庫,文中針對漁業(yè)知識的特點,著重對語義相似度計算方法和實體歧義消解方法的分析與研究,并對語義相似度計算方法提出了改進,提出了自己的實體消歧算法。本文抽取維基百科頁面的信息框(infobox)知識,并以三元組的形式進行表示。 許多不同的語義相似度計算方法應用于自然語言處理領域,知識獲取領域和信息檢索領域。目前,很多研究者致力于已經(jīng)存在的方法支持多本體的相似度計算,以提高相似度的關聯(lián)值,本文中使用了基于特征的相似度計算方法,整個過程支持多本體方法,并使用了啟發(fā)式函數(shù)。通過漁業(yè)知識數(shù)據(jù)的采集,對實體相似度計算進行了實驗。經(jīng)典的基于本體的語義相似度主要分為以下三種:基于路徑的方法,基于特征的方法,基于信息內(nèi)容的方法。基于路徑的方法是最簡單的一種方法,通過is-a鏈接計算本體節(jié)點間的最短路徑,但所有的路徑必須統(tǒng)一相等的長度;谔卣鞯南嗨贫扔嬎惴椒ǹ朔嘶诼窂较嗨贫扔嬎惴椒ǖ娜秉c,基于特征的相似度計算方法中,本體中的分類鏈接不需要統(tǒng)一為相等的長度,但是要考慮本體特征集合的重疊程度;谔卣鞯恼Z義相似度方法可以用于交叉本體,而基于路徑的相似度計算方法不能。本文的語義相似度的優(yōu)點在于,相比于Tversky的方法,本文的基于特征的相似度計算方法不使用權重參數(shù)去衡量語義特征,提高了方法的通用性。 對于知識庫的更新來說,知識庫新實體的內(nèi)容獲取是比較重要的一件事情。輸入新的知識到知識庫之前,需要實體鏈接,以保證新知識的實體能夠鏈接到知識庫的實體。整個過程中,實體消歧是一個比較有挑戰(zhàn)性的任務。命名實體消歧有很多算法。本文中,命名實體消歧的處理可以通過不同的語義關系,相似度方法分析相關文本;谔岢龅姆椒嫿藵O業(yè)知識庫。本文的實體消歧算法主要側重點有兩點:第一,從維基百科,百度百科,互動百科收集大量的同義詞集,以支持用戶不同的搜索習慣;第二,對于存在無法消歧的實體,提出了二次消歧算法,以解決有的實體無法消歧的問題。 對于漁業(yè)知識庫的表示、構建、挖掘以及在搜索中的應用。目前存在的主要問題有:1)目前知識庫還處于初期階段;2)人工干預很重要;3)結構化數(shù)據(jù)在知識庫的構建中起到?jīng)Q定性作用;4)各大搜索引擎公司為了保證知識庫的質(zhì)量多半采用成熟的算法;5)知識卡片的給出相對比較謹慎;6)更復雜的自然語言查詢將嶄露頭角(如命名實體歧義消解算法)。此外,知識庫的構建是多學科的結合,需要自然語言理解,,機器學習和數(shù)據(jù)挖掘等多方面知識的融合。有很多開放性問題需要學術界和業(yè)界一起解決。我們有理由相信學術界在上述方面的突破將會極大地促進知識庫的發(fā)展。
【關鍵詞】:相似度計算 命名實體消歧 漁業(yè)知識庫
【學位授予單位】:上海海洋大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.1
【目錄】:
  • 摘要4-6
  • ABSTRACT6-10
  • 第一章 引言10-14
  • 1.1 研究背景10
  • 1.2 知識庫研究現(xiàn)狀10-12
  • 1.2.1 知識庫在搜索中的應用現(xiàn)狀10-11
  • 1.2.2 知識庫研究現(xiàn)狀11-12
  • 1.2.3 問題的提出12
  • 1.3 主要研究內(nèi)容12-13
  • 1.4 本文章節(jié)安排13-14
  • 第二章 知識庫構建相關工作介紹14-23
  • 2.1 信息抽取相關技術分析14-15
  • 2.1.1 模式匹配方法14
  • 2.1.2 基于概率的解析14
  • 2.1.3 混合的語法語義信息抽取14-15
  • 2.1.4 子語言驅(qū)動信息抽取15
  • 2.1.5 本體驅(qū)動信息抽取15
  • 2.2 相似度方法研究現(xiàn)狀15-20
  • 2.2.1 基于路徑的相似度計算方法16-17
  • 2.2.2 基于信息內(nèi)容的相似度計算方法17-18
  • 2.2.3 基于特征的相似度計算方法18-20
  • 2.3 實體歧義消解現(xiàn)狀分析20-22
  • 2.4 本章小結22-23
  • 第三章 基于維基百科的漁業(yè)知識庫的構建模型23-42
  • 3.1 維基百科的抽取23-28
  • 3.1.1 維基百科23-25
  • 3.1.2 魚類實體抽取過程25-28
  • 3.2 漁業(yè)知識庫的構建28-32
  • 3.2.1 概念角度28
  • 3.2.2 OWL28-29
  • 3.2.3 漁業(yè)知識本體規(guī)劃29-32
  • 3.3 漁業(yè)知識庫實體相似度計算方法32-36
  • 3.4 漁業(yè)知識命名實體消歧算法36-40
  • 3.4.1 鏈接明確的實體38-39
  • 3.4.2 二次消歧39-40
  • 3.5 本章小結40-42
  • 第四章 實驗結果42-51
  • 4.1 知識庫需求分析42-43
  • 4.2 實體相似度實驗結果分析43-46
  • 4.3 實體歧義消解實驗分析46-51
  • 第五章 結論與展望51-52
  • 5.1 總結51
  • 5.2 展望51-52
  • 參考文獻52-58
  • 攻讀學位期間發(fā)表的學術論文58-59
  • 致謝59

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 蔡東風;白宇;于水;葉娜;任曉娜;;一種基于語境的詞語相似度計算方法[J];中文信息學報;2010年03期

2 丁政建;張路;;一種改進的本體相似度計算方法[J];計算機工程;2010年24期

3 朱珍元;鄭誠;;一種改進的本體相似度計算方法[J];微型機與應用;2011年01期

4 崔韜世;麥范金;;詞語相似度計算方法分析[J];網(wǎng)絡安全技術與應用;2012年05期

5 王國春;鄭山紅;趙輝;董亞則;;基于階段遞進的綜合本體相似度計算方法[J];吉林大學學報(信息科學版);2014年02期

6 張忠平;田淑霞;劉洪強;;一種新的本體相似度計算方法[J];計算機應用研究;2008年10期

7 趙歡;李仁發(fā);王家琴;張在美;;綜合多層信息的本體概念相似度計算方法的研究[J];通信學報;2009年06期

8 李改;李章鳳;李磊;;一種新的社會化相似度計算方法[J];計算機應用研究;2013年09期

9 曾輝;徐海洲;鐘茂生;;基于主題和焦點的問句相似度計算方法[J];科學技術與工程;2014年06期

10 張忠平;田淑霞;劉洪強;;一種綜合的本體相似度計算方法[J];計算機科學;2008年12期

中國重要會議論文全文數(shù)據(jù)庫 前8條

1 白宇;于水;葉娜;蔡東風;任曉娜;;一種基于語境的詞語相似度計算方法[A];第五屆全國信息檢索學術會議論文集[C];2009年

2 喬林;黃維通;孟威;;一種改進的知網(wǎng)系統(tǒng)詞語相似度計算方法[A];全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集[C];2005年

3 菅小艷;鄭家恒;;一種改進的句子相似度計算方法[A];第二屆全國信息檢索與內(nèi)容安全學術會議(NCIRCS-2005)論文集[C];2005年

4 盧延科;尹寶生;張桂平;苗雪雷;白宇;;基于偽LCS的中文專利句子相似度計算方法[A];第五屆全國信息檢索學術會議論文集[C];2009年

5 章志凌;虞立群;羅海飛;邵曉敏;;基于改進Corpus庫的詞語相似度計算方法[A];第二十四屆中國控制會議論文集(下冊)[C];2005年

6 章成志;李斌;;基于混合策略的查詢串相似度計算方法[A];全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集[C];2005年

7 陳希友;馮少榮;張東站;薛永生;;基于反饋的用戶訪問預測模型[A];第二十五屆中國數(shù)據(jù)庫學術會議論文集(一)[C];2008年

8 李天寧;肖桐;朱靖波;;科技論文的IPC自動標注[A];第四屆全國信息檢索與內(nèi)容安全學術會議論文集(上)[C];2008年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 陳欣;一種基于多屬性本體的概念相似度計算方法的研究[D];東北師范大學;2010年

2 唐中林;基于本體的概念相似度計算方法的研究[D];武漢理工大學;2013年

3 徐海洲;自動問答系統(tǒng)中問句相似度計算方法研究[D];華東交通大學;2014年

4 王瑩瑩;中文短語相似度計算方法研究及應用[D];長沙理工大學;2008年

5 俞云飛;多特征融合的電影相似度計算方法研究[D];華東師范大學;2012年

6 周舫;漢語句子相似度計算方法及其應用的研究[D];河南大學;2005年

7 江阿古麗·哈依達爾;哈薩克語句子相似度計算方法的研究[D];新疆大學;2012年

8 賈娜;基于本體的食品投訴文檔文本分類研究[D];東北師范大學;2011年

9 牛慶鵬;博客朋友推薦技術的研究[D];東北大學;2009年

10 牛慶鵬;博客潛在朋友推薦技術的研究[D];東北大學;2009年



本文編號:766708

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/766708.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶ee4a4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com