專利領(lǐng)域本體概念間非分類關(guān)系抽取研究
本文關(guān)鍵詞:專利領(lǐng)域本體概念間非分類關(guān)系抽取研究,由筆耕文化傳播整理發(fā)布。
【摘要】:在浩如煙海的信息面前,基于關(guān)鍵字的傳統(tǒng)信息檢索方式已經(jīng)不能滿足用戶對信息檢索快速、全面的要求。如何有效表示、管理、維護和復(fù)用信息資源已經(jīng)成為產(chǎn)業(yè)界和研究者共同關(guān)心的研究領(lǐng)域。本體作為一種有效的知識組織和描述方式,具有良好的概念層次結(jié)構(gòu)和豐富的概念間語義關(guān)系并且支持邏輯推理,因而在信息檢索、數(shù)字圖書館、專利分析等領(lǐng)域得到廣泛的研究和應(yīng)用。概念是組成本體的基本內(nèi)容之一,概念間分類關(guān)系是本體的骨架信息,概念間非分類關(guān)系是本體的枝干信息。根據(jù)本體學(xué)習(xí)的層次模型以及專利本體的應(yīng)用需求可知,該專利本體還缺少概念間的非分類關(guān)系。因此知識庫還是不完備的。為了構(gòu)建完備的專利本體知識庫,本文需要研究新能源汽車領(lǐng)域?qū)@g(shù)語抽取問題和概念間非分類關(guān)系抽取問題。本文的主要工作如下:(1)提出一種基于條件隨機場模型的中文專利領(lǐng)域術(shù)語抽取方法。本文針對新能源汽車領(lǐng)域的術(shù)語特點和總結(jié)前人術(shù)語抽取研究成果的基礎(chǔ)上,利用成熟的條件隨機場模型,選取詞、詞長、詞性、依存關(guān)系、詞典位置、停用詞等特征進行新能源汽車領(lǐng)域中文術(shù)語的進行抽取。本文探索將詞匯間的依存關(guān)系應(yīng)用到術(shù)語抽取問題即將其作為條件隨機場模型的一項特征。實驗結(jié)果證明該方法可以有效提高術(shù)語抽取結(jié)果的正確率和召回率。(2)針對SAO結(jié)構(gòu)關(guān)系抽取任務(wù)中關(guān)系實例結(jié)構(gòu)正確但是語義錯誤的問題,提出句法分析特征和關(guān)系詞詞典特征并結(jié)合傳統(tǒng)特征的關(guān)系抽取方法。將新特征和上下文、距離等傳統(tǒng)特征相結(jié)合,使用支持向量機分類器進行SAO結(jié)構(gòu)關(guān)系抽取實驗。實驗結(jié)果證明該方法可以削弱語義錯誤問題造成的影響,進而提高抽取結(jié)果的正確率和召回率。(3)設(shè)計并實現(xiàn)了基于專利文獻的新能源汽車領(lǐng)域?qū)@倔w更新系統(tǒng)。專利本體的構(gòu)建目的是為了將知識庫應(yīng)用于專利文獻的檢索、技術(shù)主題矩陣的構(gòu)建、侵權(quán)檢測等領(lǐng)域。隨著專利文獻的爆炸式增長,專利本體也需要與時俱進。本文實現(xiàn)的專利本體更新系統(tǒng),主要實現(xiàn)三個功能,首先是使用上文中提到的方法從專利文獻中抽取術(shù)語并加入到本體中;其次是從專利文獻中抽取概念間的非分類關(guān)系,在將發(fā)現(xiàn)的關(guān)系加入到本體之前需要對抽取的關(guān)系詞進行聚類操作,通過該操作發(fā)現(xiàn)關(guān)系類型;第三個功能是將新發(fā)現(xiàn)的術(shù)語和關(guān)系類型加入到本體中,關(guān)系實例作為關(guān)系類型的實例。通過以上三個功能就可以實現(xiàn)對新能源汽車領(lǐng)域?qū)@倔w的術(shù)語豐富和語義關(guān)系擴展。
【關(guān)鍵詞】:本體學(xué)習(xí) 非分類關(guān)系 關(guān)系抽取 句法分析
【學(xué)位授予單位】:北京信息科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-10
- 第1章 緒論10-19
- 1.1 研究背景與意義10-12
- 1.1.1 研究背景10-12
- 1.1.2 研究意義12
- 1.2 課題研究現(xiàn)狀12-16
- 1.2.1 術(shù)語抽取的研究現(xiàn)狀12-13
- 1.2.2 非分類關(guān)系抽取研究現(xiàn)狀13-14
- 1.2.3 SAO結(jié)構(gòu)抽取研究現(xiàn)狀14-15
- 1.2.4 本體在專利領(lǐng)域的應(yīng)用15-16
- 1.3 主要工作和創(chuàng)新點16-17
- 1.4 論文的組織結(jié)構(gòu)17-19
- 第2章 本體理論研究介紹19-24
- 2.1 本體概述19
- 2.2 本體描述語言19-21
- 2.3 本體構(gòu)建工具21-22
- 2.4 本體學(xué)習(xí)分類22-23
- 2.5 本章小結(jié)23-24
- 第3章 專利領(lǐng)域中文術(shù)語抽取研究24-33
- 3.1 新能源汽車領(lǐng)域術(shù)語特點24-25
- 3.2 基于CRFs的新能源汽車領(lǐng)域術(shù)語抽取25-29
- 3.2.1 條件隨機場25-26
- 3.2.2 術(shù)語抽取模型26
- 3.2.3 語言云26-27
- 3.2.4 特征選取27-29
- 3.3 實驗結(jié)果及分析29-32
- 3.3.1 實驗數(shù)據(jù)介紹29-30
- 3.3.2 結(jié)果和分析30-32
- 3.4 本章小結(jié)32-33
- 第4章 專利領(lǐng)域概念間SAO結(jié)構(gòu)關(guān)系抽取33-42
- 4.1 基于支持向量機的概念間SAO結(jié)構(gòu)關(guān)系抽取33-35
- 4.1.1 支持向量機33
- 4.1.2 領(lǐng)域關(guān)系強度33-34
- 4.1.3 概念間SAO結(jié)構(gòu)關(guān)系抽取方法34-35
- 4.2 特征選擇35-37
- 4.2.1 實體詞語以及上下文特征35-36
- 4.2.2 句法特征36-37
- 4.2.3 詞間距離37
- 4.2.4 關(guān)系詞詞典37
- 4.3 實驗與結(jié)果分析37-42
- 4.3.1 實驗描述37-38
- 4.3.2 實驗預(yù)處理38
- 4.3.3 評價指標38-39
- 4.3.4 實驗分析39-42
- 第5章 本體豐富系統(tǒng)的實現(xiàn)42-52
- 5.1 基于K-Means的領(lǐng)域動詞聚類42-43
- 5.1.1 Word2Vec簡介42
- 5.1.2 K-Means簡介42-43
- 5.1.3 Java OWL API簡介43
- 5.2 專利本體更新系統(tǒng)的設(shè)計43-46
- 5.2.1 術(shù)語抽取模塊的設(shè)計44-45
- 5.2.2 SAO結(jié)構(gòu)關(guān)系抽取模塊的設(shè)計45-46
- 5.2.3 關(guān)系詞聚類模塊的設(shè)計46
- 5.2.4 本體操作模塊的設(shè)計46
- 5.3 專利本體更新系統(tǒng)的實現(xiàn)46-52
- 5.3.1 系統(tǒng)架構(gòu)46
- 5.3.2 開發(fā)環(huán)境46-47
- 5.3.3 系統(tǒng)展示47-52
- 第6章 總結(jié)與展望52-54
- 6.1 總結(jié)52-53
- 6.2 展望53-54
- 致謝54-55
- 參考文獻55-59
- 個人簡歷 在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果59
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 琚春華,王國征;你會選購收款機嗎? 收款機應(yīng)用功能與分類關(guān)系初探[J];市場與電腦;1998年06期
2 董麗麗;胡云飛;張翔;;一種領(lǐng)域概念非分類關(guān)系的獲取方法[J];計算機工程與應(yīng)用;2013年04期
3 喬建忠;;基于主題爬蟲的本體非分類關(guān)系學(xué)習(xí)框架[J];圖書情報工作;2010年18期
4 溫春;石昭祥;辛元;;基于擴展關(guān)聯(lián)規(guī)則的中文非分類關(guān)系抽取[J];計算機工程;2009年24期
5 古凌嵐;孫素云;;基于語義依存的中文本體非分類關(guān)系抽取方法[J];計算機工程與設(shè)計;2012年04期
6 張立國;陳荔;;維基百科中基于語義依存的領(lǐng)域本體非分類關(guān)系獲取方法研究[J];情報科學(xué);2014年06期
7 賈秀玲;文敦偉;;一種本體學(xué)習(xí)中分類關(guān)系提取方法的研究[J];計算機技術(shù)與發(fā)展;2007年10期
8 余宏華;分類關(guān)系模型中的排它性維護及其應(yīng)用[J];廣東自動化與信息工程;2001年03期
9 王歲花;趙愛玲;馬巍巍;;從Web中提取中文本體非分類關(guān)系的方法[J];計算機工程與設(shè)計;2010年02期
10 王紅;高斯婷;潘振杰;肖志偉;;基于NNV關(guān)聯(lián)規(guī)則的非分類關(guān)系提取方法及其應(yīng)用研究[J];計算機應(yīng)用研究;2012年10期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 陳慧清;林世平;;基于知網(wǎng)和模式自舉的概念間分類關(guān)系獲取方法[A];2009通信理論與技術(shù)新發(fā)展——第十四屆全國青年通信學(xué)術(shù)會議論文集[C];2009年
2 馮煤生;王德謀;;Fuzzy—分類關(guān)系[A];中國系統(tǒng)工程學(xué)會模糊數(shù)學(xué)與模糊系統(tǒng)委員會第五屆年會論文選集[C];1990年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 連莉;本體中非分類關(guān)系的理論體系研究[D];山東大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 何宇;專利領(lǐng)域本體概念間非分類關(guān)系抽取研究[D];北京信息科技大學(xué);2015年
2 楊倩倩;基于種子自舉的維吾爾文本體分類關(guān)系自動提取[D];新疆大學(xué);2014年
3 梁吉震;基于領(lǐng)域概念知識的非分類關(guān)系學(xué)習(xí)研究[D];吉林大學(xué);2012年
4 吳芳;基于語義相似度的本體中分類關(guān)系的評價研究與實現(xiàn)[D];華東師范大學(xué);2010年
5 鄧子平;面向醫(yī)學(xué)診療的本體自動生成系統(tǒng)的研究與開發(fā)[D];廣東工業(yè)大學(xué);2011年
本文關(guān)鍵詞:專利領(lǐng)域本體概念間非分類關(guān)系抽取研究,由筆耕文化傳播整理發(fā)布。
,本文編號:385572
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/385572.html