面向?qū)@畔⑻幚淼恼Z(yǔ)義分析方法研究
發(fā)布時(shí)間:2021-03-04 17:00
近年來(lái),中國(guó)的專利申請(qǐng)量極大且增速較快。報(bào)告顯示僅2017年,國(guó)內(nèi)發(fā)明專利申請(qǐng)量就高達(dá)138.2萬(wàn)件,同比增長(zhǎng)14.2%,已審結(jié)74.4萬(wàn)件,未審結(jié)的專利文獻(xiàn)量都很大而且不斷增長(zhǎng)。人工進(jìn)行專利信息的標(biāo)引和分類需要大量有專業(yè)基礎(chǔ)的人,因此工作量巨大且進(jìn)展緩慢,標(biāo)引和分類時(shí)容易出現(xiàn)一致性錯(cuò)誤,造成專利文獻(xiàn)檢索漏檢、偏檢和噪音大等問(wèn)題。專利文本是一種半結(jié)構(gòu)化的數(shù)據(jù),難用現(xiàn)有數(shù)據(jù)結(jié)構(gòu)方法加以規(guī)范。如何從具有技術(shù)和法律二維特征的專利文獻(xiàn)中提取所需要的技術(shù)特征,對(duì)專利文獻(xiàn)所描述的技術(shù)內(nèi)容加以解析,是基于技術(shù)語(yǔ)言語(yǔ)義分析領(lǐng)域研究的重點(diǎn)。傳統(tǒng)基于詞頻統(tǒng)計(jì)的文本挖掘方法難以適應(yīng)專利文獻(xiàn)的復(fù)雜結(jié)構(gòu),導(dǎo)致分析結(jié)果準(zhǔn)確性不足,因此開展以專利文獻(xiàn)為代表的技術(shù)語(yǔ)言的語(yǔ)義分析研究,準(zhǔn)確定位和提取專利文獻(xiàn)中的技術(shù)和產(chǎn)品特征。本文圍繞專利文本的語(yǔ)義分析需求,重點(diǎn)對(duì)專利語(yǔ)言特征的準(zhǔn)確提取開展研究與實(shí)驗(yàn)。通過(guò)構(gòu)建專利領(lǐng)域本體來(lái)獲取盡可能多專利領(lǐng)域術(shù)語(yǔ)信息,提高專利文獻(xiàn)檢索的查全率和查準(zhǔn)率,并減少人工標(biāo)引和檢索的工作量。為此,本文主要做了如下研究工作:1、基于依存關(guān)系樹-CRF(條件隨機(jī)場(chǎng))的文本術(shù)語(yǔ)提取;谝来骊P(guān)系樹-C...
【文章來(lái)源】:江蘇科技大學(xué)江蘇省
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究現(xiàn)狀
1.3 研究?jī)?nèi)容
1.3.1 專利文獻(xiàn)的預(yù)處理
1.3.2 術(shù)語(yǔ)提取及術(shù)語(yǔ)間關(guān)系提取
1.3.3 構(gòu)建領(lǐng)域本體
1.4 本文結(jié)構(gòu)
第2章 課題相關(guān)技術(shù)概述
2.1 概述
2.2 專利文本預(yù)處理
2.2.1 專利文本的相關(guān)概念
2.2.2 專利文本的獲取
2.2.3 文本分詞
2.2.4 詞性標(biāo)注
2.2.5 停用詞過(guò)濾
2.3 文本特征詞提取
2.3.1 卡方檢驗(yàn)
2.3.2 信息增益
2.3.3 相關(guān)系數(shù)
2.3.4 互信息(MI)
2.4 術(shù)語(yǔ)提取
2.4.1 基于語(yǔ)言學(xué)的術(shù)語(yǔ)提取
2.4.2 基于統(tǒng)計(jì)學(xué)的術(shù)語(yǔ)提取
2.4.3 基于機(jī)器學(xué)習(xí)的術(shù)語(yǔ)提取
2.4.4 混合方法
2.5 術(shù)語(yǔ)間關(guān)系提取
2.5.1 K-MEANS聚類
2.5.2 Lexico-syntactic Patterns
2.5.3 關(guān)聯(lián)法則
2.6 領(lǐng)域本體
2.6.1 本體定義
2.6.2 本體的表達(dá)
2.6.3 基于文本的本體學(xué)習(xí)框架
2.6.4 本體語(yǔ)言
2.6.5 本體編輯工具
2.6.6 本體填充
2.6.7 本體評(píng)測(cè)
第3章 基于依存關(guān)系樹-CRF的術(shù)語(yǔ)提取研究
3.1 概述
3.2 基于條件隨機(jī)場(chǎng)領(lǐng)域術(shù)語(yǔ)識(shí)別
3.2.1 條件隨機(jī)場(chǎng)
3.2.2 算法過(guò)程
3.2.3 CRF的算法分析
3.3 基于依存關(guān)系樹-CRF的文本術(shù)語(yǔ)提取
3.3.1 依存關(guān)系樹
3.3.2 利用語(yǔ)義三元組挖掘技術(shù)特征詞
3.3.3 基于依存關(guān)系樹-CRF的文本術(shù)語(yǔ)提取
3.4 實(shí)驗(yàn)結(jié)果與分析
3.4.1 實(shí)驗(yàn)數(shù)據(jù)
3.4.2 實(shí)驗(yàn)過(guò)程
3.4.3 評(píng)測(cè)方法
3.4.4 特征模版
3.4.5 訓(xùn)練參數(shù)確定
3.4.6 實(shí)驗(yàn)結(jié)果與分析
第4章 K-MEANS算法改進(jìn)及其在三支決策中的應(yīng)用研究
4.1 概述
4.2 傳統(tǒng)的K-MEANS算法的研究現(xiàn)狀
4.3 三支決策聚類的相關(guān)概念
4.4 基于傳統(tǒng)K-MEANS算法的三支聚類
4.5 改進(jìn)的K-MEANS算法
4.6 改進(jìn)的K-MEANS算法在三支決策中的應(yīng)用研究
4.7 實(shí)驗(yàn)結(jié)果與分析
4.7.1 實(shí)驗(yàn)數(shù)據(jù)與說(shuō)明
4.7.2 評(píng)測(cè)方法
4.7.3 實(shí)驗(yàn)結(jié)果
4.7.4 實(shí)驗(yàn)一的結(jié)果分析
4.7.5 實(shí)驗(yàn)二的結(jié)果分析
4.7.6 穩(wěn)定性
4.7.7 實(shí)驗(yàn)小結(jié)
第5章 基于改進(jìn)K-MEANS聚類算法的術(shù)語(yǔ)層次關(guān)系提取
5.1 概述
5.2 基于語(yǔ)義的術(shù)語(yǔ)層次獲取流程
5.3 建立概念向量空間
5.4 計(jì)算術(shù)語(yǔ)語(yǔ)義相似度
5.5 基于改進(jìn)K-MEANS的術(shù)語(yǔ)聚類算法
5.6 構(gòu)建術(shù)語(yǔ)語(yǔ)義層次關(guān)系
5.7 實(shí)驗(yàn)結(jié)果與分析
5.7.1 實(shí)驗(yàn)數(shù)據(jù)
5.7.2 術(shù)語(yǔ)層次劃分的算法流程
5.7.3 實(shí)驗(yàn)結(jié)果
5.8 構(gòu)建領(lǐng)域?qū)嶓w
第6章 總結(jié)與展望
6.1 主要工作及創(chuàng)新點(diǎn)
6.2 今后工作展望
參考文獻(xiàn)
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文
致謝
【參考文獻(xiàn)】:
期刊論文
[1]Extracting Relevant Terms from Mashup Descriptions for Service Recommendation[J]. Yang Zhong,Yushun Fan. Tsinghua Science and Technology. 2017(03)
[2]K-means算法初始聚類中心選擇的優(yōu)化[J]. 郁啟麟. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2017(05)
[3]深度學(xué)習(xí)算法在藏文情感分析中的應(yīng)用研究[J]. 普次仁,侯佳林,劉月,翟東海. 計(jì)算機(jī)科學(xué)與探索. 2017(07)
[4]面向中國(guó)專利文獻(xiàn)的零形回指消解規(guī)則研究[J]. 靳瑋,喬曉東,劉耀,齊曉亞. 圖書情報(bào)工作. 2015(09)
[5]面向大規(guī)模微博消息流的突發(fā)話題檢測(cè)[J]. 申國(guó)偉,楊武,王巍,于淼. 計(jì)算機(jī)研究與發(fā)展. 2015(02)
[6]K-means算法初始聚類中心選擇的優(yōu)化[J]. 馮波,郝文寧,陳剛,占棟輝. 計(jì)算機(jī)工程與應(yīng)用. 2013(14)
[7]基于條件隨機(jī)場(chǎng)的領(lǐng)域術(shù)語(yǔ)識(shí)別研究[J]. 施水才,王鍇,韓艷鏵,呂學(xué)強(qiáng). 計(jì)算機(jī)工程與應(yīng)用. 2013(10)
[8]C-value值和unithood指標(biāo)結(jié)合的中文科技術(shù)語(yǔ)抽取[J]. 韓紅旗,安小米. 圖書情報(bào)工作. 2012(19)
[9]基于k-means聚類算法的研究[J]. 黃韜,劉勝輝,譚艷娜. 計(jì)算機(jī)技術(shù)與發(fā)展. 2011(07)
[10]面向領(lǐng)域中文文本信息處理的術(shù)語(yǔ)語(yǔ)義層次獲取研究[J]. 季培培,鄢小燕,岑詠華,王凌燕. 現(xiàn)代圖書情報(bào)技術(shù). 2010(09)
本文編號(hào):3063573
【文章來(lái)源】:江蘇科技大學(xué)江蘇省
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究現(xiàn)狀
1.3 研究?jī)?nèi)容
1.3.1 專利文獻(xiàn)的預(yù)處理
1.3.2 術(shù)語(yǔ)提取及術(shù)語(yǔ)間關(guān)系提取
1.3.3 構(gòu)建領(lǐng)域本體
1.4 本文結(jié)構(gòu)
第2章 課題相關(guān)技術(shù)概述
2.1 概述
2.2 專利文本預(yù)處理
2.2.1 專利文本的相關(guān)概念
2.2.2 專利文本的獲取
2.2.3 文本分詞
2.2.4 詞性標(biāo)注
2.2.5 停用詞過(guò)濾
2.3 文本特征詞提取
2.3.1 卡方檢驗(yàn)
2.3.2 信息增益
2.3.3 相關(guān)系數(shù)
2.3.4 互信息(MI)
2.4 術(shù)語(yǔ)提取
2.4.1 基于語(yǔ)言學(xué)的術(shù)語(yǔ)提取
2.4.2 基于統(tǒng)計(jì)學(xué)的術(shù)語(yǔ)提取
2.4.3 基于機(jī)器學(xué)習(xí)的術(shù)語(yǔ)提取
2.4.4 混合方法
2.5 術(shù)語(yǔ)間關(guān)系提取
2.5.1 K-MEANS聚類
2.5.2 Lexico-syntactic Patterns
2.5.3 關(guān)聯(lián)法則
2.6 領(lǐng)域本體
2.6.1 本體定義
2.6.2 本體的表達(dá)
2.6.3 基于文本的本體學(xué)習(xí)框架
2.6.4 本體語(yǔ)言
2.6.5 本體編輯工具
2.6.6 本體填充
2.6.7 本體評(píng)測(cè)
第3章 基于依存關(guān)系樹-CRF的術(shù)語(yǔ)提取研究
3.1 概述
3.2 基于條件隨機(jī)場(chǎng)領(lǐng)域術(shù)語(yǔ)識(shí)別
3.2.1 條件隨機(jī)場(chǎng)
3.2.2 算法過(guò)程
3.2.3 CRF的算法分析
3.3 基于依存關(guān)系樹-CRF的文本術(shù)語(yǔ)提取
3.3.1 依存關(guān)系樹
3.3.2 利用語(yǔ)義三元組挖掘技術(shù)特征詞
3.3.3 基于依存關(guān)系樹-CRF的文本術(shù)語(yǔ)提取
3.4 實(shí)驗(yàn)結(jié)果與分析
3.4.1 實(shí)驗(yàn)數(shù)據(jù)
3.4.2 實(shí)驗(yàn)過(guò)程
3.4.3 評(píng)測(cè)方法
3.4.4 特征模版
3.4.5 訓(xùn)練參數(shù)確定
3.4.6 實(shí)驗(yàn)結(jié)果與分析
第4章 K-MEANS算法改進(jìn)及其在三支決策中的應(yīng)用研究
4.1 概述
4.2 傳統(tǒng)的K-MEANS算法的研究現(xiàn)狀
4.3 三支決策聚類的相關(guān)概念
4.4 基于傳統(tǒng)K-MEANS算法的三支聚類
4.5 改進(jìn)的K-MEANS算法
4.6 改進(jìn)的K-MEANS算法在三支決策中的應(yīng)用研究
4.7 實(shí)驗(yàn)結(jié)果與分析
4.7.1 實(shí)驗(yàn)數(shù)據(jù)與說(shuō)明
4.7.2 評(píng)測(cè)方法
4.7.3 實(shí)驗(yàn)結(jié)果
4.7.4 實(shí)驗(yàn)一的結(jié)果分析
4.7.5 實(shí)驗(yàn)二的結(jié)果分析
4.7.6 穩(wěn)定性
4.7.7 實(shí)驗(yàn)小結(jié)
第5章 基于改進(jìn)K-MEANS聚類算法的術(shù)語(yǔ)層次關(guān)系提取
5.1 概述
5.2 基于語(yǔ)義的術(shù)語(yǔ)層次獲取流程
5.3 建立概念向量空間
5.4 計(jì)算術(shù)語(yǔ)語(yǔ)義相似度
5.5 基于改進(jìn)K-MEANS的術(shù)語(yǔ)聚類算法
5.6 構(gòu)建術(shù)語(yǔ)語(yǔ)義層次關(guān)系
5.7 實(shí)驗(yàn)結(jié)果與分析
5.7.1 實(shí)驗(yàn)數(shù)據(jù)
5.7.2 術(shù)語(yǔ)層次劃分的算法流程
5.7.3 實(shí)驗(yàn)結(jié)果
5.8 構(gòu)建領(lǐng)域?qū)嶓w
第6章 總結(jié)與展望
6.1 主要工作及創(chuàng)新點(diǎn)
6.2 今后工作展望
參考文獻(xiàn)
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文
致謝
【參考文獻(xiàn)】:
期刊論文
[1]Extracting Relevant Terms from Mashup Descriptions for Service Recommendation[J]. Yang Zhong,Yushun Fan. Tsinghua Science and Technology. 2017(03)
[2]K-means算法初始聚類中心選擇的優(yōu)化[J]. 郁啟麟. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2017(05)
[3]深度學(xué)習(xí)算法在藏文情感分析中的應(yīng)用研究[J]. 普次仁,侯佳林,劉月,翟東海. 計(jì)算機(jī)科學(xué)與探索. 2017(07)
[4]面向中國(guó)專利文獻(xiàn)的零形回指消解規(guī)則研究[J]. 靳瑋,喬曉東,劉耀,齊曉亞. 圖書情報(bào)工作. 2015(09)
[5]面向大規(guī)模微博消息流的突發(fā)話題檢測(cè)[J]. 申國(guó)偉,楊武,王巍,于淼. 計(jì)算機(jī)研究與發(fā)展. 2015(02)
[6]K-means算法初始聚類中心選擇的優(yōu)化[J]. 馮波,郝文寧,陳剛,占棟輝. 計(jì)算機(jī)工程與應(yīng)用. 2013(14)
[7]基于條件隨機(jī)場(chǎng)的領(lǐng)域術(shù)語(yǔ)識(shí)別研究[J]. 施水才,王鍇,韓艷鏵,呂學(xué)強(qiáng). 計(jì)算機(jī)工程與應(yīng)用. 2013(10)
[8]C-value值和unithood指標(biāo)結(jié)合的中文科技術(shù)語(yǔ)抽取[J]. 韓紅旗,安小米. 圖書情報(bào)工作. 2012(19)
[9]基于k-means聚類算法的研究[J]. 黃韜,劉勝輝,譚艷娜. 計(jì)算機(jī)技術(shù)與發(fā)展. 2011(07)
[10]面向領(lǐng)域中文文本信息處理的術(shù)語(yǔ)語(yǔ)義層次獲取研究[J]. 季培培,鄢小燕,岑詠華,王凌燕. 現(xiàn)代圖書情報(bào)技術(shù). 2010(09)
本文編號(hào):3063573
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3063573.html
最近更新
教材專著