面向?qū)@畔⑻幚淼恼Z義分析方法研究
發(fā)布時間:2021-03-04 17:00
近年來,中國的專利申請量極大且增速較快。報告顯示僅2017年,國內(nèi)發(fā)明專利申請量就高達138.2萬件,同比增長14.2%,已審結(jié)74.4萬件,未審結(jié)的專利文獻量都很大而且不斷增長。人工進行專利信息的標引和分類需要大量有專業(yè)基礎(chǔ)的人,因此工作量巨大且進展緩慢,標引和分類時容易出現(xiàn)一致性錯誤,造成專利文獻檢索漏檢、偏檢和噪音大等問題。專利文本是一種半結(jié)構(gòu)化的數(shù)據(jù),難用現(xiàn)有數(shù)據(jù)結(jié)構(gòu)方法加以規(guī)范。如何從具有技術(shù)和法律二維特征的專利文獻中提取所需要的技術(shù)特征,對專利文獻所描述的技術(shù)內(nèi)容加以解析,是基于技術(shù)語言語義分析領(lǐng)域研究的重點。傳統(tǒng)基于詞頻統(tǒng)計的文本挖掘方法難以適應(yīng)專利文獻的復(fù)雜結(jié)構(gòu),導致分析結(jié)果準確性不足,因此開展以專利文獻為代表的技術(shù)語言的語義分析研究,準確定位和提取專利文獻中的技術(shù)和產(chǎn)品特征。本文圍繞專利文本的語義分析需求,重點對專利語言特征的準確提取開展研究與實驗。通過構(gòu)建專利領(lǐng)域本體來獲取盡可能多專利領(lǐng)域術(shù)語信息,提高專利文獻檢索的查全率和查準率,并減少人工標引和檢索的工作量。為此,本文主要做了如下研究工作:1、基于依存關(guān)系樹-CRF(條件隨機場)的文本術(shù)語提取;谝来骊P(guān)系樹-C...
【文章來源】:江蘇科技大學江蘇省
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究現(xiàn)狀
1.3 研究內(nèi)容
1.3.1 專利文獻的預(yù)處理
1.3.2 術(shù)語提取及術(shù)語間關(guān)系提取
1.3.3 構(gòu)建領(lǐng)域本體
1.4 本文結(jié)構(gòu)
第2章 課題相關(guān)技術(shù)概述
2.1 概述
2.2 專利文本預(yù)處理
2.2.1 專利文本的相關(guān)概念
2.2.2 專利文本的獲取
2.2.3 文本分詞
2.2.4 詞性標注
2.2.5 停用詞過濾
2.3 文本特征詞提取
2.3.1 卡方檢驗
2.3.2 信息增益
2.3.3 相關(guān)系數(shù)
2.3.4 互信息(MI)
2.4 術(shù)語提取
2.4.1 基于語言學的術(shù)語提取
2.4.2 基于統(tǒng)計學的術(shù)語提取
2.4.3 基于機器學習的術(shù)語提取
2.4.4 混合方法
2.5 術(shù)語間關(guān)系提取
2.5.1 K-MEANS聚類
2.5.2 Lexico-syntactic Patterns
2.5.3 關(guān)聯(lián)法則
2.6 領(lǐng)域本體
2.6.1 本體定義
2.6.2 本體的表達
2.6.3 基于文本的本體學習框架
2.6.4 本體語言
2.6.5 本體編輯工具
2.6.6 本體填充
2.6.7 本體評測
第3章 基于依存關(guān)系樹-CRF的術(shù)語提取研究
3.1 概述
3.2 基于條件隨機場領(lǐng)域術(shù)語識別
3.2.1 條件隨機場
3.2.2 算法過程
3.2.3 CRF的算法分析
3.3 基于依存關(guān)系樹-CRF的文本術(shù)語提取
3.3.1 依存關(guān)系樹
3.3.2 利用語義三元組挖掘技術(shù)特征詞
3.3.3 基于依存關(guān)系樹-CRF的文本術(shù)語提取
3.4 實驗結(jié)果與分析
3.4.1 實驗數(shù)據(jù)
3.4.2 實驗過程
3.4.3 評測方法
3.4.4 特征模版
3.4.5 訓練參數(shù)確定
3.4.6 實驗結(jié)果與分析
第4章 K-MEANS算法改進及其在三支決策中的應(yīng)用研究
4.1 概述
4.2 傳統(tǒng)的K-MEANS算法的研究現(xiàn)狀
4.3 三支決策聚類的相關(guān)概念
4.4 基于傳統(tǒng)K-MEANS算法的三支聚類
4.5 改進的K-MEANS算法
4.6 改進的K-MEANS算法在三支決策中的應(yīng)用研究
4.7 實驗結(jié)果與分析
4.7.1 實驗數(shù)據(jù)與說明
4.7.2 評測方法
4.7.3 實驗結(jié)果
4.7.4 實驗一的結(jié)果分析
4.7.5 實驗二的結(jié)果分析
4.7.6 穩(wěn)定性
4.7.7 實驗小結(jié)
第5章 基于改進K-MEANS聚類算法的術(shù)語層次關(guān)系提取
5.1 概述
5.2 基于語義的術(shù)語層次獲取流程
5.3 建立概念向量空間
5.4 計算術(shù)語語義相似度
5.5 基于改進K-MEANS的術(shù)語聚類算法
5.6 構(gòu)建術(shù)語語義層次關(guān)系
5.7 實驗結(jié)果與分析
5.7.1 實驗數(shù)據(jù)
5.7.2 術(shù)語層次劃分的算法流程
5.7.3 實驗結(jié)果
5.8 構(gòu)建領(lǐng)域?qū)嶓w
第6章 總結(jié)與展望
6.1 主要工作及創(chuàng)新點
6.2 今后工作展望
參考文獻
攻讀學位期間發(fā)表的學術(shù)論文
致謝
【參考文獻】:
期刊論文
[1]Extracting Relevant Terms from Mashup Descriptions for Service Recommendation[J]. Yang Zhong,Yushun Fan. Tsinghua Science and Technology. 2017(03)
[2]K-means算法初始聚類中心選擇的優(yōu)化[J]. 郁啟麟. 計算機系統(tǒng)應(yīng)用. 2017(05)
[3]深度學習算法在藏文情感分析中的應(yīng)用研究[J]. 普次仁,侯佳林,劉月,翟東海. 計算機科學與探索. 2017(07)
[4]面向中國專利文獻的零形回指消解規(guī)則研究[J]. 靳瑋,喬曉東,劉耀,齊曉亞. 圖書情報工作. 2015(09)
[5]面向大規(guī)模微博消息流的突發(fā)話題檢測[J]. 申國偉,楊武,王巍,于淼. 計算機研究與發(fā)展. 2015(02)
[6]K-means算法初始聚類中心選擇的優(yōu)化[J]. 馮波,郝文寧,陳剛,占棟輝. 計算機工程與應(yīng)用. 2013(14)
[7]基于條件隨機場的領(lǐng)域術(shù)語識別研究[J]. 施水才,王鍇,韓艷鏵,呂學強. 計算機工程與應(yīng)用. 2013(10)
[8]C-value值和unithood指標結(jié)合的中文科技術(shù)語抽取[J]. 韓紅旗,安小米. 圖書情報工作. 2012(19)
[9]基于k-means聚類算法的研究[J]. 黃韜,劉勝輝,譚艷娜. 計算機技術(shù)與發(fā)展. 2011(07)
[10]面向領(lǐng)域中文文本信息處理的術(shù)語語義層次獲取研究[J]. 季培培,鄢小燕,岑詠華,王凌燕. 現(xiàn)代圖書情報技術(shù). 2010(09)
本文編號:3063573
【文章來源】:江蘇科技大學江蘇省
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究現(xiàn)狀
1.3 研究內(nèi)容
1.3.1 專利文獻的預(yù)處理
1.3.2 術(shù)語提取及術(shù)語間關(guān)系提取
1.3.3 構(gòu)建領(lǐng)域本體
1.4 本文結(jié)構(gòu)
第2章 課題相關(guān)技術(shù)概述
2.1 概述
2.2 專利文本預(yù)處理
2.2.1 專利文本的相關(guān)概念
2.2.2 專利文本的獲取
2.2.3 文本分詞
2.2.4 詞性標注
2.2.5 停用詞過濾
2.3 文本特征詞提取
2.3.1 卡方檢驗
2.3.2 信息增益
2.3.3 相關(guān)系數(shù)
2.3.4 互信息(MI)
2.4 術(shù)語提取
2.4.1 基于語言學的術(shù)語提取
2.4.2 基于統(tǒng)計學的術(shù)語提取
2.4.3 基于機器學習的術(shù)語提取
2.4.4 混合方法
2.5 術(shù)語間關(guān)系提取
2.5.1 K-MEANS聚類
2.5.2 Lexico-syntactic Patterns
2.5.3 關(guān)聯(lián)法則
2.6 領(lǐng)域本體
2.6.1 本體定義
2.6.2 本體的表達
2.6.3 基于文本的本體學習框架
2.6.4 本體語言
2.6.5 本體編輯工具
2.6.6 本體填充
2.6.7 本體評測
第3章 基于依存關(guān)系樹-CRF的術(shù)語提取研究
3.1 概述
3.2 基于條件隨機場領(lǐng)域術(shù)語識別
3.2.1 條件隨機場
3.2.2 算法過程
3.2.3 CRF的算法分析
3.3 基于依存關(guān)系樹-CRF的文本術(shù)語提取
3.3.1 依存關(guān)系樹
3.3.2 利用語義三元組挖掘技術(shù)特征詞
3.3.3 基于依存關(guān)系樹-CRF的文本術(shù)語提取
3.4 實驗結(jié)果與分析
3.4.1 實驗數(shù)據(jù)
3.4.2 實驗過程
3.4.3 評測方法
3.4.4 特征模版
3.4.5 訓練參數(shù)確定
3.4.6 實驗結(jié)果與分析
第4章 K-MEANS算法改進及其在三支決策中的應(yīng)用研究
4.1 概述
4.2 傳統(tǒng)的K-MEANS算法的研究現(xiàn)狀
4.3 三支決策聚類的相關(guān)概念
4.4 基于傳統(tǒng)K-MEANS算法的三支聚類
4.5 改進的K-MEANS算法
4.6 改進的K-MEANS算法在三支決策中的應(yīng)用研究
4.7 實驗結(jié)果與分析
4.7.1 實驗數(shù)據(jù)與說明
4.7.2 評測方法
4.7.3 實驗結(jié)果
4.7.4 實驗一的結(jié)果分析
4.7.5 實驗二的結(jié)果分析
4.7.6 穩(wěn)定性
4.7.7 實驗小結(jié)
第5章 基于改進K-MEANS聚類算法的術(shù)語層次關(guān)系提取
5.1 概述
5.2 基于語義的術(shù)語層次獲取流程
5.3 建立概念向量空間
5.4 計算術(shù)語語義相似度
5.5 基于改進K-MEANS的術(shù)語聚類算法
5.6 構(gòu)建術(shù)語語義層次關(guān)系
5.7 實驗結(jié)果與分析
5.7.1 實驗數(shù)據(jù)
5.7.2 術(shù)語層次劃分的算法流程
5.7.3 實驗結(jié)果
5.8 構(gòu)建領(lǐng)域?qū)嶓w
第6章 總結(jié)與展望
6.1 主要工作及創(chuàng)新點
6.2 今后工作展望
參考文獻
攻讀學位期間發(fā)表的學術(shù)論文
致謝
【參考文獻】:
期刊論文
[1]Extracting Relevant Terms from Mashup Descriptions for Service Recommendation[J]. Yang Zhong,Yushun Fan. Tsinghua Science and Technology. 2017(03)
[2]K-means算法初始聚類中心選擇的優(yōu)化[J]. 郁啟麟. 計算機系統(tǒng)應(yīng)用. 2017(05)
[3]深度學習算法在藏文情感分析中的應(yīng)用研究[J]. 普次仁,侯佳林,劉月,翟東海. 計算機科學與探索. 2017(07)
[4]面向中國專利文獻的零形回指消解規(guī)則研究[J]. 靳瑋,喬曉東,劉耀,齊曉亞. 圖書情報工作. 2015(09)
[5]面向大規(guī)模微博消息流的突發(fā)話題檢測[J]. 申國偉,楊武,王巍,于淼. 計算機研究與發(fā)展. 2015(02)
[6]K-means算法初始聚類中心選擇的優(yōu)化[J]. 馮波,郝文寧,陳剛,占棟輝. 計算機工程與應(yīng)用. 2013(14)
[7]基于條件隨機場的領(lǐng)域術(shù)語識別研究[J]. 施水才,王鍇,韓艷鏵,呂學強. 計算機工程與應(yīng)用. 2013(10)
[8]C-value值和unithood指標結(jié)合的中文科技術(shù)語抽取[J]. 韓紅旗,安小米. 圖書情報工作. 2012(19)
[9]基于k-means聚類算法的研究[J]. 黃韜,劉勝輝,譚艷娜. 計算機技術(shù)與發(fā)展. 2011(07)
[10]面向領(lǐng)域中文文本信息處理的術(shù)語語義層次獲取研究[J]. 季培培,鄢小燕,岑詠華,王凌燕. 現(xiàn)代圖書情報技術(shù). 2010(09)
本文編號:3063573
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3063573.html
最近更新
教材專著