天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 圖書檔案論文 >

面向中文專利文獻的并列結(jié)構(gòu)的識別和應用

發(fā)布時間:2020-06-25 12:33
【摘要】:專利文獻是一種非常重要的技術(shù)資料,專利文獻的文本格式比較固定,用語較為規(guī)范,除含有一些高頻詞和未登錄詞之外,還存在著大量的并列結(jié)構(gòu)。對于中文專利文獻中并列結(jié)構(gòu)的識別能夠提高專利文獻句法分析的性能,同時,識別結(jié)果可以應用于專利文獻的機器翻譯和信息抽取等領域。以往對于并列結(jié)構(gòu)的研究大都是一些理論探討和對非專利文獻中的并列結(jié)構(gòu)進行的識別。本文利用中文專利語料庫,對中文專利文獻中的并列結(jié)構(gòu)進行了分析與識別。 首先,分析了中文專利文獻中有標記并列結(jié)構(gòu)的語言學特征。統(tǒng)計分析了有標記并列結(jié)構(gòu)的內(nèi)部特征和外部特征。其中,內(nèi)部特征主要考察了并列標記、并列結(jié)構(gòu)內(nèi)部分析和詞性分布等。外部特征主要統(tǒng)計了可能的邊界特征詞,并分析了有標記并列結(jié)構(gòu)在中文專利文獻中依存句法特征。 其次,對中文專利文獻中的有標記并列結(jié)構(gòu)進行識別。在中文專利文獻統(tǒng)計分析結(jié)果的基礎上,對中文專利文獻中的單層并列結(jié)構(gòu)和嵌套并列結(jié)構(gòu)進行識別。識別過程中運用了統(tǒng)計分析規(guī)律作為識別規(guī)則,對識別結(jié)果進行了規(guī)則前處理和后處理,規(guī)則處理后提高了識別的準確率。 最后,選取單層并列結(jié)構(gòu)較優(yōu)的識別結(jié)果,根據(jù)并列結(jié)構(gòu)的依存特征,對中文專利文獻的依存分析結(jié)果進行了規(guī)則后處理,規(guī)則處理后提高了識別的準確率。
【學位授予單位】:沈陽航空航天大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:G353.1;TP391.1
【圖文】:

句法分析,并列結(jié)構(gòu)


和統(tǒng)計機器學習模型識別出中文專利文獻中的并列結(jié)構(gòu),并根據(jù)識別專利文獻中并列結(jié)構(gòu)對依存句法分析的影響。文涉及的專利文獻的并列結(jié)構(gòu)的識別是運用計算機自動識別并標注范圍。如識別下面句子中的并列結(jié)構(gòu)(用記號“BL【】”來標注文本中的入:這里,特定的 R-ACH 正在使用扇區(qū) A1 的位置 1 上的功率控制 2 上的功率控制位和扇區(qū) C2 的位置 4 上的功率控制位。出:這里,特定的 R-ACH 正在使用 BL【扇區(qū) A1 的位置 1 上的功率 的位置 2 上的功率控制位和扇區(qū) C2 的位置 4 上的功率控制位】。本文研究的意義、并列結(jié)構(gòu)的識別結(jié)果有利于提高句法分析的性能。由于并列結(jié)構(gòu)一聯(lián)或依存,目前廣泛使用的統(tǒng)計句法分析器很難處理,分析效果較和圖 1.1(b)分別為用專利語料訓練的句法分析器分析結(jié)果和正確的

并列結(jié)構(gòu),動賓關系


的閾值設為 0.7,也就是說當 p 大于 0.7 時,我們將 w 作為文專利文獻中,可以作為有標記并列結(jié)構(gòu)右邊界詞的詞如表,在非專利文獻中可以作為邊界詞的也(0.51)、中(0.51)表中。獻中有標記并列結(jié)構(gòu)的依存關系分布存樹庫的基礎上,統(tǒng)計分析了中文專利文獻中有標記并列結(jié)分析結(jié)果可以看出,專利文獻中有標記并列結(jié)構(gòu)主要出現(xiàn)在關系(VOB)、定中關系(ATT)、介賓關系(POB)、“的”BV),它們占據(jù)了整個并列結(jié)構(gòu)的 66.47%。具體分析如下:(VOB)成分,與核心詞之間的關系標注為動賓關系,一般位于核心關系的句子如圖 2.1 所示(其中,由方框框起來的是并列結(jié)構(gòu)系)[42]:

【參考文獻】

相關期刊論文 前10條

1 吳云芳;;并列成分中心語語義相似性考察[J];當代語言學;2005年04期

2 孫廣路;王曉龍;劉秉權(quán);關毅;;基于詞聚類特征的統(tǒng)計中文組塊分析模型[J];電子學報;2008年12期

3 鄭略省;呂學強;劉坤;林進;;漢語并列關系的識別研究[J];北京大學學報(自然科學版);2013年01期

4 任楚威;;英文專利文獻的漢譯[J];湖南師范大學自然科學學報;2008年03期

5 李素建,劉群,白碩;統(tǒng)計和規(guī)則相結(jié)合的漢語組塊分析[J];計算機研究與發(fā)展;2002年04期

6 周雅倩,郭以昆,黃萱菁,吳立德;基于最大熵方法的中英文基本名詞短語識別[J];計算機研究與發(fā)展;2003年03期

7 徐中一;胡謙;劉磊;;基于CRF的中文組塊分析[J];吉林大學學報(理學版);2007年03期

8 別致;周俊生;陳家駿;;基于SVM-Adaboost的中文組塊分析[J];計算機工程與應用;2008年21期

9 李珩;楊峰;朱靖波;姚天順;;基于增益的隱馬爾科夫模型的文本組塊分析[J];計算機科學;2004年02期

10 李素建,劉群,楊志峰;基于最大熵模型的組塊分析[J];計算機學報;2003年12期

相關博士學位論文 前1條

1 孫廣路;基于統(tǒng)計學習的中文組塊分析技術(shù)研究[D];哈爾濱工業(yè)大學;2008年



本文編號:2729136

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/2729136.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8fa9f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com