運(yùn)用圖示法自動(dòng)提取中文專利文本的語(yǔ)義信息
發(fā)布時(shí)間:2017-08-28 05:44
本文關(guān)鍵詞:運(yùn)用圖示法自動(dòng)提取中文專利文本的語(yǔ)義信息
更多相關(guān)文章: 圖示法 專利信息提取 頻繁子圖挖掘 專利分類
【摘要】:[目的/意義]提出利用圖結(jié)構(gòu)的表示法自動(dòng)挖掘中文專利文本的語(yǔ)義信息,以為基于文本內(nèi)容的專利智能分析提供語(yǔ)義支持。[方法/過(guò)程]設(shè)計(jì)兩種運(yùn)用圖結(jié)構(gòu)的模型:1基于關(guān)鍵詞的文本圖模型;2基于依存關(guān)系樹的文本圖模型。第一種圖模型通過(guò)計(jì)算關(guān)鍵詞之間的相似性關(guān)系來(lái)定義;第二種圖模型則由句中所提取的語(yǔ)法關(guān)系來(lái)定義。在案例研究中,借助頻繁子圖挖掘算法,對(duì)所建圖模型進(jìn)行子圖挖掘,并構(gòu)建以子圖為特征的文本分類器,用來(lái)檢測(cè)所建圖模型的表達(dá)性和有效性。[結(jié)果/結(jié)論]將所建的基于圖模型的文本分類器應(yīng)用于4個(gè)不同技術(shù)領(lǐng)域的專利文本數(shù)據(jù)集,并與經(jīng)典文本分類器的測(cè)試結(jié)果相比較而知:前者在使用明顯較少的特征數(shù)的基礎(chǔ)上,分類性能較后者提升2.1%-10.5%。由此而推斷,使用圖結(jié)構(gòu)的表達(dá)法并結(jié)合圖挖掘技術(shù)從專利文本中所提取的語(yǔ)義信息是有效的,有助于進(jìn)一步的專利文本分析。
【作者單位】: 南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系;江蘇省專利信息服務(wù)中心;
【關(guān)鍵詞】: 圖示法 專利信息提取 頻繁子圖挖掘 專利分類
【分類號(hào)】:G306;G254
【正文快照】: 1引言近10年來(lái),專利文本自動(dòng)處理技術(shù)被廣泛地用于專利信息應(yīng)用的各個(gè)層面,包括專利信息檢索[1]、專利分類[2]和專利引用分析[3]等。專利文檔的平均長(zhǎng)度要比新聞長(zhǎng)24倍[4],這使得人工進(jìn)行專利信息的提取成為一項(xiàng)耗時(shí)又耗力的任務(wù)。傳統(tǒng)的專利信息提取方法[5-6]是通過(guò)使用模式
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 曾艷;侯漢清;;古籍文本抽詞研究[J];圖書情報(bào)工作;2008年01期
,本文編號(hào):747273
本文鏈接:http://sikaile.net/guanlilunwen/keyanlw/747273.html
最近更新
教材專著