天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 圖書檔案論文 >

基于字角色標注的中文專利術(shù)語識別研究

發(fā)布時間:2020-07-15 02:35
【摘要】:專利文獻在科技、制造、經(jīng)濟和法律等領(lǐng)域有著廣泛的應用,深入挖掘?qū)@墨I的服務(wù)方式對上述領(lǐng)域的發(fā)展和進步具有重要意義。專利術(shù)語是在某一領(lǐng)域?qū)@墨I中具有明確指向性的語詞,它能夠充分、完整地反映專利文獻的主要描述對象,對專利術(shù)語進行挖掘和處理能夠為深度的專利文獻服務(wù)提供支持。在當前術(shù)語識別的研究領(lǐng)域,主要分為基于統(tǒng)計的方法、基于語言規(guī)則匹配的方法以及統(tǒng)計與語言規(guī)則相結(jié)合的方法。條件隨機場(CRFs)作為一種成熟度較高的學習算法,因其算法優(yōu)勢,在當前術(shù)語識別領(lǐng)域有著廣泛的應用。在某一文本語料中,它能夠同時考察對象自身的橫向特征與該對象所處上下文的縱向特征。本文采用條件隨機場(CRFs)機器學習算法,對中文鋼鐵冶金領(lǐng)域的專利文獻題名進行字特征的學習,并利用訓練生成的標注模型對測試語料進行角色的自動標注,進而完成術(shù)語識別操作。本文的核心內(nèi)容與主要工作涉及以下幾個方面:(1)訓練語料的規(guī)范化處理。由于當前中文鋼鐵冶金領(lǐng)域沒有合適的專利術(shù)語表,在進行角色標注時所出現(xiàn)的“術(shù)語嵌套”及“長術(shù)語”現(xiàn)象會對角色的正確標注造成障礙。為此,筆者在研究中首先對標注過的來源文本進行術(shù)語抽取,經(jīng)過進一步的篩選和組織,最終構(gòu)建了該領(lǐng)域?qū)@墨I的術(shù)語集合。該術(shù)語集合不僅是對來源文本中領(lǐng)域術(shù)語的整體描述,更是在進行角色標注過程中的可靠參照。(2)引入新的特征項。結(jié)合來源文本語料的主題特征與內(nèi)容結(jié)構(gòu)特征,筆者在已有研究成果的基礎(chǔ)上引入了“化工元素特征”與“字頻特征”這兩個新的特征項。其中,前者對來源文本中的化工元素字與非化工元素字進行了特征區(qū)分,后者則對術(shù)語組成字與非術(shù)語組成字進行了特征區(qū)分。從實驗結(jié)果來看,引入這兩種新的特征項能夠有效促進角色標注模型的整體性能。(3)構(gòu)建了角色標注模型。在設(shè)置特征項的基礎(chǔ)上,本文構(gòu)建了5種不同的特征模板用于考察不同特征項對于角色標注模型的影響力。本文采用最新版本的CRF++0.58作為算法運行平臺,基于條件隨機場(CRFs)學習算法,結(jié)合所構(gòu)建的訓練語料,分別以5種特征模板為參考構(gòu)建了標注模型。之后,采用經(jīng)典的評測指標(準確率、召回率、F值)與附加指標(字角色標注召回率)對比分析了5種標注模型的標注結(jié)果。(4)總結(jié)了不同特征項的影響力以及特征項設(shè)置的經(jīng)驗性規(guī)律。根據(jù)對5種模型的評測結(jié)果,本文嘗試從來源文本的語義屬性出發(fā),分析不同特征項對領(lǐng)域術(shù)語識別的影響力。本文在最后總結(jié)了特征項設(shè)置的一般原則,指明了進一步改進研究的方向。
【學位授予單位】:南京大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:G306;G254

【相似文獻】

相關(guān)期刊論文 前10條

1 劉崢;馬軍;;一種基于圖劃分和圖像搜索引擎的圖像標注改善算法[J];計算機研究與發(fā)展;2011年07期

2 盧英;劉金義;高輝;路宏;;地圖中點狀要素標注算法設(shè)計[J];計算機與數(shù)字工程;2006年05期

3 朱松豪;梁志偉;;基于半監(jiān)督學習模型的自動圖片標注研究[J];南京郵電大學學報(自然科學版);2010年06期

4 李勁;張華;吳浩雄;向軍;辜希武;;基于社會標注質(zhì)量的文本分類模型框架[J];計算機應用;2012年05期

5 袁瑩;邵健;吳飛;莊越挺;;結(jié)合組稀疏效應和多核學習的圖像標注[J];軟件學報;2012年09期

6 褚穎娜;廖敏;宋繼華;;一種基于統(tǒng)計的分詞標注一體化方法[J];計算機系統(tǒng)應用;2009年12期

7 虎曉紅;李炳軍;蘇曉珂;;基于敘詞查詢的圖像標注方法[J];鄭州大學學報(理學版);2011年02期

8 楊沐昀,李生,趙鐵軍;漢英雙語標注集的研究與實現(xiàn)[J];情報學報;2000年05期

9 舒燕;呂學強;;搜索引擎日志短語標注規(guī)范[J];中文信息學報;2013年02期

10 邱澤宇;方全;;w;徐常勝;;基于區(qū)域上下文感知的圖像標注[J];計算機學報;2014年06期

相關(guān)會議論文 前5條

1 朱松豪;劉允才;;基于語義相似性的自動圖片標注研究[A];第四屆和諧人機環(huán)境聯(lián)合學術(shù)會議論文集[C];2008年

2 鄒煜;;新聞播音語言韻律標注初探[A];第二屆全國學生計算語言學研討會論文集[C];2004年

3 姜文斌;王志洋;劉群;呂雅娟;;基于馬爾可夫間隔標注的中文分詞算法[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年

4 滿正行;高璐;;藏語單語料庫分析及標注探討[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學術(shù)研討會論文集[C];2007年

5 徐琳宏;林鴻飛;;文本情感語料庫的構(gòu)建和分析[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年

相關(guān)重要報紙文章 前1條

1 中國社會科學院民族學與人類學研究所 燕海雄;中國民族語言語法標注研究取得新進展[N];中國社會科學報;2014年

相關(guān)博士學位論文 前6條

1 芮曉光;真實世界環(huán)境下的自動圖像標注方法研究[D];中國科學技術(shù)大學;2010年

2 劉凱鵬;社會性標注關(guān)鍵技術(shù)及其在信息檢索中的應用研究[D];哈爾濱工業(yè)大學;2010年

3 汪萌;基于機器學習方法的視頻標注研究[D];中國科學技術(shù)大學;2008年

4 鐘岑岑;基于上下文的音視頻標注研究[D];北京交通大學;2014年

5 燕楊;基于條件隨機場的醫(yī)學文本與圖像標注模型構(gòu)建及應用研究[D];吉林大學;2015年

6 包勝華;基于Web的實體信息搜索與挖掘研究[D];上海交通大學;2008年

相關(guān)碩士學位論文 前10條

1 韓杰冰;基于字角色標注的中文專利術(shù)語識別研究[D];南京大學;2015年

2 何斯瓊;基于稀疏回歸模型的圖像標注研究[D];浙江大學;2010年

3 王上;地理信息系統(tǒng)中地圖標注問題的研究與實現(xiàn)[D];吉林大學;2004年

4 周寧;融合標注詞相關(guān)性信息的圖像語義標注研究[D];復旦大學;2009年

5 夏靜;基于社會標注的主題分類及排序優(yōu)化方法研究[D];華中科技大學;2011年

6 賈貝貝;基于文本的未標注圖像檢索算法研究[D];南京大學;2012年

7 趙勇;基于社會標注的主題爬蟲研究[D];華中科技大學;2009年

8 鄭皓;社會化互聯(lián)網(wǎng)的內(nèi)容和結(jié)構(gòu)挖掘[D];上海交通大學;2009年

9 曹月;融合視覺與語義雙模態(tài)信息的自動圖像標注[D];北京理工大學;2010年

10 王前程;自動圖像標注中基于局部泛化誤差模型的特征權(quán)重研究[D];華南理工大學;2011年



本文編號:2755848

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/2755848.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶93f71***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com