天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 社科論文 > 圖書檔案論文 >

基于條件隨機(jī)場的中文期刊論文信息識別與抽取

發(fā)布時(shí)間:2020-06-10 02:06
【摘要】:期刊論文作為知識信息的載體和研究人員獲取專業(yè)知識的一個(gè)重要渠道,對促進(jìn)專業(yè)技術(shù)的推廣、研究成果的傳播有極其重要的作用;谄诳撐娜男畔⒌南嚓P(guān)研究有利于提升期刊資源的使用價(jià)值以及用戶獲取信息的效率。目前,已經(jīng)存在很多論文信息抽取的相關(guān)工具,但其在中文期刊論文信息的抽取中效率并不高。所以在此基礎(chǔ)上,本文對現(xiàn)有的論文信息抽取工具做了適用性改進(jìn),使其更好地應(yīng)用在中文領(lǐng)域。通過對期刊論文信息抽取方法及工具的對比分析,本文選取條件隨機(jī)場算法和GROBID工具進(jìn)行中文期刊論文信息的識別與抽取。主要研究內(nèi)容與取得成果包括:(1)深入對比分析了期刊論文信息識別與抽取的相關(guān)方法和工具,發(fā)現(xiàn)條件隨機(jī)場算法和GROBID工具在論文信息抽取中準(zhǔn)確率更高,因此本文采用條件隨機(jī)場算法和GROBID工具進(jìn)行中文期刊論文信息的識別與抽取。同時(shí),詳細(xì)介紹了基于條件隨機(jī)場的中文期刊論文信息識別與抽取的關(guān)鍵技術(shù)。(2)基于條件隨機(jī)場算法和GROBID工具構(gòu)建了中文期刊論文信息識別與抽取級聯(lián)模型,包括segmentation模型、header模型、reference-segmentation模型、citation模型以及fulltext模型。針對中文期刊論文信息的特點(diǎn),通過文本預(yù)處理、特征選擇、序列標(biāo)注和特征模板制定一系列流程完成了對模型的設(shè)計(jì)與實(shí)現(xiàn)。(3)選取12種農(nóng)業(yè)領(lǐng)域中文期刊論文數(shù)據(jù)對模型進(jìn)行訓(xùn)練,利用準(zhǔn)確率、精準(zhǔn)率、召回率以及F1值四個(gè)指標(biāo)對各個(gè)模型的效果展開評估,并與GROBID工具的抽取效果進(jìn)行對比。實(shí)驗(yàn)結(jié)果顯示,中文期刊論文信息抽取模型中segmentation模型、header模型、reference-segmentation模型、citation模型的效果相對GROBID工具顯著提升,該模型能夠準(zhǔn)確、高效的識別和抽取出中文期刊論文頭信息和引文信息。
【圖文】:

論文結(jié)構(gòu),表達(dá)模型


圖 2- 1 JATS 論文結(jié)構(gòu)表達(dá)模型Fig 2-1 JATS paper structure expression model2.3 基于機(jī)器學(xué)習(xí)的論文信息抽取方法對比分析機(jī)器學(xué)習(xí)是基于統(tǒng)計(jì)學(xué)的方法即是通過建立輸入數(shù)據(jù)與輸出數(shù)據(jù)的概率模型,解決一些預(yù)測標(biāo)注問題。論文信息抽取可以看作是一種分類標(biāo)注問題。在使用機(jī)器學(xué)習(xí)的方法對論文信息進(jìn)行抽取時(shí),,實(shí)現(xiàn)步驟如下:首先根據(jù)抽取任務(wù)確定選擇特征,根據(jù)特征生成對應(yīng)數(shù)據(jù)文件。其次將標(biāo)記好的數(shù)據(jù)文件作為訓(xùn)練數(shù)據(jù)輸入,進(jìn)行訓(xùn)練,生成相應(yīng)的抽取模型。最后可以輸入未標(biāo)記的數(shù)據(jù)文件以及生成的模型文件,得到目標(biāo)信息即模型標(biāo)注的結(jié)果;跈C(jī)器學(xué)習(xí)的論文信息抽取方法主要包括 HMM、SVM 以及 CRF。表 2-1 為以上三種方法的對比分析。

圖結(jié)構(gòu)


中國農(nóng)業(yè)科學(xué)院碩士學(xué)位論文 第二章 期刊論文信息識別與抽取的相關(guān)理論研究本文將會對其相關(guān)機(jī)器學(xué)習(xí)技術(shù)的背景歷史及其相關(guān)的優(yōu)化算法進(jìn)行介紹。首先介紹隱馬爾可模型及其推理算法。其次介紹了多種邏輯回歸算法,最后介紹在前面的方法基礎(chǔ)上提出了最大馬爾可夫模型(Maximum Entropy Markov Model,MEMM)和條件隨機(jī)場。2.5.1 隱馬爾可夫模型隱馬爾可夫模型(Hidden Markov Models,HMM)是機(jī)器學(xué)習(xí)領(lǐng)域中比較流行的一種模型HMM 是基于統(tǒng)計(jì)學(xué)具有豐富數(shù)學(xué)理論結(jié)構(gòu)的模型,能夠在許多的研究中應(yīng)用。近年來,HM已經(jīng)成為了許多領(lǐng)域研究例如自然語言處理領(lǐng)域中重要的一種方法。構(gòu)建 HMM 模型即獲得一個(gè)長度為 T 的未知隱藏狀態(tài)序列的概率分布,y =( , ,..., )其元素在有限狀態(tài)集合 S 中取值,并遵循馬爾可夫處理。對于這個(gè)隱藏序列中的每個(gè)元素,都一個(gè)相應(yīng)的觀察元素,形成一系列的觀察值 x =( , ,..., ),同樣地在有限集 O 中取值。
【學(xué)位授予單位】:中國農(nóng)業(yè)科學(xué)院
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:G255.2

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張開旭;夏云慶;宇航;;基于條件隨機(jī)場的古文自動斷句與標(biāo)點(diǎn)方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版)網(wǎng)絡(luò).預(yù)覽;2009年10期

2 李玲玲;金泰松;李翠華;;基于局部特征和隱條件隨機(jī)場的場景分類方法[J];北京理工大學(xué)學(xué)報(bào);2012年07期

3 黃浩;朱杰;;基于隱條件隨機(jī)場的聲調(diào)建模及區(qū)分性模型權(quán)重訓(xùn)練(英文)[J];Transactions of Nanjing University of Aeronautics & Astronautics;2008年01期

4 宋青松;張超;陳禹;王興莉;楊小軍;;組合全卷積神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場的道路分割[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2018年08期

5 蔣黎明;司亞彪;;基于條件隨機(jī)場的新浪微博情感傾向性研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2014年10期

6 蔡鑫奇;王瑞;石亮;牟迪;馬春宇;;基于條件隨機(jī)場的軟件變更影響分析方法[J];航天控制;2019年01期

7 趙靜;谷鵬飛;何亞南;延霞;;基于條件隨機(jī)場的協(xié)議異常檢測[J];深圳信息職業(yè)技術(shù)學(xué)院學(xué)報(bào);2018年02期

8 戴丹;胡楊;劉驪;馮旭鵬;劉利軍;黃青松;;基于層疊條件隨機(jī)場的微博熱點(diǎn)話題跟蹤[J];計(jì)算機(jī)應(yīng)用與軟件;2016年04期

9 潘華山;嚴(yán)馨;周楓;余正濤;郭劍毅;;基于層疊條件隨機(jī)場的高棉語分詞及詞性標(biāo)注方法[J];中文信息學(xué)報(bào);2016年04期

10 鹿凱寧;孫琪;劉安安;楊兆選;;基于隱條件隨機(jī)場的人體行為識別方法[J];天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版);2013年10期

相關(guān)會議論文 前10條

1 陳雪艷;呂國英;李茹;劉偉;;基于層疊條件隨機(jī)場的句法語義自動標(biāo)注研究[A];第四屆全國學(xué)生計(jì)算語言學(xué)研討會會議論文集[C];2008年

2 張朋朋;王善峰;公茂果;張明陽;武越;;基于三維塊匹配和全連接條件隨機(jī)場的SAR圖像變化檢測[A];第五屆高分辨率對地觀測學(xué)術(shù)年會論文集[C];2018年

3 江濤;江靜;戴玉剛;李艾林;;藏文輿情云分析系統(tǒng)平臺研究[A];第29次全國計(jì)算機(jī)安全學(xué)術(shù)交流會論文集[C];2014年

4 彭洪保;李茹;段建勇;;基于漢語框架網(wǎng)的問句語義角色自動標(biāo)注研究[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

5 潘華山;嚴(yán)馨;余正濤;郭劍毅;;融合實(shí)體特性的柬埔寨語命名實(shí)體識別方法[A];第26屆中國控制與決策會議論文集[C];2014年

6 劉瑞;飛龍;高光來;張紅偉;;基于條件隨機(jī)場的蒙古語韻律短語預(yù)測方法[A];第十三屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC2015)論文集[C];2015年

7 張祝玉;任飛亮;朱靖波;;基于條件隨機(jī)場的中文命名實(shí)體識別特征比較研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

8 尉舒舒;;基于微博對話鏈的命名實(shí)體識別[A];第十一屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2015年

9 張奇;翁富良;黃萱菁;吳立德;;英文口語中非流利區(qū)域的檢測[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會議論文集[C];2007年

10 王根;趙軍;;基于多重冗余標(biāo)記CRF的句子情感分析研究[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會議論文集[C];2007年

相關(guān)博士學(xué)位論文 前10條

1 仇文亮;基于條件隨機(jī)場的視覺顯著性目標(biāo)檢測[D];西安電子科技大學(xué);2018年

2 張曉峰;基于條件隨機(jī)場的目標(biāo)提取[D];華東師范大學(xué);2012年

3 林穎;基于水平集方法的圖像分割關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年

4 萬懷宇;社會網(wǎng)絡(luò)中基于鏈接的分類問題研究[D];北京交通大學(xué);2012年

5 穆一夫;基于認(rèn)知的非結(jié)構(gòu)化信息抽取關(guān)鍵技術(shù)與算法研究[D];中國礦業(yè)大學(xué)(北京);2013年

6 王東波;基于英漢雙語平行語料庫的句法級知識挖掘和抽取研究[D];南京大學(xué);2012年

7 熊英;中文自然語言理解中基于條件隨機(jī)場理論的詞法分析研究[D];上海交通大學(xué);2009年

8 梁曄;基于視覺顯著性的顯著區(qū)域提取方法及其應(yīng)用研究[D];北京交通大學(xué);2018年

9 羅亮;蛋白質(zhì)結(jié)構(gòu)預(yù)測模型研究[D];華中科技大學(xué);2010年

10 劉濤;基于有監(jiān)督分層狄里克雷過程的對象分割模型[D];北京郵電大學(xué);2016年

相關(guān)碩士學(xué)位論文 前10條

1 沈豪;互聯(lián)網(wǎng)評論文本觀點(diǎn)挖掘策略研究[D];南京大學(xué);2019年

2 薛歡歡;基于條件隨機(jī)場的中文期刊論文信息識別與抽取[D];中國農(nóng)業(yè)科學(xué)院;2019年

3 金雪梅;基于條件隨機(jī)場的交通場景理解算法研究[D];東北大學(xué);2015年

4 韋楊柳;基于條件隨機(jī)場的植物細(xì)胞追蹤算法研究[D];湖南大學(xué);2018年

5 李楠;基于多視覺目標(biāo)融合的圖像情感分類方法研究[D];北京交通大學(xué);2018年

6 李金龍;結(jié)合多種特征和條件隨機(jī)場的顯著性區(qū)域分割[D];湖南師范大學(xué);2018年

7 傅科達(dá);面向新聞文本的情感原因抽取算法研究[D];哈爾濱工業(yè)大學(xué);2018年

8 邢立棟;面向特定領(lǐng)域的知識圖譜構(gòu)建技術(shù)研究與應(yīng)用[D];北京化工大學(xué);2018年

9 徐曉芳;基于條件隨機(jī)場的中文分詞技術(shù)的研究與實(shí)現(xiàn)[D];南京郵電大學(xué);2018年

10 韓浩;結(jié)合FCN與條件隨機(jī)場的道路場景分割模型的研究[D];武漢理工大學(xué);2017年



本文編號:2705611

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/2705611.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a95bf***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com