天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 論文百科 > 科研論文 >

基于條件隨機(jī)場的科研論文信息分層抽取研究

發(fā)布時間:2017-10-03 06:26

  本文關(guān)鍵詞:基于條件隨機(jī)場的科研論文信息分層抽取研究


  更多相關(guān)文章: 信息抽取 條件隨機(jī)場 科研論文 分層 文本行


【摘要】: 面對信息爆炸而產(chǎn)生的海量文本信息,如何更快速、準(zhǔn)確地從中獲取需要的信息,是人們普遍關(guān)注的問題。文本信息抽取的研究工作,便是在這種需求背景下產(chǎn)生的,旨在提供從海量聯(lián)機(jī)文本信息中快速、準(zhǔn)確獲取有用信息的工具和方法。 通過抽取科研論文信息,不僅可以有效地組織和管理這些論文,提高用戶檢索論文的效率,而且還能夠進(jìn)行大量的統(tǒng)計工作。如論文主題分析及相關(guān)論文統(tǒng)計,對期刊、科研單位、某篇論文或某個學(xué)者進(jìn)行引用分析以及發(fā)現(xiàn)研究熱點和研究趨勢等,所以從科研論文中自動抽取信息有著重要的研究價值。 當(dāng)前,基于統(tǒng)計學(xué)習(xí)的文本信息抽取方法,是一種相對比較新的文本信息抽取模型,取得了很好的效果,被認(rèn)為有著很好的應(yīng)用價值,其中,基于條件隨機(jī)場模型的科研論文信息抽取方法,更是受到了相當(dāng)?shù)年P(guān)注。 在全面分析各種文本信息抽取方法的基礎(chǔ)上,重點研究了利用條件隨機(jī)場對科研論文信息進(jìn)行抽取,發(fā)現(xiàn)其中傳統(tǒng)的單純基于詞或基于塊的抽取方法存在著以下不足:①把抽取的文本對象固定為單詞,或者固定為文本塊,無法根據(jù)抽取對象的不同情況,在恰當(dāng)粒度上靈活地進(jìn)行切分和抽取;②在抽取的過程中,不能夠充分地利用文本所包含的完整的特征信息,以及文本中豐富的上下文信息。這種不足,在處理復(fù)合抽取域文本和大信息量的抽取域文本時,表現(xiàn)得尤為明顯。 因此,在研究國內(nèi)外相關(guān)學(xué)者的研究成果的基礎(chǔ)上,提出了一種基于條件隨機(jī)場的科研論文信息分層抽取方法。首先,根據(jù)版面格式信息,把開頭不為空格的行,與其前面的一個文本行,合并成一個大的文本行,以文本行為基本的抽取單位,從而盡量獲得最完整的特征信息;然后,根據(jù)科研論文信息分層抽取任務(wù)的需要,為條件隨機(jī)場模型制定合適的特征函數(shù);其次,利用分隔符、換行符、行首字符等格式信息,結(jié)合條件隨機(jī)場的部分判定性特征函數(shù),將輸入的文本切分成文本行、塊或單個的詞等恰當(dāng)?shù)膶哟?最后,通過訓(xùn)練獲得模型的參數(shù),并對科研論文進(jìn)行特定文本域的抽取。實驗結(jié)果表明,該方法的抽取性能,優(yōu)于基于詞或者塊的條件隨機(jī)場模型的信息抽取方法。
【關(guān)鍵詞】:信息抽取 條件隨機(jī)場 科研論文 分層 文本行
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2009
【分類號】:TP391.1
【目錄】:
  • 摘要3-4
  • ABSTRACT4-9
  • 1 緒論9-11
  • 1.1 研究背景及意義9
  • 1.2 國內(nèi)外研究現(xiàn)狀綜述9-10
  • 1.3 論文的組織安排10-11
  • 2 文本信息抽取11-19
  • 2.1 文本信息抽取的含義11-12
  • 2.2 文本信息抽取的發(fā)展12-15
  • 2.3 文本信息抽取的對象15-16
  • 2.4 文本信息抽取系統(tǒng)設(shè)計常用方法16
  • 2.5 文本信息抽取的主要模型16-18
  • 2.6 本章小結(jié)18-19
  • 3 條件隨機(jī)場模型19-27
  • 3.1 條件隨機(jī)場的概念19-22
  • 3.1.1 條件隨機(jī)場的定義19-20
  • 3.1.2 條件隨機(jī)場的數(shù)學(xué)表示20-21
  • 3.1.3 特征函數(shù)選擇21
  • 3.1.4 矩陣描述和計算21-22
  • 3.2 條件隨機(jī)場的參數(shù)估計22-25
  • 3.2.1 極大似然估計22-23
  • 3.2.2 L-BFGS 算法23-24
  • 3.2.3 動態(tài)規(guī)劃24-25
  • 3.3 條件隨機(jī)場的標(biāo)注25-26
  • 3.4 本章小結(jié)26-27
  • 4 基于條件隨機(jī)場模型的科研論文信息分層抽取27-35
  • 4.1 基于條件隨機(jī)場的信息抽取方法27
  • 4.2 傳統(tǒng)抽取方法的特點與不足27-30
  • 4.2.1 基于詞抽取方法的特點27-28
  • 4.2.2 基于塊抽取方法的特點28
  • 4.2.3 傳統(tǒng)抽取方法的不足28-30
  • 4.3 改進(jìn)后的基于條件隨機(jī)場的信息分層抽取方法30-33
  • 4.4 本章小結(jié)33-35
  • 5 實驗與分析35-48
  • 5.1 特征集合35-37
  • 5.1.1 文本特征35
  • 5.1.2 格式特征35-36
  • 5.1.3 外部詞典特征36
  • 5.1.4 狀態(tài)轉(zhuǎn)移特征36-37
  • 5.2 數(shù)據(jù)集和評測標(biāo)準(zhǔn)37
  • 5.2.1 數(shù)據(jù)集37
  • 5.2.2 評測標(biāo)準(zhǔn)37
  • 5.3 系統(tǒng)結(jié)構(gòu)37-45
  • 5.3.1 CRFs 工具37-43
  • 5.3.2 系統(tǒng)框架43-44
  • 5.3.3 模塊說明44-45
  • 5.4 實驗結(jié)果及分析45-47
  • 5.5 本章小結(jié)47-48
  • 6 結(jié)論與展望48-50
  • 6.1 總結(jié)48
  • 6.2 進(jìn)一步工作48-50
  • 致謝50-51
  • 參考文獻(xiàn)51-55
  • 附錄55
  • A. 作者在攻讀碩士學(xué)位期間發(fā)表的論文55
  • B. 作者在攻讀碩士學(xué)位期間所參與的科研課題55

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 于成龍;;中文網(wǎng)頁信息抽取技術(shù)及分類算法研究[J];山東理工大學(xué)學(xué)報(自然科學(xué)版);2011年03期

2 王全劍;李芳;;基于Wikipedia的人名簡歷信息抽取[J];計算機(jī)應(yīng)用與軟件;2011年07期

3 趙玉芹;劉琳;;條件隨機(jī)場在手勢識別中的應(yīng)用研究[J];科技傳播;2011年18期

4 魏晶晶;于然;廖祥文;;基于分隔符的中文論壇信息抽取[J];福建電腦;2011年06期

5 朱莎莎;劉宗田;付劍鋒;朱芳;;基于條件隨機(jī)場的中文時間短語識別[J];計算機(jī)工程;2011年15期

6 張春元;;基于條件隨機(jī)場的文本分類模型[J];計算機(jī)技術(shù)與發(fā)展;2011年07期

7 孫全紅;張貞貞;;基于樹結(jié)構(gòu)的Web表格信息抽取方法[J];華北水利水電學(xué)院學(xué)報;2011年03期

8 于江德;谷川;葛文英;樊孝忠;;一種基于字和子串聯(lián)合標(biāo)注的漢語分詞方法[J];山西大學(xué)學(xué)報(自然科學(xué)版);2011年03期

9 康旭珍;李茹;李雙紅;;框架元素語義核心詞自動識別研究[J];中文信息學(xué)報;2011年04期

10 陽維;張樹恒;王蓮蕓;張素;;基于圖像塊分類器和條件隨機(jī)場的顯微圖像分割[J];計算機(jī)應(yīng)用;2011年08期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 崔欣辰;曲寧;陳青華;;隱馬爾可夫模型在Web信息抽取中的幾點改進(jìn)[A];全國第4屆信號和智能信息處理與應(yīng)用學(xué)術(shù)會議論文集[C];2010年

2 徐薇;付濱;劉柳;苑春法;李文捷;;中文命名實體識別系統(tǒng)的領(lǐng)域擴(kuò)展[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年

3 李紀(jì)華;夏薇;;基于XML的web信息提取方法研究[A];全國高校社科信息資料研究會第六次會員代表大會暨第13次學(xué)術(shù)研討會論文集[C];2010年

4 吳雪軍;朱靖波;王會珍;葉娜;張宇新;;Co-Training的機(jī)器學(xué)習(xí)方法在中文機(jī)構(gòu)名識別中的應(yīng)用[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年

5 代翠;周俏麗;蔡東風(fēng);;統(tǒng)計和規(guī)則相結(jié)合的漢語最長名詞短語自動識別[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年

6 姜吉發(fā);王樹西;;一種自舉的二元關(guān)系獲取方法[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

7 徐林昊;楊文柱;陳少飛;郝亞南;李天柱;;基于XPath的Web信息抽取[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年

8 喬春庚;肖詩斌;孫麗華;施水才;;規(guī)則與統(tǒng)計相結(jié)合的案件名稱識別[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年

9 周國棟;孔芳;朱巧明;;指代消解:國內(nèi)外研究現(xiàn)狀及趨勢[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年

10 徐云風(fēng);蔣文蓉;;Web頁面信息抽取的分析與研究[A];IT服務(wù)促進(jìn)企業(yè)信息化——第十一屆中國Java技術(shù)及應(yīng)用交流大會文集[C];2008年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 史小敏;前景廣闊的信息抽取技術(shù)[N];解放軍報;2004年

2 彭芳;搜索也專業(yè)[N];中國計算機(jī)報;2004年

3 本報記者 王翌;8848:優(yōu)化EC流程[N];計算機(jī)世界;2004年

4 上海交通大學(xué)APEX數(shù)據(jù)和知識管理實驗室 王昊奮邋俞勇;語義Web推動下一代搜索[N];計算機(jī)世界;2007年

5 司靜輝;直擊數(shù)字環(huán)境下情報技術(shù)發(fā)展動向[N];科技日報;2007年

6 董振東;到用戶中去[N];中國計算機(jī)報;2003年

7 張友林 甘肅省武威市涼州區(qū)中醫(yī)院;開發(fā)中醫(yī)專用軟件很有必要[N];中國中醫(yī)藥報;2009年

8 任一鳴;垂直搜索:抓住細(xì)分需求[N];計算機(jī)世界;2007年

9 馬志彥;悄然而至的EIP[N];中國計算機(jī)報;2002年

10 本報記者 于翔;BI:電信業(yè)滲透中[N];網(wǎng)絡(luò)世界;2004年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 黃健斌;基于條件概率圖模型的Deep Web數(shù)據(jù)抽取與集成研究[D];西安電子科技大學(xué);2007年

2 劉亞清;開放式環(huán)境中的本體演化及其在信息抽取的應(yīng)用研究[D];大連海事大學(xué);2011年

3 劉娜;文本自動摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年

4 張素香;信息抽取中關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2007年

5 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年

6 張奇;信息抽取中實體關(guān)系識別研究[D];中國科學(xué)技術(shù)大學(xué);2010年

7 胡國平;基于超大規(guī)模問答對庫和語音界面的非受限領(lǐng)域自動問答系統(tǒng)研究[D];中國科學(xué)技術(shù)大學(xué);2007年

8 余傳明;基于本體的語義信息系統(tǒng)研究[D];武漢大學(xué);2005年

9 錢偉中;基于判別式模型的蛋白質(zhì)互作用文本挖掘技術(shù)研究[D];電子科技大學(xué);2011年

10 張乃洲;實體搜索爬蟲和信息抽取研究[D];武漢大學(xué);2011年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 于亮;科技文獻(xiàn)的文本特征抽取研究與應(yīng)用[D];北京郵電大學(xué);2009年

2 金璐鈺;基于框架的事件抽取關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2010年

3 楊柱;基于DIV標(biāo)簽樹的網(wǎng)頁主題信息抽取方法[D];湖南大學(xué);2010年

4 田紅;表格信息抽取引擎的設(shè)計與實現(xiàn)[D];西北師范大學(xué);2004年

5 楊文柱;基于領(lǐng)域知識和信息抽取的個性化Web查詢系統(tǒng)[D];河北大學(xué);2002年

6 張志強;Web信息抽取技術(shù)研究與基于Web service的實現(xiàn)[D];河北大學(xué);2004年

7 莫凌琳;基于條件隨機(jī)場的科研論文信息分層抽取研究[D];重慶大學(xué);2009年

8 陳蘭;基于ontology的信息抽取系統(tǒng)的研究與實現(xiàn)[D];電子科技大學(xué);2004年

9 孟令謙;基于ontology的中文信息抽取系統(tǒng)的研究與實現(xiàn)[D];電子科技大學(xué);2004年

10 王花;Web信息抽取技術(shù)研究[D];西北農(nóng)林科技大學(xué);2010年

,

本文編號:963648

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/gxjt/963648.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶987eb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
日本不卡在线视频你懂的| 日韩精品人妻少妇一区二区| 国产精品视频一区二区秋霞| 欧美精品久久一二三区| 千仞雪下面好爽好紧好湿全文| 亚洲高清中文字幕一区二三区| 日本人妻精品中文字幕不卡乱码| 日本理论片午夜在线观看| 欧美黑人黄色一区二区| 熟妇人妻av中文字幕老熟妇| 色狠狠一区二区三区香蕉蜜桃| 日韩高清一区二区三区四区| 欧美一区二区三区播放| 久久精视频免费视频观看| 国产内射一级二级三级| 又大又长又粗又黄国产| 亚洲国产成人精品福利| 一区二区三区在线不卡免费| 中国一区二区三区不卡| 日韩欧美一区二区黄色| 欧美一区日韩一区日韩一区| 亚洲欧洲一区二区综合精品| 尤物久久91欧美人禽亚洲| 午夜精品在线视频一区| 蜜桃传媒视频麻豆第一区| 久久午夜福利精品日韩| 后入美臀少妇一区二区| 欧美成人黄色一级视频| 久久精品国产亚洲av麻豆尤物| 国产精品欧美一区二区三区| 国产女性精品一区二区三区| 加勒比东京热拍拍一区二区| 果冻传媒精选麻豆白晶晶| 日本一二三区不卡免费| 亚洲精品国产美女久久久99| 国产女同精品一区二区| 玩弄人妻少妇一区二区桃花| 欧美又黑又粗大又硬又爽| 久久黄片免费播放大全| 99久久人妻中文字幕| 欧美亚洲另类久久久精品|