無結(jié)構(gòu)化文本中事件的時(shí)空信息抽取方法研究
本文選題:混合雙向隱馬爾科夫模型 + 信息抽取 ; 參考:《山東師范大學(xué)》2017年碩士論文
【摘要】:隨著網(wǎng)絡(luò)信息時(shí)代的高速發(fā)展,文本信息在網(wǎng)絡(luò)上的數(shù)量越來越多,并且其數(shù)量正在以不可估計(jì)的速度增加。面對數(shù)量如此巨大的網(wǎng)絡(luò)文本信息,如何從中獲得對用戶有用的信息是當(dāng)今社會研究的一個(gè)熱門話題。為了方便用戶從大量的信息源中快速的獲取用戶所需要的信息,獲取信息的各種方法正逐漸被人們探究出來。通常,提到信息抽取就會說到信息檢索,兩者相互聯(lián)系、相互補(bǔ)充。信息檢索所包含的范圍比較大,主要包括文檔的搜索、辨別、聚類等各種技術(shù),利用這些技術(shù)可以方便用戶在大量的文本集中找到所需的文檔。但是,信息抽取技術(shù)與信息檢索不同,它是為方便用戶從某類相關(guān)的文檔中尋找更加細(xì)致的信息,如,命名實(shí)體、事件信息、時(shí)間信息等,這些精細(xì)信息使用戶對信息抽取的需求越來越高,同時(shí)這些精細(xì)信息的顯性化、格式化,大大方便了專家學(xué)者對于某領(lǐng)域內(nèi)的研究和應(yīng)用。信息抽取是將自然語言文本中無序的信息通過一定的技術(shù)和方法,條理的輸出具有一定格式的信息。近幾年,信息抽取的范圍不斷擴(kuò)大,關(guān)于事件的信息抽取研究也越來越被關(guān)注,技術(shù)上也多種多樣,總體而言,基于統(tǒng)計(jì)的技術(shù)和機(jī)器學(xué)習(xí)的方法在信息抽取方面發(fā)揮著重要的作用。本文研究了混合雙向隱馬爾科夫模型以及與其相關(guān)的主要算法;評估中的向前算法;模型的學(xué)習(xí)中用來對訓(xùn)練樣本進(jìn)行標(biāo)記的極大似然算法和用來對訓(xùn)練樣本進(jìn)行部分標(biāo)記的算法;解碼中的Viterbi算法。重點(diǎn)討論了HMM在無結(jié)構(gòu)化文本中信息抽取中的應(yīng)用,建立了基于混合雙向HMM的時(shí)空抽取模型。通過封閉測試和開放測試對抽取后的數(shù)據(jù)進(jìn)行對比和分析,證明對HMM模型的改進(jìn)方法是有效的。本文的主要研究內(nèi)容包含下列四個(gè)方面:1)事件時(shí)空信息的結(jié)構(gòu)化表達(dá)。概括分析中文文本中事件的時(shí)空信息的語言特點(diǎn)和語義構(gòu)成之后,建立了事件的時(shí)空信息標(biāo)注體系和識別模型;以鳥類分布特征的研究為例,以CNKI中的文獻(xiàn)元數(shù)據(jù)為主要數(shù)據(jù)源,建立了無結(jié)構(gòu)化文本中時(shí)空信息的標(biāo)記方法,為接下來的時(shí)空信息的研究提供相對標(biāo)準(zhǔn)化的訓(xùn)練文本和測試文本。2)時(shí)空信息抽取。通過剖析漢語文本中時(shí)間信息表述的一般特點(diǎn),采用了時(shí)間字典和自定義規(guī)則相結(jié)合的時(shí)間實(shí)體推測和標(biāo)準(zhǔn)化表示,利用基于混合隱馬爾科夫模型的標(biāo)注方法,實(shí)現(xiàn)了某特定事件的時(shí)空信息識別。3)事件時(shí)空信息匹配與可視化。以識別出的時(shí)空信息為研究對象,討論了特定事件的時(shí)空信息的配對方法并將時(shí)空對進(jìn)行直觀表示,通過聚類分析將特定事件的時(shí)空過程進(jìn)行重構(gòu),將事件的時(shí)空信息有機(jī)、直觀的展現(xiàn)在地圖上。4)時(shí)空信息的應(yīng)用。將鳥類的分布特征及時(shí)空變化展現(xiàn)在地圖上,為鳥類愛好著和鳥類專家提供有價(jià)值的信息,實(shí)現(xiàn)科學(xué)預(yù)測,為社會提供鳥情方面的有力信息支持。時(shí)空信息的研究也可在其他領(lǐng)域運(yùn)用,如:地籍管理、智能交通和國防軍事等領(lǐng)域。
[Abstract]:In recent years , information extraction is a hot topic in the study of information . In recent years , information extraction is a hot topic for information extraction . The space - time information of a certain event is identified as the research object , the time - space information of the specific event is reconstructed , the space - time information of the event is reconstructed , the space - time information of the event is displayed on the map , and the space - time information of the event is displayed on the map .
【學(xué)位授予單位】:山東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 杜秋霞;王洪國;邵增珍;付鑫;劉衍民;;基于混合HMM的文獻(xiàn)元數(shù)據(jù)地名抽取方法研究[J];計(jì)算機(jī)與數(shù)字工程;2017年01期
2 劉紹毓;李弼程;郭志剛;王波;陳剛;;實(shí)體關(guān)系抽取研究綜述[J];信息工程大學(xué)學(xué)報(bào);2016年05期
3 周玉新;;命名實(shí)體識別研究發(fā)展綜述[J];科技風(fēng);2016年16期
4 高源;席耀一;李弼程;李蘇奕;;基于詞典特征優(yōu)化和依存關(guān)系的中文時(shí)間表達(dá)式識別[J];信息工程大學(xué)學(xué)報(bào);2016年04期
5 甘麗新;萬常選;劉德喜;鐘青;江騰蛟;;基于句法語義特征的中文實(shí)體關(guān)系抽取[J];計(jì)算機(jī)研究與發(fā)展;2016年02期
6 陳基;;命名實(shí)體識別綜述[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2016年03期
7 馮蘊(yùn)天;張宏軍;郝文寧;;面向軍事文本的命名實(shí)體識別[J];計(jì)算機(jī)科學(xué);2015年07期
8 黃水清;王東波;何琳;;基于先秦語料庫的古漢語地名自動識別模型構(gòu)建研究[J];圖書情報(bào)工作;2015年12期
9 閆紫飛;姬東鴻;;基于CRF和半監(jiān)督學(xué)習(xí)的中文時(shí)間信息抽取[J];計(jì)算機(jī)工程與設(shè)計(jì);2015年06期
10 李風(fēng)環(huán);鄭德權(quán);趙鐵軍;;基于淺層語義分析的主題事件的時(shí)間識別[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2015年11期
相關(guān)博士學(xué)位論文 前1條
1 張春菊;中文文本中事件時(shí)空與屬性信息解析方法研究[D];南京師范大學(xué);2013年
相關(guān)碩士學(xué)位論文 前7條
1 孔兵;中文文本實(shí)體關(guān)系抽取方法研究[D];哈爾濱工業(yè)大學(xué);2016年
2 吳瓊;中文時(shí)間表達(dá)式自動識別的研究[D];大連理工大學(xué);2015年
3 程志剛;基于規(guī)則和條件隨機(jī)場的中文命名實(shí)體識別方法研究[D];華中師范大學(xué);2015年
4 張妍;基于隱馬爾可夫模型的中文信息抽取算法研究[D];遼寧科技大學(xué);2014年
5 孫虹;中文地名識別研究[D];太原理工大學(xué);2013年
6 溫艷霞;中文時(shí)間規(guī)范化方法研究[D];山西大學(xué);2010年
7 富衛(wèi)軍;中文信息抽取關(guān)鍵技術(shù)及應(yīng)用研究[D];北京郵電大學(xué);2010年
,本文編號:1876011
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1876011.html