《史記》歷史事件自動抽取與事理圖譜構(gòu)建研究
發(fā)布時間:2021-11-15 16:14
[目的/意義]《史記》是我國第一部紀(jì)傳體史書,幾乎囊括黃帝時代到漢武帝元狩元年3 000多年的重大歷史事件。如何快速準(zhǔn)確地發(fā)現(xiàn)這些歷史事件及其之間的內(nèi)在聯(lián)系,對于透過歷史現(xiàn)象、揭示歷史實質(zhì)以及發(fā)現(xiàn)歷史規(guī)律具有重要意義。[方法/過程]在BERT模型和LSTM-CRF模型的基礎(chǔ)上,提出面向《史記》的歷史事件及其組成元素抽取方法,并基于此構(gòu)建《史記》事理圖譜。[結(jié)果/結(jié)論]實驗結(jié)果表明,利用所提方法抽取歷史事件及其組成元素的F1值分別達到0.823和0.760。通過事理圖譜能夠發(fā)現(xiàn)蘊含在《史記》中鮮為人知的知識,這為文獻學(xué)、歷史學(xué)、社會學(xué)等領(lǐng)域?qū)<议_展研究提供必要的資料準(zhǔn)備。
【文章來源】:圖書情報工作. 2020,64(11)北大核心CSSCI
【文章頁數(shù)】:9 頁
【部分圖文】:
歷史事件及其組成元素抽取框架
BERT模型利用Transformer雙向編碼表示,通過引入自注意力機制,能夠更好地描述歷史事件上下文的語義特征。該模型有效地解決了傳統(tǒng)向量表示方法由于對歷史信息過分依賴而出現(xiàn)的“一詞多義”的問題,圖2給出了BERT模型的整體結(jié)構(gòu)。利用BERT模型對實驗語料集進行向量化表示的基本流程具體如下:首先,依次將語料集中的每個句子輸入模型;接著,將輸入的句子表示為由字向量、句向量和位置向量組成的輸入向量Ei(i=1,2,…,n);然后,利用多層Transformer(圖2中簡寫為Trm)對語料經(jīng)特征提取后生成特征向量Ti(i=1,2,…,n)。4.2 BiLSTM-CRF模型
圖3給出BiLSTM-CRF模型的整體結(jié)構(gòu)。利用BiLSTM-CRF模型對實驗語料集進行歷史事件抽取的基本流程具體如下:首先,將BERT模型得到的特征向量Ti(i=1,2,…,n)輸入模型;然后,利用BiLSTM模型學(xué)習(xí)特征向量之間的語義關(guān)系,并為每個特征向量打上相應(yīng)的歷史事件標(biāo)簽;最后,根據(jù)CRF的約束規(guī)則分析歷史事件關(guān)系標(biāo)簽之間的語義關(guān)系,進而得到歷史事件抽取結(jié)果。5 實驗設(shè)計和實驗結(jié)果分析
【參考文獻】:
期刊論文
[1]基于網(wǎng)絡(luò)科技信息的事件抽取研究[J]. 劉振. 情報科學(xué). 2018(09)
[2]中文事件抽取研究文獻之算法效果分析[J]. 吉久明,陳錦輝,李楠,孫濟慶. 現(xiàn)代情報. 2015(12)
[3]基于事件實例驅(qū)動的新聞文本事件抽取[J]. 許旭陽,李弼程,張先飛,韓永峰. 計算機科學(xué). 2011(08)
[4]基于知網(wǎng)的中文事件抽取研究[J]. 許君寧,董萍,劉懷亮. 情報雜志. 2009(S2)
[5]一種事件信息抽取模式獲取方法[J]. 姜吉發(fā). 計算機工程. 2005(15)
本文編號:3497109
【文章來源】:圖書情報工作. 2020,64(11)北大核心CSSCI
【文章頁數(shù)】:9 頁
【部分圖文】:
歷史事件及其組成元素抽取框架
BERT模型利用Transformer雙向編碼表示,通過引入自注意力機制,能夠更好地描述歷史事件上下文的語義特征。該模型有效地解決了傳統(tǒng)向量表示方法由于對歷史信息過分依賴而出現(xiàn)的“一詞多義”的問題,圖2給出了BERT模型的整體結(jié)構(gòu)。利用BERT模型對實驗語料集進行向量化表示的基本流程具體如下:首先,依次將語料集中的每個句子輸入模型;接著,將輸入的句子表示為由字向量、句向量和位置向量組成的輸入向量Ei(i=1,2,…,n);然后,利用多層Transformer(圖2中簡寫為Trm)對語料經(jīng)特征提取后生成特征向量Ti(i=1,2,…,n)。4.2 BiLSTM-CRF模型
圖3給出BiLSTM-CRF模型的整體結(jié)構(gòu)。利用BiLSTM-CRF模型對實驗語料集進行歷史事件抽取的基本流程具體如下:首先,將BERT模型得到的特征向量Ti(i=1,2,…,n)輸入模型;然后,利用BiLSTM模型學(xué)習(xí)特征向量之間的語義關(guān)系,并為每個特征向量打上相應(yīng)的歷史事件標(biāo)簽;最后,根據(jù)CRF的約束規(guī)則分析歷史事件關(guān)系標(biāo)簽之間的語義關(guān)系,進而得到歷史事件抽取結(jié)果。5 實驗設(shè)計和實驗結(jié)果分析
【參考文獻】:
期刊論文
[1]基于網(wǎng)絡(luò)科技信息的事件抽取研究[J]. 劉振. 情報科學(xué). 2018(09)
[2]中文事件抽取研究文獻之算法效果分析[J]. 吉久明,陳錦輝,李楠,孫濟慶. 現(xiàn)代情報. 2015(12)
[3]基于事件實例驅(qū)動的新聞文本事件抽取[J]. 許旭陽,李弼程,張先飛,韓永峰. 計算機科學(xué). 2011(08)
[4]基于知網(wǎng)的中文事件抽取研究[J]. 許君寧,董萍,劉懷亮. 情報雜志. 2009(S2)
[5]一種事件信息抽取模式獲取方法[J]. 姜吉發(fā). 計算機工程. 2005(15)
本文編號:3497109
本文鏈接:http://sikaile.net/shekelunwen/zhongguolishiwenhua/3497109.html