基于深度學(xué)習(xí)的古籍詞法分析研究
發(fā)布時間:2022-01-06 04:25
隨著人工智能時代的到來,古籍信息處理研究受到了越來越多的關(guān)注。詞法分析主要指對句子進行自動分詞、詞性標(biāo)注和命名實體識別三大子任務(wù),詞法分析工作是古籍信息處理的基礎(chǔ),不經(jīng)過高精度詞法分析的古籍,難以進行深層次的信息處理工作。長期以來,古籍的詞法分析受技術(shù)手段、標(biāo)注資源的限制,研究進展較現(xiàn)代漢語顯得頗為遲滯。本文研究重點在于將深度學(xué)習(xí)方法應(yīng)用于古籍的自動斷句、詞法分析中以構(gòu)建古籍自動標(biāo)注平臺,具體包括以下幾個方面:第一,本文將深度學(xué)習(xí)中的LSTM-CRF這一模型結(jié)構(gòu)運用到古籍詞法分析中。使用文淵閣版《四庫全書》訓(xùn)練字向量,在盡量覆蓋更多古文字的基礎(chǔ)上提升模型效果。以《左傳》前十卷為訓(xùn)練語料,后兩卷為測試語料,使用一體化詞法分析方法同時得到分詞、詞性標(biāo)注、命名實體識別的結(jié)果。實驗結(jié)果為分詞調(diào)和平均值94.81%,詞性標(biāo)注90.21%,人名實體識別82.79%,地名實體識別82.49%。經(jīng)十折交叉驗證法進一步驗證了模型的效果,并經(jīng)進一步的實驗發(fā)現(xiàn),如果將詞性信息去除,命名實體識別的精度會略有提升。第二,設(shè)計制作了古籍專名信息詞典數(shù)據(jù)庫。對多部古籍資源中的數(shù)據(jù)進行梳理、整合,將不同來源、不同的數(shù)...
【文章來源】:南京師范大學(xué)江蘇省 211工程院校
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.2?Bi-LSTM-CRF模型結(jié)構(gòu)圖??2.5.3帶有膨脹卷積核的卷積神經(jīng)網(wǎng)絡(luò)簡介??在序列標(biāo)注相關(guān)任務(wù)中,取得最好效果的往往是SchmidhubeH21l提出的長短??
?第2章相關(guān)研宂綜述???〇?〇?〇?〇?〇?o^gjKQO?〇?〇?〇?〇?〇??o?o?ojcJo?°?°??圖2.3四層ID卷積網(wǎng)絡(luò)的膨脹卷積核??26??
?第3章--體化詞法分析???句子又較短,給自動標(biāo)注的精度帶來很大挑戰(zhàn)!蹲髠鳌罚?有20514個人名和地??名實體,共4819個詞型,其中可選標(biāo)簽超過2個的詞W?707個,占14.67%。很??多單字詞既有可能是實體,又有可能充當(dāng)其他很多詞性成分。??《左傳》共3341個字型,不同標(biāo)簽數(shù)量的字符頻率分布如圖3.1所示:??30?^??25?-??20?-?!??18?26%??^?丨丨??紫?15?■?|??|?12?.36\??^?_10.21%??1〇?I?I??目?|?_?6.05S??■?■?■?^?4言%3.29S2?57S??0???■華■■擊■?_?故??1?2?3?4?5?6?7?8?9?1〇?11?12?13?14?15?16?17?18?19??標(biāo)薟個數(shù)??圖3.1?不同標(biāo)簽數(shù)量的字符分布圖??可以看出,多數(shù)字符都含有多個候選標(biāo)簽,5個標(biāo)簽以上的卞?符約占30%,也有極個別??字符的標(biāo)記數(shù)量達到15個以上,這無疑加劇了古漢語詞法分析的凼難程度。我們將候選標(biāo)??簽數(shù)量最多的10個字符及其標(biāo)簽種類以及字符總頻次如表3.1所。??28??
【參考文獻】:
期刊論文
[1]古文信息處理研究的現(xiàn)狀及趨勢[J]. 黃水清,王東波. 圖書情報工作. 2017(12)
[2]基于多特征知識的先秦典籍詞性自動標(biāo)注研究[J]. 王東波,黃水清,何琳. 圖書情報工作. 2017(12)
[3]基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實體識別[J]. 張海楠,伍大勇,劉悅,程學(xué)旗. 中文信息學(xué)報. 2017(04)
[4]基于CRFs和詞典信息的中古漢語自動分詞[J]. 王曉玉,李斌. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(05)
[5]基于深度學(xué)習(xí)的中文機構(gòu)名識別研究——一種漢字級別的循環(huán)神經(jīng)網(wǎng)絡(luò)方法[J]. 朱丹浩,楊蕾,王東波. 現(xiàn)代圖書情報技術(shù). 2016(12)
[6]一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的古文斷句方法[J]. 王博立,史曉東,蘇勁松. 北京大學(xué)學(xué)報(自然科學(xué)版). 2017(02)
[7]基于多特征條件隨機場的《金匱要略》癥狀藥物信息抽取研究[J]. 葉輝,姬東鴻. 中國中醫(yī)藥圖書情報雜志. 2016(05)
[8]基于深度信念網(wǎng)絡(luò)的命名實體識別[J]. 馮蘊天,張宏軍,郝文寧,陳剛. 計算機科學(xué). 2016(04)
[9]基于CRF的古漢語分詞標(biāo)注模型研究[J]. 嚴(yán)順. 江蘇科技信息. 2016(08)
[10]基于《方志物產(chǎn)》的古籍知識組織路徑探析[J]. 李娜,白振田,包平. 古今農(nóng)業(yè). 2016(01)
博士論文
[1]基于動態(tài)流通語料庫的現(xiàn)代漢語基本詞匯自動識別與提取方法研究[D]. 趙小兵.北京語言大學(xué) 2007
[2]統(tǒng)計中文詞法分析及其強化學(xué)習(xí)機制的研究[D]. 姜維.哈爾濱工業(yè)大學(xué) 2007
碩士論文
[1]基于條件隨機場的音樂領(lǐng)域命名實體識別[D]. 郝樂川.哈爾濱工業(yè)大學(xué) 2012
[2]基于CRF的古籍地名自動識別研究[D]. 王錚.廣西民族大學(xué) 2008
[3]基于條件隨機場的中文命名實體識別[D]. 向曉雯.廈門大學(xué) 2006
本文編號:3571727
【文章來源】:南京師范大學(xué)江蘇省 211工程院校
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.2?Bi-LSTM-CRF模型結(jié)構(gòu)圖??2.5.3帶有膨脹卷積核的卷積神經(jīng)網(wǎng)絡(luò)簡介??在序列標(biāo)注相關(guān)任務(wù)中,取得最好效果的往往是SchmidhubeH21l提出的長短??
?第2章相關(guān)研宂綜述???〇?〇?〇?〇?〇?o^gjKQO?〇?〇?〇?〇?〇??o?o?ojcJo?°?°??圖2.3四層ID卷積網(wǎng)絡(luò)的膨脹卷積核??26??
?第3章--體化詞法分析???句子又較短,給自動標(biāo)注的精度帶來很大挑戰(zhàn)!蹲髠鳌罚?有20514個人名和地??名實體,共4819個詞型,其中可選標(biāo)簽超過2個的詞W?707個,占14.67%。很??多單字詞既有可能是實體,又有可能充當(dāng)其他很多詞性成分。??《左傳》共3341個字型,不同標(biāo)簽數(shù)量的字符頻率分布如圖3.1所示:??30?^??25?-??20?-?!??18?26%??^?丨丨??紫?15?■?|??|?12?.36\??^?_10.21%??1〇?I?I??目?|?_?6.05S??■?■?■?^?4言%3.29S2?57S??0???■華■■擊■?_?故??1?2?3?4?5?6?7?8?9?1〇?11?12?13?14?15?16?17?18?19??標(biāo)薟個數(shù)??圖3.1?不同標(biāo)簽數(shù)量的字符分布圖??可以看出,多數(shù)字符都含有多個候選標(biāo)簽,5個標(biāo)簽以上的卞?符約占30%,也有極個別??字符的標(biāo)記數(shù)量達到15個以上,這無疑加劇了古漢語詞法分析的凼難程度。我們將候選標(biāo)??簽數(shù)量最多的10個字符及其標(biāo)簽種類以及字符總頻次如表3.1所。??28??
【參考文獻】:
期刊論文
[1]古文信息處理研究的現(xiàn)狀及趨勢[J]. 黃水清,王東波. 圖書情報工作. 2017(12)
[2]基于多特征知識的先秦典籍詞性自動標(biāo)注研究[J]. 王東波,黃水清,何琳. 圖書情報工作. 2017(12)
[3]基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實體識別[J]. 張海楠,伍大勇,劉悅,程學(xué)旗. 中文信息學(xué)報. 2017(04)
[4]基于CRFs和詞典信息的中古漢語自動分詞[J]. 王曉玉,李斌. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(05)
[5]基于深度學(xué)習(xí)的中文機構(gòu)名識別研究——一種漢字級別的循環(huán)神經(jīng)網(wǎng)絡(luò)方法[J]. 朱丹浩,楊蕾,王東波. 現(xiàn)代圖書情報技術(shù). 2016(12)
[6]一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的古文斷句方法[J]. 王博立,史曉東,蘇勁松. 北京大學(xué)學(xué)報(自然科學(xué)版). 2017(02)
[7]基于多特征條件隨機場的《金匱要略》癥狀藥物信息抽取研究[J]. 葉輝,姬東鴻. 中國中醫(yī)藥圖書情報雜志. 2016(05)
[8]基于深度信念網(wǎng)絡(luò)的命名實體識別[J]. 馮蘊天,張宏軍,郝文寧,陳剛. 計算機科學(xué). 2016(04)
[9]基于CRF的古漢語分詞標(biāo)注模型研究[J]. 嚴(yán)順. 江蘇科技信息. 2016(08)
[10]基于《方志物產(chǎn)》的古籍知識組織路徑探析[J]. 李娜,白振田,包平. 古今農(nóng)業(yè). 2016(01)
博士論文
[1]基于動態(tài)流通語料庫的現(xiàn)代漢語基本詞匯自動識別與提取方法研究[D]. 趙小兵.北京語言大學(xué) 2007
[2]統(tǒng)計中文詞法分析及其強化學(xué)習(xí)機制的研究[D]. 姜維.哈爾濱工業(yè)大學(xué) 2007
碩士論文
[1]基于條件隨機場的音樂領(lǐng)域命名實體識別[D]. 郝樂川.哈爾濱工業(yè)大學(xué) 2012
[2]基于CRF的古籍地名自動識別研究[D]. 王錚.廣西民族大學(xué) 2008
[3]基于條件隨機場的中文命名實體識別[D]. 向曉雯.廈門大學(xué) 2006
本文編號:3571727
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3571727.html
最近更新
教材專著