多神經(jīng)網(wǎng)絡(luò)協(xié)作的軍事領(lǐng)域命名實(shí)體識(shí)別關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2021-10-31 20:48
社交媒體在當(dāng)今人們的日常生活中扮演著重要的角色,從微博等大規(guī)模社交文本中獲得的開(kāi)源軍事情報(bào)成為進(jìn)行軍事研判、軍事動(dòng)向預(yù)測(cè)等多種軍事領(lǐng)域任務(wù)的重要信息來(lái)源。軍事領(lǐng)域命名實(shí)體識(shí)別指從文本識(shí)別出軍事領(lǐng)域相關(guān)的軍事武器裝備、軍事設(shè)施等類別的實(shí)體,是進(jìn)行軍事情報(bào)生成、軍事知識(shí)圖譜構(gòu)建等研究的基礎(chǔ)性關(guān)鍵任務(wù)。針對(duì)社交文本中軍事領(lǐng)域的實(shí)體識(shí)別研究,面臨缺乏軍事領(lǐng)域公開(kāi)語(yǔ)料集和實(shí)體類別劃分策略、實(shí)體邊界不清晰、社交文本表達(dá)不規(guī)范、詞的分布式表達(dá)不充分、實(shí)體識(shí)別模型單一、實(shí)體識(shí)別模型泛化能力弱等問(wèn)題和挑戰(zhàn)。本文面向中文軍事領(lǐng)域中實(shí)體識(shí)別面臨的問(wèn)題和挑戰(zhàn),提出基于多神經(jīng)網(wǎng)絡(luò)協(xié)作的中文軍事領(lǐng)域命名實(shí)體識(shí)別方法,主要的貢獻(xiàn)如下:(1)制定了考慮實(shí)體模糊邊界的實(shí)體標(biāo)注策略和軍事領(lǐng)域?qū)嶓w類別劃分策略;提出基于仲裁方式的語(yǔ)料標(biāo)注和語(yǔ)料質(zhì)量增強(qiáng)方法,提高語(yǔ)料標(biāo)注的準(zhǔn)確性。構(gòu)建了包含20,388個(gè)句子和15,317條微博,包含武器裝備等八個(gè)實(shí)體類別的軍事領(lǐng)域?qū)嶓w語(yǔ)料集MilitaryCorpus,解決了目前缺乏軍事領(lǐng)域公開(kāi)語(yǔ)料集的問(wèn)題,為實(shí)體識(shí)別工作奠定了基礎(chǔ)。(2)構(gòu)建了基于BERT-BiLSTM-CRF的多神經(jīng)網(wǎng)絡(luò)...
【文章來(lái)源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:92 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
全文研究技術(shù)路線
華東師范大學(xué)碩士學(xué)位論文第一章緒論6圖1-2全文研究?jī)?nèi)容本文的研究?jī)?nèi)容和貢獻(xiàn)如下:1)針對(duì)目前研究中缺少面向互聯(lián)網(wǎng)社交文本的軍事領(lǐng)域命名實(shí)體語(yǔ)料集,缺少統(tǒng)一的軍事領(lǐng)域命名實(shí)體分類策略和標(biāo)注策略的問(wèn)題,構(gòu)建一個(gè)基于互聯(lián)網(wǎng)開(kāi)放數(shù)據(jù)的軍事領(lǐng)域命名實(shí)體語(yǔ)料集MilitaryCorpus。該語(yǔ)料集涵蓋微觀軍情、新浪軍事、集結(jié)號(hào)三個(gè)微博帳戶從2013年12月到2018年12月間的21,711條微博[78]。經(jīng)過(guò)數(shù)據(jù)預(yù)處理和針對(duì)語(yǔ)料句子級(jí)別的劃分,結(jié)合領(lǐng)域?qū)<业膶I(yè)意見(jiàn)以及軍事領(lǐng)域相關(guān)文獻(xiàn)的調(diào)研,建立了考慮實(shí)體模糊邊界的實(shí)體標(biāo)注策略,提出軍事領(lǐng)域命名實(shí)體的分類策略,以此指導(dǎo)對(duì)原始語(yǔ)料集進(jìn)行字級(jí)別的標(biāo)注[78]。最終得到含有15,317條微博,共計(jì)20,388個(gè)句子,包含軍事武器裝備、軍事組織與機(jī)構(gòu)、軍事設(shè)施、軍銜或軍職等八個(gè)類別的軍事領(lǐng)域?qū)嶓w語(yǔ)料集MilitaryCorpus[78]。相較于公開(kāi)的數(shù)據(jù)集,MilitaryCorpus語(yǔ)料集以互聯(lián)網(wǎng)社交文本為原始數(shù)據(jù),數(shù)據(jù)集的構(gòu)建過(guò)程中提出面向軍事領(lǐng)域的考慮實(shí)體模糊邊界的實(shí)體標(biāo)注策略和實(shí)體類別劃分策略,為后續(xù)軍事領(lǐng)域命名實(shí)體識(shí)別模型的建立奠定基矗2)不同于作戰(zhàn)文書(shū)、軍事想定文書(shū)等具有規(guī)范格式的文本,互聯(lián)網(wǎng)社交文本具有口語(yǔ)化表達(dá)、簡(jiǎn)化表達(dá)等特點(diǎn),文本具有不規(guī)范性,在含有大量的軍
華東師范大學(xué)碩士學(xué)位論文第三章基于互聯(lián)網(wǎng)開(kāi)放數(shù)據(jù)的軍事領(lǐng)域語(yǔ)料集構(gòu)建21第三章基于互聯(lián)網(wǎng)開(kāi)放數(shù)據(jù)的軍事領(lǐng)域語(yǔ)料集構(gòu)建針對(duì)基于互聯(lián)網(wǎng)社交文本的軍事領(lǐng)域命名實(shí)體語(yǔ)料集缺乏的問(wèn)題,本章介紹基于微博數(shù)據(jù)的軍事領(lǐng)域命名實(shí)體語(yǔ)料集的構(gòu)建工作,圖3-1為技術(shù)路線。原始數(shù)據(jù)來(lái)自新浪微博中新浪軍事、集結(jié)號(hào)、微觀軍情三個(gè)與軍事相關(guān)的微博賬號(hào),通過(guò)解析微博頁(yè)面,編寫(xiě)正則表達(dá)式進(jìn)行數(shù)據(jù)采集。通過(guò)去除數(shù)據(jù)中噪聲和句子級(jí)別劃分的方式進(jìn)行數(shù)據(jù)預(yù)處理,預(yù)處理后的數(shù)據(jù)放置于未標(biāo)注數(shù)據(jù)池中,為語(yǔ)料集的構(gòu)建與擴(kuò)增奠定基矗從未標(biāo)注數(shù)據(jù)池中抽選出部分?jǐn)?shù)據(jù)由標(biāo)注者依據(jù)本文提出的考慮實(shí)體模糊邊界的軍事領(lǐng)域?qū)嶓w標(biāo)注策略進(jìn)行實(shí)體標(biāo)注。同時(shí),為增強(qiáng)語(yǔ)料集的質(zhì)量,本文提出基于仲裁方式的語(yǔ)料集質(zhì)量增強(qiáng)方法,最終構(gòu)建面向軍事領(lǐng)域命名實(shí)體識(shí)別的語(yǔ)料集MilitaryCorpus[78]。圖3-1MilitaryCorpus語(yǔ)料集構(gòu)建技術(shù)路線
【參考文獻(xiàn)】:
期刊論文
[1]多神經(jīng)網(wǎng)絡(luò)協(xié)作的軍事領(lǐng)域命名實(shí)體識(shí)別[J]. 尹學(xué)振,趙慧,趙俊保,姚婉薇,黃澤林. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020(08)
[2]開(kāi)源情報(bào)在中國(guó)國(guó)家安全情報(bào)中的地位和作用分析[J]. 楊建英,余至誠(chéng). 情報(bào)雜志. 2019(10)
[3]結(jié)合主動(dòng)學(xué)習(xí)的條件隨機(jī)場(chǎng)模型用于法律術(shù)語(yǔ)的自動(dòng)識(shí)別[J]. 黃菡,王宏宇,王曉光. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019(06)
[4]基于深度主動(dòng)學(xué)習(xí)的信息安全領(lǐng)域命名實(shí)體識(shí)別研究[J]. 彭嘉毅,方勇,黃誠(chéng),劉亮,姜政偉. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(03)
[5]基于深度學(xué)習(xí)的作戰(zhàn)文書(shū)命名實(shí)體識(shí)別[J]. 張曉海,操新文,高源. 指揮控制與仿真. 2019(04)
[6]基于深度學(xué)習(xí)的軍事命名實(shí)體識(shí)別方法[J]. 王學(xué)鋒,楊若鵬,朱巍. 裝甲兵工程學(xué)院學(xué)報(bào). 2018(04)
[7]基于CNN-BLSTM-CRF模型的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 李麗雙,郭元?jiǎng)P. 中文信息學(xué)報(bào). 2018(01)
[8]基于深度神經(jīng)網(wǎng)絡(luò)的武器名稱識(shí)別[J]. 游飛,張激,邱定,于銘華. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(01)
[9]面向軍事文本的命名實(shí)體識(shí)別[J]. 馮蘊(yùn)天,張宏軍,郝文寧. 計(jì)算機(jī)科學(xué). 2015(07)
[10]主動(dòng)學(xué)習(xí)與自學(xué)習(xí)的中文命名實(shí)體識(shí)別[J]. 鐘志農(nóng),劉方馳,吳燁,伍江江. 國(guó)防科技大學(xué)學(xué)報(bào). 2014(04)
本文編號(hào):3468828
【文章來(lái)源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:92 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
全文研究技術(shù)路線
華東師范大學(xué)碩士學(xué)位論文第一章緒論6圖1-2全文研究?jī)?nèi)容本文的研究?jī)?nèi)容和貢獻(xiàn)如下:1)針對(duì)目前研究中缺少面向互聯(lián)網(wǎng)社交文本的軍事領(lǐng)域命名實(shí)體語(yǔ)料集,缺少統(tǒng)一的軍事領(lǐng)域命名實(shí)體分類策略和標(biāo)注策略的問(wèn)題,構(gòu)建一個(gè)基于互聯(lián)網(wǎng)開(kāi)放數(shù)據(jù)的軍事領(lǐng)域命名實(shí)體語(yǔ)料集MilitaryCorpus。該語(yǔ)料集涵蓋微觀軍情、新浪軍事、集結(jié)號(hào)三個(gè)微博帳戶從2013年12月到2018年12月間的21,711條微博[78]。經(jīng)過(guò)數(shù)據(jù)預(yù)處理和針對(duì)語(yǔ)料句子級(jí)別的劃分,結(jié)合領(lǐng)域?qū)<业膶I(yè)意見(jiàn)以及軍事領(lǐng)域相關(guān)文獻(xiàn)的調(diào)研,建立了考慮實(shí)體模糊邊界的實(shí)體標(biāo)注策略,提出軍事領(lǐng)域命名實(shí)體的分類策略,以此指導(dǎo)對(duì)原始語(yǔ)料集進(jìn)行字級(jí)別的標(biāo)注[78]。最終得到含有15,317條微博,共計(jì)20,388個(gè)句子,包含軍事武器裝備、軍事組織與機(jī)構(gòu)、軍事設(shè)施、軍銜或軍職等八個(gè)類別的軍事領(lǐng)域?qū)嶓w語(yǔ)料集MilitaryCorpus[78]。相較于公開(kāi)的數(shù)據(jù)集,MilitaryCorpus語(yǔ)料集以互聯(lián)網(wǎng)社交文本為原始數(shù)據(jù),數(shù)據(jù)集的構(gòu)建過(guò)程中提出面向軍事領(lǐng)域的考慮實(shí)體模糊邊界的實(shí)體標(biāo)注策略和實(shí)體類別劃分策略,為后續(xù)軍事領(lǐng)域命名實(shí)體識(shí)別模型的建立奠定基矗2)不同于作戰(zhàn)文書(shū)、軍事想定文書(shū)等具有規(guī)范格式的文本,互聯(lián)網(wǎng)社交文本具有口語(yǔ)化表達(dá)、簡(jiǎn)化表達(dá)等特點(diǎn),文本具有不規(guī)范性,在含有大量的軍
華東師范大學(xué)碩士學(xué)位論文第三章基于互聯(lián)網(wǎng)開(kāi)放數(shù)據(jù)的軍事領(lǐng)域語(yǔ)料集構(gòu)建21第三章基于互聯(lián)網(wǎng)開(kāi)放數(shù)據(jù)的軍事領(lǐng)域語(yǔ)料集構(gòu)建針對(duì)基于互聯(lián)網(wǎng)社交文本的軍事領(lǐng)域命名實(shí)體語(yǔ)料集缺乏的問(wèn)題,本章介紹基于微博數(shù)據(jù)的軍事領(lǐng)域命名實(shí)體語(yǔ)料集的構(gòu)建工作,圖3-1為技術(shù)路線。原始數(shù)據(jù)來(lái)自新浪微博中新浪軍事、集結(jié)號(hào)、微觀軍情三個(gè)與軍事相關(guān)的微博賬號(hào),通過(guò)解析微博頁(yè)面,編寫(xiě)正則表達(dá)式進(jìn)行數(shù)據(jù)采集。通過(guò)去除數(shù)據(jù)中噪聲和句子級(jí)別劃分的方式進(jìn)行數(shù)據(jù)預(yù)處理,預(yù)處理后的數(shù)據(jù)放置于未標(biāo)注數(shù)據(jù)池中,為語(yǔ)料集的構(gòu)建與擴(kuò)增奠定基矗從未標(biāo)注數(shù)據(jù)池中抽選出部分?jǐn)?shù)據(jù)由標(biāo)注者依據(jù)本文提出的考慮實(shí)體模糊邊界的軍事領(lǐng)域?qū)嶓w標(biāo)注策略進(jìn)行實(shí)體標(biāo)注。同時(shí),為增強(qiáng)語(yǔ)料集的質(zhì)量,本文提出基于仲裁方式的語(yǔ)料集質(zhì)量增強(qiáng)方法,最終構(gòu)建面向軍事領(lǐng)域命名實(shí)體識(shí)別的語(yǔ)料集MilitaryCorpus[78]。圖3-1MilitaryCorpus語(yǔ)料集構(gòu)建技術(shù)路線
【參考文獻(xiàn)】:
期刊論文
[1]多神經(jīng)網(wǎng)絡(luò)協(xié)作的軍事領(lǐng)域命名實(shí)體識(shí)別[J]. 尹學(xué)振,趙慧,趙俊保,姚婉薇,黃澤林. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020(08)
[2]開(kāi)源情報(bào)在中國(guó)國(guó)家安全情報(bào)中的地位和作用分析[J]. 楊建英,余至誠(chéng). 情報(bào)雜志. 2019(10)
[3]結(jié)合主動(dòng)學(xué)習(xí)的條件隨機(jī)場(chǎng)模型用于法律術(shù)語(yǔ)的自動(dòng)識(shí)別[J]. 黃菡,王宏宇,王曉光. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019(06)
[4]基于深度主動(dòng)學(xué)習(xí)的信息安全領(lǐng)域命名實(shí)體識(shí)別研究[J]. 彭嘉毅,方勇,黃誠(chéng),劉亮,姜政偉. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(03)
[5]基于深度學(xué)習(xí)的作戰(zhàn)文書(shū)命名實(shí)體識(shí)別[J]. 張曉海,操新文,高源. 指揮控制與仿真. 2019(04)
[6]基于深度學(xué)習(xí)的軍事命名實(shí)體識(shí)別方法[J]. 王學(xué)鋒,楊若鵬,朱巍. 裝甲兵工程學(xué)院學(xué)報(bào). 2018(04)
[7]基于CNN-BLSTM-CRF模型的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 李麗雙,郭元?jiǎng)P. 中文信息學(xué)報(bào). 2018(01)
[8]基于深度神經(jīng)網(wǎng)絡(luò)的武器名稱識(shí)別[J]. 游飛,張激,邱定,于銘華. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(01)
[9]面向軍事文本的命名實(shí)體識(shí)別[J]. 馮蘊(yùn)天,張宏軍,郝文寧. 計(jì)算機(jī)科學(xué). 2015(07)
[10]主動(dòng)學(xué)習(xí)與自學(xué)習(xí)的中文命名實(shí)體識(shí)別[J]. 鐘志農(nóng),劉方馳,吳燁,伍江江. 國(guó)防科技大學(xué)學(xué)報(bào). 2014(04)
本文編號(hào):3468828
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3468828.html
最近更新
教材專著