天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的中文影視劇本命名實(shí)體識(shí)別研究

發(fā)布時(shí)間:2021-07-08 09:08
  隨著互聯(lián)網(wǎng)的迅速發(fā)展,人們已經(jīng)形成隨時(shí)隨地瀏覽信息和觀看影視的習(xí)慣。影視行業(yè)的快速發(fā)展,激發(fā)了劇本創(chuàng)作者的創(chuàng)作熱情,而劇本的增多,給劇本審核人員帶來了巨大的挑戰(zhàn)。準(zhǔn)確識(shí)別中文影視劇本的命名實(shí)體幫助篩選出劇本中具體的人名、地名和機(jī)構(gòu)名,為審核人員審核劇本提供了便捷。中文影視劇本人物對(duì)話較多,而大部分人物對(duì)話冒號(hào)前都為人名,本文根據(jù)中文影視劇本的寫作特點(diǎn),提出了基于規(guī)則的中文影視劇本的人名識(shí)別方法。通過基于規(guī)則的方法識(shí)別出冒號(hào)前的文本,并分析是否為人名,在《士兵突擊》劇本上進(jìn)行實(shí)驗(yàn),得到97.47%的準(zhǔn)確率,55.49%的召回率,70.72%的F值。中文影視劇本人物之間的對(duì)白偏向生活化以及口語化,使用較多的停止詞。根據(jù)此特點(diǎn),作者提出了融合去停止詞的Bi-LSTM-CRF中文影視劇本的命名實(shí)體識(shí)別方法。首先去除劇本中的停止詞,其次使用Bi-LSTM-CRF的方法識(shí)別命名實(shí)體。在“士兵突擊”語料上的實(shí)驗(yàn)結(jié)果表明,融合去停止詞的Bi-LSTM-CRF方法相比基于規(guī)則的方法在人名識(shí)別方面F值提升了26.67%,相比基于字級(jí)別的Bi-LSTM方法在人名,地名和機(jī)構(gòu)名整體方面F值提升了19.04%。... 

【文章來源】:西安建筑科技大學(xué)陜西省

【文章頁數(shù)】:60 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于深度學(xué)習(xí)的中文影視劇本命名實(shí)體識(shí)別研究


MEM模型概率圖分布

模型圖,概率,模型,有向圖


西安建筑科技大學(xué)碩士論文10xZ是規(guī)范化因子,其求和是在所有可能的輸出序列上求和,k和lu為轉(zhuǎn)移函數(shù)和狀態(tài)函數(shù)對(duì)應(yīng)的權(quán)值。使用CRF做命名實(shí)體識(shí)別時(shí),目標(biāo)是求xyPy|maxarg,與HMM一樣采用Viterbi算法。2.2.4三種模型比較如圖2.2所示,MEM模型是一個(gè)有向圖模型,可以使用任何復(fù)雜的相關(guān)特征,但是,每個(gè)詞都是分開分類的,并且不能充分利用標(biāo)簽之間的關(guān)系。圖2.2MEM模型概率圖分布并且具有馬爾可夫鏈的HMM模型可以建立標(biāo)記之間的馬爾科夫相關(guān)性,如圖所示:圖2.3HMM模型概率圖分布從圖2.3可以看出HMM是一個(gè)有向圖,而線性鏈CRF是一個(gè)無向圖,如圖2.4所示。因此HMM在處理的時(shí)候,每個(gè)狀態(tài)取決于先前狀態(tài),并且線性鏈CRF取決于當(dāng)前狀態(tài)的周圍結(jié)點(diǎn)的狀態(tài)。

模型圖,概率,模型,詞語


西安建筑科技大學(xué)碩士論文11圖2.4CRF模型概率圖分布應(yīng)用于中文命名實(shí)體識(shí)別的CRF模型定義了各種特征模板。它為命名實(shí)體識(shí)別提供了靈活且全局最優(yōu)的標(biāo)注框架。CRF模型在相同特征集下具有比其他概率模型更好的性能。但是,存在收斂速度慢且訓(xùn)練時(shí)間長的問題。同樣,通常HMM模型在訓(xùn)練和識(shí)別時(shí)方面更快,主要是因?yàn)槭褂肰iterbi算法解決命名實(shí)體類別序列的效率更高。但是實(shí)體標(biāo)注主要面臨未知詞標(biāo)注的問題,傳統(tǒng)HMM不易整合新的特征。MEM模型結(jié)構(gòu)緊湊,具有較好的通用性,它的每個(gè)狀態(tài)都有一個(gè)概率模型,狀態(tài)轉(zhuǎn)移時(shí)要?dú)w一化這個(gè)概率模型。如果只有一個(gè)后續(xù)狀態(tài),則從此狀態(tài)跳轉(zhuǎn)到后續(xù)狀態(tài)的概率為1。而CRF在所有的狀態(tài)上建立了統(tǒng)一的概率模型,即使某個(gè)狀態(tài)只有一個(gè)后續(xù)狀態(tài),在進(jìn)行歸一化時(shí),該狀態(tài)到后續(xù)狀態(tài)的轉(zhuǎn)移概率也不為1,從而解決了標(biāo)簽偏置問題。因此,從理論上講,CRF比MEM和HMM更適用于中文命名實(shí)體識(shí)別。2.2.5統(tǒng)計(jì)學(xué)模型的瓶頸與困難分析基于統(tǒng)計(jì)學(xué)的方法主要使用標(biāo)注的語料庫來訓(xùn)練字或者詞作為命名實(shí)體組成部分的概率,并使用它們來計(jì)算候選字段作為命名實(shí)體的概率值。對(duì)于HMM,CRF等統(tǒng)計(jì)學(xué)模型,都是假設(shè)當(dāng)前的狀態(tài)只與前面的狀態(tài)相關(guān),而與更前面或者后面的狀態(tài)無關(guān),這種假設(shè)不符合實(shí)際的句子序列。例如:“吳哲開始利索地操作通訊設(shè)備和他的臂攜電腦”,“他”表示的是“吳哲”,但是由于“他”與“吳哲”距離較遠(yuǎn),用HMM和CRF模型并不一定能對(duì)該句子進(jìn)行有效的描述。傳統(tǒng)的統(tǒng)計(jì)學(xué)模型預(yù)測當(dāng)前缺失的詞語時(shí),只會(huì)考慮到該詞語之前的詞語,而不會(huì)考慮到之后的詞語,但是在實(shí)際應(yīng)用中,預(yù)測句子中缺失的詞語時(shí),則需

【參考文獻(xiàn)】:
期刊論文
[1]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦穎,曾穎菲.  Journal of Shanghai Jiaotong University(Science). 2018(03)
[2]基于深度學(xué)習(xí)的漁業(yè)領(lǐng)域命名實(shí)體識(shí)別[J]. 孫娟娟,于紅,馮艷紅,彭松,程名,盧曉黎,董婉婷,崔榛.  大連海洋大學(xué)學(xué)報(bào). 2018(02)
[3]基于jieba分詞搜索與SSM框架的電子商城購物系統(tǒng)[J]. 邢彪,根絨切機(jī)多吉.  信息與電腦(理論版). 2018(07)
[4]基于神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別[J]. 王蕾,謝云,周俊生,顧彥慧,曲維光.  中文信息學(xué)報(bào). 2018(03)
[5]基于CNN-BLSTM-CRF模型的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 李麗雙,郭元?jiǎng)P.  中文信息學(xué)報(bào). 2018(01)
[6]基于深度神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別方法研究[J]. GUL Khan Safi Qamas,尹繼澤,潘麗敏,羅森林.  信息網(wǎng)絡(luò)安全. 2017(10)
[7]基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別[J]. 張海楠,伍大勇,劉悅,程學(xué)旗.  中文信息學(xué)報(bào). 2017(04)
[8]Short-term wind power forecasting using hybrid method based on enhanced boosting algorithm[J]. Yu JIANG,Xingying CHEN,Kun YU,Yingchen LIAO.  Journal of Modern Power Systems and Clean Energy. 2017(01)
[9]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒.  工業(yè)控制計(jì)算機(jī). 2016(02)
[10]基于CRF和規(guī)則相結(jié)合的地理命名實(shí)體識(shí)別方法[J]. 何炎祥,羅楚威,胡彬堯.  計(jì)算機(jī)應(yīng)用與軟件. 2015(01)

博士論文
[1]大規(guī)模軟件可信性度量分析原理及其方法的研究[D]. 劉錚.東北大學(xué) 2010

碩士論文
[1]基于神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別研究[D]. 王蕾.南京師范大學(xué) 2017
[2]基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別研究[D]. 王國昱.北京工業(yè)大學(xué) 2015
[3]中文分詞歧義消解技術(shù)的研究[D]. 李偉.青島科技大學(xué) 2014
[4]基于理解的漢語分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 蘇勇.電子科技大學(xué) 2011
[5]基于規(guī)則的命名實(shí)體識(shí)別研究[D]. 周昆.合肥工業(yè)大學(xué) 2010
[6]中文分詞關(guān)鍵技術(shù)研究[D]. 曹衛(wèi)峰.南京理工大學(xué) 2009
[7]基于統(tǒng)計(jì)的生物命名實(shí)體識(shí)別研究[D]. 邱莎.四川大學(xué) 2006
[8]基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)的中文命名實(shí)體識(shí)別[D]. 孟迎.昆明理工大學(xué) 2004



本文編號(hào):3271277

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3271277.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2dab1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com