天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多模型的中文分詞方法研究

發(fā)布時(shí)間:2021-11-01 18:03
  字標(biāo)注分詞方法借助于優(yōu)秀的學(xué)習(xí)算法成為當(dāng)前中文分詞領(lǐng)域中一種較為有效的分詞方法。但由于漢字具有不同語(yǔ)言功能與含義這一特點(diǎn),造成每個(gè)字的構(gòu)詞規(guī)律存在差異。因此,基于字進(jìn)行多模型分詞建模成為一種分詞策略。然而,現(xiàn)有分詞方法存在兩點(diǎn)現(xiàn)象:(1)基于字進(jìn)行分詞建模,盡管可以學(xué)習(xí)出每個(gè)字特殊的構(gòu)詞規(guī)律,卻忽略構(gòu)詞規(guī)律中的共性問題,造成模型冗余;(2)自神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)方法興起,使得自動(dòng)學(xué)習(xí)特征成為可能。利用神經(jīng)網(wǎng)絡(luò)進(jìn)行自動(dòng)表征學(xué)習(xí)成為分詞領(lǐng)域中的自然選擇。本文針對(duì)上述分詞領(lǐng)域所存在的現(xiàn)象,提出相應(yīng)的方法:針對(duì)現(xiàn)象一,本文提出了基于字簇的多模型中文分詞方法。該方法借助聚類算法試圖發(fā)掘構(gòu)詞規(guī)律分布結(jié)構(gòu),以此作為分詞建模依據(jù),重新進(jìn)行特征抽取與模型訓(xùn)練。實(shí)驗(yàn)結(jié)果證明,本文所提出的方法在提高分詞性能的同時(shí),大幅度減少模型數(shù)量,避免模型冗余。針對(duì)現(xiàn)象二,本文提出了基于字的多Bi-LSTM模型的中文分詞方法。該方法基于字進(jìn)行分詞建模,并借助Bi-LSTM神經(jīng)網(wǎng)絡(luò)特有的優(yōu)勢(shì)進(jìn)行自動(dòng)特征學(xué)習(xí),避免特征工程對(duì)分詞性能的影響。與此同時(shí),為了避免模型冗余問題,引入聚類思想,提出了基于字簇的多Bi-LSTM模型的中文... 

【文章來(lái)源】:沈陽(yáng)航空航天大學(xué)遼寧省

【文章頁(yè)數(shù)】:69 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于多模型的中文分詞方法研究


詞位標(biāo)注集

詞位,標(biāo)注集


沈陽(yáng)航空航天大學(xué)碩士學(xué)位論文法是指利用某種標(biāo)記集合來(lái)記錄每個(gè)字在構(gòu)詞過程中的位置信息用 2 種標(biāo)記狀態(tài)進(jìn)行詞位信息記錄,分別為 S 和 C 標(biāo)簽。其中 S個(gè)字處于分離狀態(tài)(Separation),即以當(dāng)前字符開始一個(gè)新的詞;前一個(gè)字處于結(jié)合狀態(tài)(Combination),即與前一個(gè)字組成一個(gè)詞4 詞位標(biāo)記方法采用 4 種標(biāo)記狀態(tài),分別為 S、B、M、E 四種標(biāo)該字單獨(dú)構(gòu)成一個(gè)詞(Single);B 標(biāo)簽表示該字位于詞的開始位置字位于詞的中間位置(Middle);E 標(biāo)簽表示該字位于詞的結(jié)束位 詞位標(biāo)記方法中規(guī)定每個(gè)字最多有 6 種構(gòu)詞位置,即 S(獨(dú)立成多字詞中第一個(gè)字符位置)、M2(多字詞中第二個(gè)字符位置)、M3位置)、E(詞尾)。以“首都各界群眾和勞動(dòng)模范�!睘槔�,具體、2.2、2.3 所示。

詞位,標(biāo)注集


用 2 種標(biāo)記狀態(tài)進(jìn)行詞位信息記錄,分別為 S 和 C 標(biāo)簽。其中 S個(gè)字處于分離狀態(tài)(Separation),即以當(dāng)前字符開始一個(gè)新的詞;前一個(gè)字處于結(jié)合狀態(tài)(Combination),即與前一個(gè)字組成一個(gè)詞4 詞位標(biāo)記方法采用 4 種標(biāo)記狀態(tài),分別為 S、B、M、E 四種標(biāo)該字單獨(dú)構(gòu)成一個(gè)詞(Single);B 標(biāo)簽表示該字位于詞的開始位置字位于詞的中間位置(Middle);E 標(biāo)簽表示該字位于詞的結(jié)束位 詞位標(biāo)記方法中規(guī)定每個(gè)字最多有 6 種構(gòu)詞位置,即 S(獨(dú)立成多字詞中第一個(gè)字符位置)、M2(多字詞中第二個(gè)字符位置)、M3位置)、E(詞尾)。以“首都各界群眾和勞動(dòng)模范。”為例,具體、2.2、2.3 所示。圖 2.1 2 詞位標(biāo)注集

【參考文獻(xiàn)】:
期刊論文
[1]一種基于字的多模型中文分詞方法[J]. 張少陽(yáng),王裴巖,蔡?hào)|風(fēng).  沈陽(yáng)航空航天大學(xué)學(xué)報(bào). 2017(01)
[2]基于LSTM網(wǎng)絡(luò)的序列標(biāo)注中文分詞法[J]. 任智慧,徐浩煜,封松林,周晗,施俊.  計(jì)算機(jī)應(yīng)用研究. 2017(05)
[3]基于Hash結(jié)構(gòu)詞典的雙向最大匹配分詞法[J]. 陳之彥,李曉杰,朱淑華,付丹龍,邢詒海.  計(jì)算機(jī)科學(xué). 2015(S2)
[4]基于表示學(xué)習(xí)的中文分詞算法探索[J]. 來(lái)斯惟,徐立恒,陳玉博,劉康,趙軍.  中文信息學(xué)報(bào). 2013(05)
[5]基于最大間隔馬爾可夫網(wǎng)模型的漢語(yǔ)分詞方法[J]. 李月倫,常寶寶.  中文信息學(xué)報(bào). 2010(01)
[6]一種基于字詞聯(lián)合解碼的中文分詞方法[J]. 宋彥,蔡?hào)|風(fēng),張桂平,趙海.  軟件學(xué)報(bào). 2009(09)
[7]基于反序詞典的中文分詞技術(shù)研究[J]. 羅桂瓊,費(fèi)洪曉,戴弋.  計(jì)算機(jī)技術(shù)與發(fā)展. 2008(01)
[8]基于有效子串標(biāo)注的中文分詞[J]. 趙海,揭春雨.  中文信息學(xué)報(bào). 2007(05)
[9]中文分詞十年回顧[J]. 黃昌寧,趙海.  中文信息學(xué)報(bào). 2007(03)
[10]基于反序詞典的中文逆向最大匹配分詞系統(tǒng)設(shè)計(jì)[J]. 張李義,李亞子.  現(xiàn)代圖書情報(bào)技術(shù). 2006(08)



本文編號(hào):3470555

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3470555.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶75cee***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com