中文分詞中詞典分詞和模型分詞融合的實證研究
發(fā)布時間:2021-07-28 01:52
將一連串的字段根據(jù)一定的規(guī)律分成一個個獨立的、可識別的字段就是中文分詞過程。因為中文是由一個個漢字組成,沒有便于切分漢字之間的分隔符,所以中文分詞是自然語言處理的第一步,是不可避免的基本步驟,分詞處理結(jié)果是否理想直接決定了最后的結(jié)果是否理想化。在知識更新迭代變化快的今天,對分詞處理方法的靈活性和科學(xué)性有了更多、更高的要求;ヂ(lián)網(wǎng)的普及讓大量的新詞匯不斷涌現(xiàn),這些新詞匯的產(chǎn)生不僅是互聯(lián)網(wǎng)進步的一個反應(yīng),同時也對詞典分詞發(fā)起了新的挑戰(zhàn),如何高效迅速的處理這些包含新詞匯的文本是文本詞典的重點研究對象。目前的分詞系統(tǒng)中主要使用詞典分詞或者機器學(xué)習(xí)分詞完成分詞任務(wù)。而詞典分詞雖然可控性好、分詞速度快,但是其對未登錄詞無法正確切分。雖然機器學(xué)習(xí)模型CRF能夠很好解決未登錄詞問題,但訓(xùn)練CRF需要人工設(shè)計很多特征,且需要花費很多時間來驗證特征的有效性。基于深度學(xué)習(xí)的自然語言處理算法逐漸興起之后,在序列標(biāo)注任務(wù)上使得模型能夠自動的抽取特征成為可能,大大減少了人工設(shè)計特征的工作量。雖然基于模型的分詞能夠很好的解決未登錄詞問題,但是其可控性沒有詞典分詞好,對于一個未解決的新詞模型,詞典分詞可以快速的人工添...
【文章來源】:廣西師范大學(xué)廣西壯族自治區(qū)
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【部分圖文】:
CDWS結(jié)構(gòu)圖
圖 1.1 CDWS 結(jié)構(gòu)圖北航提出 CASS 漢語自動分詞系統(tǒng),如下圖所示。該系統(tǒng)采用嵌套的方最大匹配法(ASM),從而能夠識別出多種多義切分語料。同時 CASS 系用的是首字索引的結(jié)構(gòu)方式,通過可變長記錄的鍵值文件實現(xiàn)節(jié)省存儲相對于 CDWS 效率提高了十幾倍,達(dá)到了 200 字/秒,分詞準(zhǔn)確率也相對
圖 1.3 ABWS 系統(tǒng)結(jié)構(gòu)圖北京師范大學(xué)是首個將中文分詞系統(tǒng)完整的引進到專家系統(tǒng)方法中,而且該理機和知識庫互不干涉,相互獨立,其詞典采用首字索引的數(shù)據(jù)結(jié)構(gòu)。實驗顯示系統(tǒng)在封閉語料下的切分準(zhǔn)確率高達(dá) 99.94%,對開放語料的切分精度也達(dá)到 99速度約為 200 字/秒左右。清華大學(xué)先后提出 SEG 系統(tǒng)和 SEGTAG 系統(tǒng),SEG 分詞系統(tǒng)[7]是從用戶的角度戶可以任選合適的切分算法,靈活應(yīng)對。該系統(tǒng)自帶雙向最大匹配、全切分-評法、正向以及反向算法[8]。針對文本語料存在的多種問題,該系統(tǒng)都有對應(yīng)的算比如:正向或者反向最大匹配法可以解決歧義較少的語料問題。全切分-評價算在于,隨著切分的多次進行,精度會不斷提高,甚至?xí)_(dá)到 99%左右。SEGTAG 系的對象更為繁雜多樣,將所獲得的信息進行綜合,盡可能的提高切分的準(zhǔn)確度。用 DAG(有向圖)來收集信息,并且有自己的切分標(biāo)志,系統(tǒng)可根據(jù)切分標(biāo)志和實現(xiàn)全切分。資料顯示,該系統(tǒng)切分準(zhǔn)確度在 99%左右,切分速度約 30 字/秒。
本文編號:3306965
【文章來源】:廣西師范大學(xué)廣西壯族自治區(qū)
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【部分圖文】:
CDWS結(jié)構(gòu)圖
圖 1.1 CDWS 結(jié)構(gòu)圖北航提出 CASS 漢語自動分詞系統(tǒng),如下圖所示。該系統(tǒng)采用嵌套的方最大匹配法(ASM),從而能夠識別出多種多義切分語料。同時 CASS 系用的是首字索引的結(jié)構(gòu)方式,通過可變長記錄的鍵值文件實現(xiàn)節(jié)省存儲相對于 CDWS 效率提高了十幾倍,達(dá)到了 200 字/秒,分詞準(zhǔn)確率也相對
圖 1.3 ABWS 系統(tǒng)結(jié)構(gòu)圖北京師范大學(xué)是首個將中文分詞系統(tǒng)完整的引進到專家系統(tǒng)方法中,而且該理機和知識庫互不干涉,相互獨立,其詞典采用首字索引的數(shù)據(jù)結(jié)構(gòu)。實驗顯示系統(tǒng)在封閉語料下的切分準(zhǔn)確率高達(dá) 99.94%,對開放語料的切分精度也達(dá)到 99速度約為 200 字/秒左右。清華大學(xué)先后提出 SEG 系統(tǒng)和 SEGTAG 系統(tǒng),SEG 分詞系統(tǒng)[7]是從用戶的角度戶可以任選合適的切分算法,靈活應(yīng)對。該系統(tǒng)自帶雙向最大匹配、全切分-評法、正向以及反向算法[8]。針對文本語料存在的多種問題,該系統(tǒng)都有對應(yīng)的算比如:正向或者反向最大匹配法可以解決歧義較少的語料問題。全切分-評價算在于,隨著切分的多次進行,精度會不斷提高,甚至?xí)_(dá)到 99%左右。SEGTAG 系的對象更為繁雜多樣,將所獲得的信息進行綜合,盡可能的提高切分的準(zhǔn)確度。用 DAG(有向圖)來收集信息,并且有自己的切分標(biāo)志,系統(tǒng)可根據(jù)切分標(biāo)志和實現(xiàn)全切分。資料顯示,該系統(tǒng)切分準(zhǔn)確度在 99%左右,切分速度約 30 字/秒。
本文編號:3306965
本文鏈接:http://sikaile.net/wenyilunwen/yuyanyishu/3306965.html
最近更新
教材專著