基于特征過濾對比的新詞語識別

發(fā)布時間：2021-03-04 08:23

　　新詞語的自動識別是語言監(jiān)測工作中的重要環(huán)節(jié)，更是新詞語研究的重要手段。這一技術(shù)的深入發(fā)展可以有效地促進漢語信息處理、詞典編纂等工作的開展。對于新詞語的自動識別，其本質(zhì)在于新、舊字符串的對比。這些字符串就需要從前景語料和背景語料中分別獲取。不論是采用基于規(guī)則的方法還是基于統(tǒng)計的方法，在字符串獲取的過程中都會產(chǎn)生大量的垃圾串，尤其是從前景語料獲取的字符串，這些垃圾串的大量存在都會嚴(yán)重地影響新詞語的識別效果。因此，通過分析新詞語的不同特征，提出基于特征過濾的字符串獲取方法，這一方法是在字符串獲取之前，將一些構(gòu)詞能力差的語言成分刪除，這樣可以有效地減少字符串的產(chǎn)生，以便進行下一步處理。在垃圾串過濾階段，根據(jù)新詞語的構(gòu)成特點，提出基于二元結(jié)構(gòu)的過濾方法，該方法可以有效過濾由三個或三個以上分詞碎片構(gòu)成的垃圾串。在過濾的基礎(chǔ)上，對候選串進行多方面統(tǒng)計特征值的考查：從成詞概率、構(gòu)詞模式概率及平均互信息的計算結(jié)果判斷該候選串的有效性。在不使用統(tǒng)計模型的情況下，召回率與準(zhǔn)確率分別為86.22%和0.15%；在使用統(tǒng)計模式之后，召回率與準(zhǔn)確率分別達(dá)到43.86%和49.92%。

【文章來源】：渤海大學(xué)遼寧省

【文章頁數(shù)】：66 頁

【學(xué)位級別】：碩士

【文章目錄】：
摘要
ABSTRACT
目錄
Contents
1 緒論
    1.1 緣起
    1.2 研究目的及意義
        1.2.1 研究目的
        1.2.2 研究意義
    1.3 研究對象及材料來源
        1.3.1 研究對象
        1.3.2 材料來源
    1.4 新詞語自動識別的研究概述
        1.4.1 基于規(guī)則的方法
        1.4.2 基于統(tǒng)計的方法
        1.4.3 規(guī)則與統(tǒng)計相結(jié)合的方法
        1.4.4 新詞語識別的難點
    1.5 本文的研究方法及創(chuàng)新
    1.6 本文的組織安排
2 新詞語相關(guān)分析
    2.1 新詞語用字分析
    2.2 新詞語的詞長分析
    2.3 新詞語構(gòu)成成分的詞類分析
    2.4 新詞語的構(gòu)成模式分析
    2.5 本章小結(jié)
3 基于特征與統(tǒng)計的新詞語提取方法
    3.1 基于特征過濾的字符集獲取
        3.1.1 分詞碎片和碎片組
        3.1.2 語料切分及字符串獲取
        3.1.3 特征碎片及其過濾
        3.1.4 該方法的實驗評測
    3.2 新詞語候選集的獲取
        3.2.1 基于參照詞庫的過濾
        3.2.2 包含性字符串的歸并
        3.2.3 基于二元結(jié)構(gòu)的過濾
        3.2.4 基于規(guī)則的候選詞語集過濾
    3.3 基于統(tǒng)計模型的新詞語識別
        3.3.1 成詞概率
        3.3.2 漢字構(gòu)詞模式
        3.3.3 平均互信息
    3.4 本章小結(jié)
4 系統(tǒng)的設(shè)計、實現(xiàn)及實驗結(jié)果
    4.1 新詞語自動提取系統(tǒng)的設(shè)計
        4.1.1 系統(tǒng)設(shè)計
        4.1.2 系統(tǒng)流程圖
        4.1.3 算法描述
    4.2 實驗過程及結(jié)果測評
        4.2.1 實驗過程
        4.2.2 實驗測評指標(biāo)
        4.2.3 實驗結(jié)果分析
        4.2.4 新詞語丟失原因分析
    4.3 本章小結(jié)
5 系統(tǒng)在 2011 年度新詞語提取上的應(yīng)用
    5.1 實驗過程
    5.2 實驗結(jié)果
    5.3 本章小結(jié)
結(jié)論
參考文獻
附錄 CUCBst1.0 分詞標(biāo)注系統(tǒng)標(biāo)記集
致謝
在讀期間發(fā)表論文情況

【參考文獻】：
期刊論文
[1]基于二元背景模型的新詞發(fā)現(xiàn)[J]. 吳悅,燕鵬舉,翟魯峰.  清華大學(xué)學(xué)報(自然科學(xué)版). 2011(09)
[2]基于統(tǒng)計信息的未登錄詞的擴展識別方法[J]. 韓艷,林煜熙,姚建民.  中文信息學(xué)報. 2009(03)
[3]2006年以來的漢語新詞語面面觀——非族群詞語[J]. 王琪.  渭南師范學(xué)院學(xué)報. 2009(03)
[4]不限領(lǐng)域的中文新詞的識別研究[J]. 韓艷,姚建民,朱巧明,張晶.  鄭州大學(xué)學(xué)報(理學(xué)版). 2008(03)
[5]三字詞中的類詞綴[J]. 曾立英.  語言文字應(yīng)用. 2008(02)
[6]基于動態(tài)流通語料庫（DCC）的新詞語監(jiān)測[J]. 劉長征.  長江學(xué)術(shù). 2008(01)
[7]漢語三音節(jié)新詞語與類詞綴的發(fā)展初探[J]. 韓晨宇.  北京廣播電視大學(xué)學(xué)報. 2007(03)
[8]漢語未登錄詞識別現(xiàn)狀及一種新識別方法介紹[J]. 王蕾,楊季文.  計算機應(yīng)用與軟件. 2007(08)
[9]一種基于大規(guī)模語料的新詞識別方法[J]. 賀敏,龔才春,張華平,程學(xué)旗.  計算機工程與應(yīng)用. 2007(21)
[10]基于多特征的自適應(yīng)新詞識別[J]. 羅智勇,宋柔.  北京工業(yè)大學(xué)學(xué)報. 2007(07)

碩士論文
[1]基于大規(guī)模語料庫的中文新詞識別[D]. 呂紅良.大連理工大學(xué) 2008
[2]中文新詞檢測與分析[D]. 崔世起.中國科學(xué)院研究生院（計算技術(shù)研究所） 2006

本文編號：3062889

資料下載

論文發(fā)表

本文鏈接：http://sikaile.net/wenyilunwen/hanyulw/3062889.html

上一篇：重慶市萬州區(qū)地名用字探究
下一篇：構(gòu)建以構(gòu)成要素為基底的翻譯研究學(xué)科構(gòu)架

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于特征過濾對比的新詞語識別